====== Binomické konfidenční intervaly a jejich interpretace ======

Konfidenční intervaly (intervaly spolehlivosti) jsou jedním ze způsobů, jak zjistit, nakolik můžeme generalizovat data naměřená na vzorku. Pokud tedy například zjistíme, že v korpusu o sto milionech slov má nějaký jev [[pojmy:frekvence|frekvenci]] čtyřicet výskytů, nemůžeme čekat, že ve srovnatelném korpusu obdobně sestaveném bude mít stejný jev úplně stejnou frekvenci, neboť frekvence slov v textu je dána souhrou mnoha náhodných jevů. [[wp>Binomial_distribution|Binomické]] konfidenční intervaly určují, v jakém rozmezí by se hodnota s největší pravděpodobností pohybovala, kdybychom ji naměřili ještě jednou na jiném (ale srovnatelném) korpusu.

======Vzorec pro výpočet======
Protože korpusová lingvistika obvykle pracuje s velkými čísly, nepoužívají nástroje ČNK exaktní vzorec pro výpočet, ale tzv. Wilsonovu aproximaci, [(:harvard:Wilson)] která je vhodná pro hodnoty, s nimiž se v kontextu korpusové lingvistiky obvykle pracuje.

[(:harvard:Wilson>>
author : Wilson, E. B.
first1 : E. B.
authorlink1 : Edwin Bidwell Wilson
title : Probable inference, the law of succession, and statistical inference
 journal: Journal of the American Statistical Association
volume : 22
 pages : 209–212
year : 1927
jstor : 2276774
 doi : 10.1080/01621459.1927.10502953
)]


$$
  \frac{1}{1 + \frac{1}{n} z^2}
  \left[
    \hat{p} + \frac{1}{2n} z^2 \pm
    z \sqrt{
      \frac{1}{n}\hat{p} \left(1 - \hat{p}\right) +
      \frac{1}{4n^2}z^2
    } 
   \,\right]
$$

Více o různých aproximacích, technických detailech a využití binomických intervalů v lingvistice se dozvíte zde[(:harvard:wallis)] a zde [(:harvard:milicka)].

[(:harvard:wallis>>
  title:Binomial confidence intervals and contingency tests: mathematical fundamentals and the evaluation of alternative methods
  author:Wallis, Sean
  journal:Journal of Quantitative Linguistics
  volume:20
  number:3
  pages:178--208
  year:2013
  publisher:Taylor and Francis
)]
[(:harvard:milicka>>
  title:Binomické intervaly v empirické lingvistice
  author:Milička, Jiří
  journal:Lingvistika Praha
  year:2014
  url        :http://lingvistikapraha.ff.cuni.cz/sbornik/2014/Milicka_LP2014.pdf
)]

=====Interpretace=====

Např. tvar //bychom// se v korpusu [[cnk:syn2015|SYN2015]] vyskytuje 23 408krát, zatímco tvar //bysme// pouze 1017krát. Poměr mezi frekvencí varianty //bysme// a souhrnnou frekvencí obou variant je 0,04164, přičemž 95% konfidenční interval tohoto výsledku leží mezi 0,03917 a 0,4422.

Z toho plyne, že varianta //bychom// je třiadvacetkrát častější než varianta //bysme// (přesněji 23,017krát častější), přičemž kdybychom sestavili třeba 1000 korpusů srovnatelných s korpusem SYN2015, v 950 z nich by se tento poměr nacházel někde mezi hodnotami 21,614 a 24,53.

--- //Jiří Milička//

=====Reference====