Binomické konfidenční intervaly a jejich interpretace

Konfidenční intervaly (intervaly spolehlivosti) jsou jedním ze způsobů, jak zjistit, nakolik můžeme generalizovat data naměřená na vzorku. Pokud tedy například zjistíme, že v korpusu o sto milionech slov má nějaký jev frekvenci čtyřicet výskytů, nemůžeme čekat, že ve srovnatelném korpusu obdobně sestaveném bude mít stejný jev úplně stejnou frekvenci, neboť frekvence slov v textu je dána souhrou mnoha náhodných jevů. Binomické konfidenční intervaly určují, v jakém rozmezí by se hodnota s největší pravděpodobností pohybovala, kdybychom ji naměřili ještě jednou na jiném (ale srovnatelném) korpusu.

Vzorec pro výpočet

Protože korpusová lingvistika obvykle pracuje s velkými čísly, nepoužívají nástroje ČNK exaktní vzorec pro výpočet, ale tzv. Wilsonovu aproximaci, (Wilson, E. B., 1927) která je vhodná pro hodnoty, s nimiž se v kontextu korpusové lingvistiky obvykle pracuje.

$$ \frac{1}{1 + \frac{1}{n} z^2} \left[ \hat{p} + \frac{1}{2n} z^2 \pm z \sqrt{ \frac{1}{n}\hat{p} \left(1 - \hat{p}\right) + \frac{1}{4n^2}z^2 } \,\right] $$

Více o různých aproximacích, technických detailech a využití binomických intervalů v lingvistice se dozvíte zde(Wallis, Sean, 2013) a zde (Milička, Jiří, 2014).

Interpretace

Např. tvar bychom se v korpusu SYN2015 vyskytuje 23 408krát, zatímco tvar bysme pouze 1017krát. Poměr mezi frekvencí varianty bysme a souhrnnou frekvencí obou variant je 0,04164, přičemž 95% konfidenční interval tohoto výsledku leží mezi 0,03917 a 0,4422.

Z toho plyne, že varianta bychom je třiadvacetkrát častější než varianta bysme (přesněji 23,017krát častější), přičemž kdybychom sestavili třeba 1000 korpusů srovnatelných s korpusem SYN2015, v 950 z nich by se tento poměr nacházel někde mezi hodnotami 21,614 a 24,53.

— Jiří Milička

Reference

1. ^{^} Wilson, E. B., 1927. Probable inference, the law of succession, and statistical inference. Journal of the American Statistical Association, 22.

2. ^{^} Wallis, Sean, 2013. Binomial confidence intervals and contingency tests: mathematical fundamentals and the evaluation of alternative methods. Journal of Quantitative Linguistics, 20, Taylor and Francis.

3. ^{^} Milička, Jiří, 2014. Binomické intervaly v empirické lingvistice. Lingvistika Praha.