Obsah
Binomické konfidenční intervaly a jejich interpretace
Konfidenční intervaly (intervaly spolehlivosti) jsou jedním ze způsobů, jak zjistit, nakolik můžeme generalizovat data naměřená na vzorku. Pokud tedy například zjistíme, že v korpusu o sto milionech slov má nějaký jev frekvenci čtyřicet výskytů, nemůžeme čekat, že ve srovnatelném korpusu obdobně sestaveném bude mít stejný jev úplně stejnou frekvenci, neboť frekvence slov v textu je dána souhrou mnoha náhodných jevů. Binomické konfidenční intervaly určují, v jakém rozmezí by se hodnota s největší pravděpodobností pohybovala, kdybychom ji naměřili ještě jednou na jiném (ale srovnatelném) korpusu.
Vzorec pro výpočet
Protože korpusová lingvistika obvykle pracuje s velkými čísly, nepoužívají nástroje ČNK exaktní vzorec pro výpočet, ale tzv. Wilsonovu aproximaci, (Wilson, E. B., 1927) která je vhodná pro hodnoty, s nimiž se v kontextu korpusové lingvistiky obvykle pracuje.
$$ \frac{1}{1 + \frac{1}{n} z^2} \left[ \hat{p} + \frac{1}{2n} z^2 \pm z \sqrt{ \frac{1}{n}\hat{p} \left(1 - \hat{p}\right) + \frac{1}{4n^2}z^2 } \,\right] $$
Více o různých aproximacích, technických detailech a využití binomických intervalů v lingvistice se dozvíte zde(Wallis, Sean, 2013) a zde (Milička, Jiří, 2014).
Interpretace
Např. tvar bychom se v korpusu SYN2015 vyskytuje 23 408krát, zatímco tvar bysme pouze 1017krát. Poměr mezi frekvencí varianty bysme a souhrnnou frekvencí obou variant je 0,04164, přičemž 95% konfidenční interval tohoto výsledku leží mezi 0,03917 a 0,4422.
Z toho plyne, že varianta bychom je třiadvacetkrát častější než varianta bysme (přesněji 23,017krát častější), přičemž kdybychom sestavili třeba 1000 korpusů srovnatelných s korpusem SYN2015, v 950 z nich by se tento poměr nacházel někde mezi hodnotami 21,614 a 24,53.
— Jiří Milička