====== Binomické konfidenční intervaly a jejich interpretace ====== Konfidenční intervaly (intervaly spolehlivosti) jsou jedním ze způsobů, jak zjistit, nakolik můžeme generalizovat data naměřená na vzorku. Pokud tedy například zjistíme, že v korpusu o sto milionech slov má nějaký jev [[pojmy:frekvence|frekvenci]] čtyřicet výskytů, nemůžeme čekat, že ve srovnatelném korpusu obdobně sestaveném bude mít stejný jev úplně stejnou frekvenci, neboť frekvence slov v textu je dána souhrou mnoha náhodných jevů. [[wp>Binomial_distribution|Binomické]] konfidenční intervaly určují, v jakém rozmezí by se hodnota s největší pravděpodobností pohybovala, kdybychom ji naměřili ještě jednou na jiném (ale srovnatelném) korpusu. ======Vzorec pro výpočet====== Protože korpusová lingvistika obvykle pracuje s velkými čísly, nepoužívají nástroje ČNK exaktní vzorec pro výpočet, ale tzv. Wilsonovu aproximaci, [(:harvard:Wilson)] která je vhodná pro hodnoty, s nimiž se v kontextu korpusové lingvistiky obvykle pracuje. [(:harvard:Wilson>> author : Wilson, E. B. first1 : E. B. authorlink1 : Edwin Bidwell Wilson title : Probable inference, the law of succession, and statistical inference journal: Journal of the American Statistical Association volume : 22 pages : 209–212 year : 1927 jstor : 2276774 doi : 10.1080/01621459.1927.10502953 )] $$ \frac{1}{1 + \frac{1}{n} z^2} \left[ \hat{p} + \frac{1}{2n} z^2 \pm z \sqrt{ \frac{1}{n}\hat{p} \left(1 - \hat{p}\right) + \frac{1}{4n^2}z^2 } \,\right] $$ Více o různých aproximacích, technických detailech a využití binomických intervalů v lingvistice se dozvíte zde[(:harvard:wallis)] a zde [(:harvard:milicka)]. [(:harvard:wallis>> title:Binomial confidence intervals and contingency tests: mathematical fundamentals and the evaluation of alternative methods author:Wallis, Sean journal:Journal of Quantitative Linguistics volume:20 number:3 pages:178--208 year:2013 publisher:Taylor and Francis )] [(:harvard:milicka>> title:Binomické intervaly v empirické lingvistice author:Milička, Jiří journal:Lingvistika Praha year:2014 url :http://lingvistikapraha.ff.cuni.cz/sbornik/2014/Milicka_LP2014.pdf )] =====Interpretace===== Např. tvar //bychom// se v korpusu [[cnk:syn2015|SYN2015]] vyskytuje 23 408krát, zatímco tvar //bysme// pouze 1017krát. Poměr mezi frekvencí varianty //bysme// a souhrnnou frekvencí obou variant je 0,04164, přičemž 95% konfidenční interval tohoto výsledku leží mezi 0,03917 a 0,4422. Z toho plyne, že varianta //bychom// je třiadvacetkrát častější než varianta //bysme// (přesněji 23,017krát častější), přičemž kdybychom sestavili třeba 1000 korpusů srovnatelných s korpusem SYN2015, v 950 z nich by se tento poměr nacházel někde mezi hodnotami 21,614 a 24,53. --- //Jiří Milička// =====Reference====