Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
kurz:konfidencni_intervaly [2018/01/08 09:49]
Václav Cvrček [Interpretace]
kurz:konfidencni_intervaly [2018/01/08 10:30] (aktuální)
Michal Škrabal
Řádek 1: Řádek 1:
 ====== Binomické konfidenční intervaly a jejich interpretace ====== ====== Binomické konfidenční intervaly a jejich interpretace ======
  
-Konfidenční intervaly (intervaly spolehlivosti) jsou jedním ze způsobů jak zjistit, ​jak moc můžeme generalizovat data naměřená na vzorku. ​Tedy pokud například zjistíme, že v [[pojmy:​korpus|korpusu]] o sto milionech slov má nějaký jev [[pojmy:​frekvence|frekvenci]] čtyřicet výskytů, nemůžeme čekat, že ve srovnatelném korpusu obdobně sestavenémbude mít stejný jev navlas ​stejnou frekvenci, neboť frekvence slov v textu je dána souhrou mnoha náhodných jevů. [[wp>​Binomial_distribution|Binomické]] konfidenční intervaly určují, v jakém rozmezí by se hodnota s největší pravděpodobností pohybovala, kdybychom ji naměřili ještě jednou na jiném (ale srovnatelném) korpusu.+Konfidenční intervaly (intervaly spolehlivosti) jsou jedním ze způsobůjak zjistit, ​nakolik ​můžeme generalizovat data naměřená na vzorku. ​Pokud tedy například zjistíme, že v [[pojmy:​korpus|korpusu]] o sto milionech slov má nějaký jev [[pojmy:​frekvence|frekvenci]] čtyřicet výskytů, nemůžeme čekat, že ve srovnatelném korpusu obdobně sestaveném bude mít stejný jev úplně ​stejnou frekvenci, neboť frekvence slov v textu je dána souhrou mnoha náhodných jevů. [[wp>​Binomial_distribution|Binomické]] konfidenční intervaly určují, v jakém rozmezí by se hodnota s největší pravděpodobností pohybovala, kdybychom ji naměřili ještě jednou na jiném (ale srovnatelném) korpusu. 
 + 
 ======Vzorec pro výpočet====== ======Vzorec pro výpočet======
-Protože korpusová lingvistika obvykle pracuje s velkými čísly, nepoužívají nástroje ČNK exaktní vzorec pro výpočet, ale tzv. Wilsonovu aproximaci, [(:​harvard:​Wilson)] která je vhodná pro hodnoty, ​se kterými ​se v kontextu korpusové lingvistiky obvykle pracuje.+Protože korpusová lingvistika obvykle pracuje s velkými čísly, nepoužívají nástroje ČNK exaktní vzorec pro výpočet, ale tzv. Wilsonovu aproximaci, [(:​harvard:​Wilson)] která je vhodná pro hodnoty, ​s nimiž ​se v kontextu korpusové lingvistiky obvykle pracuje.
  
 [(:​harvard:​Wilson>>​ [(:​harvard:​Wilson>>​
Řádek 50: Řádek 52:
   url        :​http://​lingvistikapraha.ff.cuni.cz/​sbornik/​2014/​Milicka_LP2014.pdf   url        :​http://​lingvistikapraha.ff.cuni.cz/​sbornik/​2014/​Milicka_LP2014.pdf
 )] )]
 +
 =====Interpretace===== =====Interpretace=====
  
-Například pokud se slovo //bychom// v korpusu [[cnk:​syn2015|SYN2015]] vyskytuje 23 408 krát, zatímco //bysme// pouze 1017 krát. Poměr mezi frekvencí varianty //bysme// a souhrnnou frekvencí obou variant je 0,04164, přičemž 95% konfidenční interval tohoto výsledku leží mezi 0,03917 a 0,4422.+Např. tvar //​bychom// ​se v korpusu [[cnk:​syn2015|SYN2015]] vyskytuje 23 408krát, zatímco ​tvar //bysme// pouze 1017krát. Poměr mezi frekvencí varianty //bysme// a souhrnnou frekvencí obou variant je 0,04164, přičemž 95% konfidenční interval tohoto výsledku leží mezi 0,03917 a 0,4422.
  
-Z toho plyne, že varianta //bychom// je třiadvacetkrát častější než varianta //bysme// (přesněji ​32,015 krát častější),​ přičemž kdybychom sestavili třeba 1000 korpusů srovnatelných s korpusem SYN2015, ​tak by v 950 z nich byl ten poměr někde mezi 21,614 a 24,53.+Z toho plyne, že varianta //bychom// je třiadvacetkrát častější než varianta //bysme// (přesněji ​23,017krát ​častější),​ přičemž kdybychom sestavili třeba 1000 korpusů srovnatelných s korpusem SYN2015, v 950 z nich by se tento poměr ​nacházel ​někde mezi hodnotami ​21,614 a 24,53.
  
  
 =====Reference==== =====Reference====