AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
kurz:nahodne_vzorky [2016/02/23 10:34] – [Doporučení] vaclavcvrcekkurz:nahodne_vzorky [2017/10/25 13:56] – [Studentovo rozdělení] vaclavcvrcek
Řádek 1: Řádek 1:
 ====== Určení spolehlivosti měření metodou náhodných vzorků ====== ====== Určení spolehlivosti měření metodou náhodných vzorků ======
  
-V určitých situacích je vzhledem k obrovskému množství dat v současných korpusech nutné provádět měření na náhodných [[manualy:kontext:konkordance#vzorky|vzorcích]]. Následující postup by měl na základě statistických metod pomoct v určení míry spolehlivosti takto získaných výsledků. Za účelem snadnějšího vyhodnocování byla pro výpočet spolehlivosti naprogramována jednoduchá **[[http://ucnk.ff.cuni.cz/bonito/kalkulacka.php|kalkulačka]]**.+V určitých situacích je vzhledem k obrovskému množství dat v současných korpusech nutné provádět měření na náhodných [[manualy:kontext:konkordance#vzorky|vzorcích]]. Následující postup by měl na základě statistických metod pomoct v určení míry spolehlivosti takto získaných výsledků. Za účelem snadnějšího vyhodnocování byla pro výpočet spolehlivosti naprogramována jednoduchá **[[http://ucnk.korpus.cz/bonito/kalkulacka.php|kalkulačka]]**.
  
 Mějme následující hypotetickou situaci (všechny údaje v celém textu jsou smyšlené): chceme zjistit poměr genitivní a lokálové interpretace slovního tvaru //třech// v korpusu [[cnk:syn2005|SYN2005]]. V korpusu najdeme 6387 výskytů tohoto slova (tento soubor se nazývá celková populace nebo také základní vzorek). Nemůžeme (nebo nechceme) se spolehnout na [[pojmy:morfologicka_analyza|morfologické značkování]] a proto přistoupíme k vytváření náhodných vzorků (v rozhraní KonText v menu [[manualy:kontext:konkordance#vzorky|Konkordance > Vzorky]]) z celkové populace všech výskytů tohoto slova (ponechme teď stranou, jak moc ne/náhodné vzorky jsou). Mějme následující hypotetickou situaci (všechny údaje v celém textu jsou smyšlené): chceme zjistit poměr genitivní a lokálové interpretace slovního tvaru //třech// v korpusu [[cnk:syn2005|SYN2005]]. V korpusu najdeme 6387 výskytů tohoto slova (tento soubor se nazývá celková populace nebo také základní vzorek). Nemůžeme (nebo nechceme) se spolehnout na [[pojmy:morfologicka_analyza|morfologické značkování]] a proto přistoupíme k vytváření náhodných vzorků (v rozhraní KonText v menu [[manualy:kontext:konkordance#vzorky|Konkordance > Vzorky]]) z celkové populace všech výskytů tohoto slova (ponechme teď stranou, jak moc ne/náhodné vzorky jsou).
Řádek 29: Řádek 29:
 Výhodou [[wp>Student_distribution|Studentova rozdělení]] je fakt, že dává lepší výsledky i pro relativně malé vzorky. Na základě kritických hodnot tohoto rozdělení, které najdeme v každé lepší statistické příručce nebo na [[http://www.itl.nist.gov/div898/handbook/eda/section3/eda3672.htm|webu]], spočítáme, v jakých intervalech se skutečná hodnota v rámci celé populace na určité hladině významnosti nachází. Výhodou [[wp>Student_distribution|Studentova rozdělení]] je fakt, že dává lepší výsledky i pro relativně malé vzorky. Na základě kritických hodnot tohoto rozdělení, které najdeme v každé lepší statistické příručce nebo na [[http://www.itl.nist.gov/div898/handbook/eda/section3/eda3672.htm|webu]], spočítáme, v jakých intervalech se skutečná hodnota v rámci celé populace na určité hladině významnosti nachází.
  
-Pro naše účely můžeme použit hladinu významnosti α = 0,05 (tedy připouštíme 5% pravděpodobnost chyby). Jelikož se však jedná o oboustranný test (odchylky můžeme očekávat jak směrem dolů, tak směrem nahoru), je třeba při výpočtech užívat hodnotu ekvivalentní pro polovinu zvolené hladiny spolehlivosti, abychom dostali výpočet platný pro zvolenou pravděpodobnost chyby. Další veličinu, kterou budeme potřebovat pro určení koeficientu t-rozdělní jsou stupně volnosti ([[wp>Degrees_of_freedom_(statistics)|degrees of freedom]] – df), což je v tomto případě číslo rovnající se počtu měření zmenšenému o jedna. Z tabulky tedy vyčteme, že koeficient pro tuto hladinu a pro 2 stupně volnosti (tedy 3 měření - 1) je 4,303.+Pro naše účely můžeme použit hladinu významnosti α = 0,05 (tedy připouštíme 5% pravděpodobnost chyby). Jelikož se však jedná o oboustranný test (odchylky můžeme očekávat jak směrem dolů, tak směrem nahoru), je třeba při výpočtech užívat hodnotu ekvivalentní pro polovinu zvolené hladiny spolehlivosti, abychom dostali výpočet platný pro zvolenou pravděpodobnost chyby. Další veličinu, kterou budeme potřebovat pro určení koeficientu t-rozdělníjsou stupně volnosti ([[wp>Degrees_of_freedom_(statistics)|degrees of freedom]] – df), což je v tomto případě číslo rovnající se počtu měření zmenšenému o jedna. Z tabulky tedy vyčteme, že koeficient pro tuto hladinu a pro 2 stupně volnosti (tedy 3 měření - 1) je 4,303.
  
 Když vydělíme SD druhou odmocninou z počtu měření (vzorků), získáme veličinu známou jako standardní chyba (standard error – SE). Po vynásobení příslušnou kritickou hodnotou Studentova rozdělení dostaneme číslo, které když přičteme a odečteme k/od průměru, získáme oblast, v níž se na 95 % (odvozeno od zvolené hladiny významnosti) nachází průměrná hodnota celé populace. V našem případě je to $0,01 \times 4,303 / \sqrt{3} = 0,025$. Z toho plyne, že v populaci výskytu slova //třech// je genitivní interpretace zastoupena 5 % ± 2,5 procentního bodu. Když vydělíme SD druhou odmocninou z počtu měření (vzorků), získáme veličinu známou jako standardní chyba (standard error – SE). Po vynásobení příslušnou kritickou hodnotou Studentova rozdělení dostaneme číslo, které když přičteme a odečteme k/od průměru, získáme oblast, v níž se na 95 % (odvozeno od zvolené hladiny významnosti) nachází průměrná hodnota celé populace. V našem případě je to $0,01 \times 4,303 / \sqrt{3} = 0,025$. Z toho plyne, že v populaci výskytu slova //třech// je genitivní interpretace zastoupena 5 % ± 2,5 procentního bodu.