AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
manual:nahodne_vzorky [2013/12/18 11:47] – [Binomické rozdělení] Václav Cvrčekkurz:nahodne_vzorky [2019/04/05 09:56] (aktuální) – [Binomické rozdělení] Václav Cvrček
Řádek 1: Řádek 1:
 ====== Určení spolehlivosti měření metodou náhodných vzorků ====== ====== Určení spolehlivosti měření metodou náhodných vzorků ======
  
-V určitých situacích je vzhledem k obrovskému množství dat v současných korpusech nutné provádět měření na náhodných [[manual:menu:konkordance#vzorky|vzorcích]]. Následující postup by měl na základě statistických metod pomoct v určení míry spolehlivosti takto získaných výsledků. Za účelem snadnějšího vyhodnocování byla pro výpočet spolehlivosti naprogramována jednoduchá **[[http://ucnk.ff.cuni.cz/bonito/kalkulacka.php|kalkulačka]]**.+V určitých situacích je vzhledem k obrovskému množství dat v současných korpusech nutné provádět měření na náhodných [[manualy:kontext:konkordance#vzorky|vzorcích]]. Následující postup by měl na základě statistických metod pomoct v určení míry spolehlivosti takto získaných výsledků. Za účelem snadnějšího vyhodnocování byla pro výpočet spolehlivosti naprogramována jednoduchá **[[http://ucnk.korpus.cz/bonito/kalkulacka.php|kalkulačka]]**.
  
-Mějme následující hypotetickou situaci (všechny údaje v celém textu jsou smyšlené): chceme zjistit poměr genitivní a lokálové interpretace slovního tvaru //třech// v korpusu [[cnk:syn2005|SYN2005]]. V korpusu najdeme 6387 výskytů tohoto slova (tento soubor se nazývá celková populace nebo také základní vzorek). Nemůžeme (nebo nechceme) se spolehnout na [[pojmy:morfologicka_analyza|morfologické značkování]] a proto přistoupíme k vytváření náhodných vzorků (v rozhraní KonText v menu [[manual:menu:konkordance#vzorky|Konkordance > Vzorky]]) z celkové populace všech výskytů tohoto slova (ponechme teď stranou, jak moc ne/náhodné vzorky jsou).+Mějme následující hypotetickou situaci (všechny údaje v celém textu jsou smyšlené): chceme zjistit poměr genitivní a lokálové interpretace slovního tvaru //třech// v korpusu [[cnk:syn2005|SYN2005]]. V korpusu najdeme 6387 výskytů tohoto slova (tento soubor se nazývá celková populace nebo také základní vzorek). Nemůžeme (nebo nechceme) se spolehnout na [[pojmy:morfologicka_analyza|morfologické značkování]] a proto přistoupíme k vytváření náhodných vzorků (v rozhraní KonText v menu [[manualy:kontext:konkordance#vzorky|Konkordance > Vzorky]]) z celkové populace všech výskytů tohoto slova (ponechme teď stranou, jak moc ne/náhodné vzorky jsou).
  
 A priori, tedy jenom z celkového počtu výskytů slova //třech// a bez znalosti rozložení lokálové a genitivní interpretace v naší populaci **nelze pomocí žádné statistické metody** říct, kolik vzorků máme vybrat a jak mají být rozsáhlé, aby byl výzkum statisticky solidní. Je totiž zjevné, že pokud by genitivní interpretace byla v celkovém počtu zastoupena pouze v 0,1 % dokladů, bylo by potřeba mnohem více a rozsáhlejších náhodných vzorků než v situaci, kdy by byly obě interpretace zastoupeny zhruba rovnoměrně. A priori, tedy jenom z celkového počtu výskytů slova //třech// a bez znalosti rozložení lokálové a genitivní interpretace v naší populaci **nelze pomocí žádné statistické metody** říct, kolik vzorků máme vybrat a jak mají být rozsáhlé, aby byl výzkum statisticky solidní. Je totiž zjevné, že pokud by genitivní interpretace byla v celkovém počtu zastoupena pouze v 0,1 % dokladů, bylo by potřeba mnohem více a rozsáhlejších náhodných vzorků než v situaci, kdy by byly obě interpretace zastoupeny zhruba rovnoměrně.
Řádek 29: Řádek 29:
 Výhodou [[wp>Student_distribution|Studentova rozdělení]] je fakt, že dává lepší výsledky i pro relativně malé vzorky. Na základě kritických hodnot tohoto rozdělení, které najdeme v každé lepší statistické příručce nebo na [[http://www.itl.nist.gov/div898/handbook/eda/section3/eda3672.htm|webu]], spočítáme, v jakých intervalech se skutečná hodnota v rámci celé populace na určité hladině významnosti nachází. Výhodou [[wp>Student_distribution|Studentova rozdělení]] je fakt, že dává lepší výsledky i pro relativně malé vzorky. Na základě kritických hodnot tohoto rozdělení, které najdeme v každé lepší statistické příručce nebo na [[http://www.itl.nist.gov/div898/handbook/eda/section3/eda3672.htm|webu]], spočítáme, v jakých intervalech se skutečná hodnota v rámci celé populace na určité hladině významnosti nachází.
  
-Pro naše účely můžeme použit hladinu významnosti α = 0,05 (tedy připouštíme 5% pravděpodobnost chyby). Jelikož se však jedná o oboustranný test (odchylky můžeme očekávat jak směrem dolů, tak směrem nahoru), je třeba při výpočtech užívat hodnotu ekvivalentní pro polovinu zvolené hladiny spolehlivosti, abychom dostali výpočet platný pro zvolenou pravděpodobnost chyby. Další veličinu, kterou budeme potřebovat pro určení koeficientu t-rozdělní jsou stupně volnosti ([[wp>Degrees_of_freedom_(statistics)|degrees of freedom]] – df), což je v tomto případě číslo rovnající se počtu měření zmenšenému o jedna. Z tabulky tedy vyčteme, že koeficient pro tuto hladinu a pro 2 stupně volnosti (tedy 3 měření - 1) je 4,303.+Pro naše účely můžeme použit hladinu významnosti α = 0,05 (tedy připouštíme 5% pravděpodobnost chyby). Jelikož se však jedná o oboustranný test (odchylky můžeme očekávat jak směrem dolů, tak směrem nahoru), je třeba při výpočtech užívat hodnotu ekvivalentní pro polovinu zvolené hladiny spolehlivosti, abychom dostali výpočet platný pro zvolenou pravděpodobnost chyby. Další veličinu, kterou budeme potřebovat pro určení koeficientu t-rozdělníjsou stupně volnosti ([[wp>Degrees_of_freedom_(statistics)|degrees of freedom]] – df), což je v tomto případě číslo rovnající se počtu měření zmenšenému o jedna. Z tabulky tedy vyčteme, že koeficient pro tuto hladinu a pro 2 stupně volnosti (tedy 3 měření - 1) je 4,303.
  
 Když vydělíme SD druhou odmocninou z počtu měření (vzorků), získáme veličinu známou jako standardní chyba (standard error – SE). Po vynásobení příslušnou kritickou hodnotou Studentova rozdělení dostaneme číslo, které když přičteme a odečteme k/od průměru, získáme oblast, v níž se na 95 % (odvozeno od zvolené hladiny významnosti) nachází průměrná hodnota celé populace. V našem případě je to $0,01 \times 4,303 / \sqrt{3} = 0,025$. Z toho plyne, že v populaci výskytu slova //třech// je genitivní interpretace zastoupena 5 % ± 2,5 procentního bodu. Když vydělíme SD druhou odmocninou z počtu měření (vzorků), získáme veličinu známou jako standardní chyba (standard error – SE). Po vynásobení příslušnou kritickou hodnotou Studentova rozdělení dostaneme číslo, které když přičteme a odečteme k/od průměru, získáme oblast, v níž se na 95 % (odvozeno od zvolené hladiny významnosti) nachází průměrná hodnota celé populace. V našem případě je to $0,01 \times 4,303 / \sqrt{3} = 0,025$. Z toho plyne, že v populaci výskytu slova //třech// je genitivní interpretace zastoupena 5 % ± 2,5 procentního bodu.
Řádek 63: Řádek 63:
 Pro interval spolehlivosti platí vzorec Pro interval spolehlivosti platí vzorec
  
-dolní mez: $$ p_1 = p' - z \times \sqrt{\frac{p'(1-p)}{n}}$$+dolní mez: $$ p_1 = p' - z \times \sqrt{\frac{p'(1-p')}{n}}$$
  
-horní mez: $$ p_1 = p' + z \times \sqrt{\frac{p'(1-p)}{n}}$$+horní mez: $$ p_2 = p' + z \times \sqrt{\frac{p'(1-p')}{n}}$$
  
-kde //z// je příslušná kritická hodnota normálního rozdělení. Při volbě hladiny významnosti 0,05 je kritická hodnota normálního rozdělení //z// rovna 1,96. Pro odhad intervalu spolehlivosti pro //M'// platí meze < //p1N p2N// >.+kde //z// je příslušná kritická hodnota normálního rozdělení. Při volbě hladiny významnosti 0,05 je kritická hodnota normálního rozdělení //z// rovna 1,96. Pro odhad intervalu spolehlivosti pro //M'// platí meze < $p_1 N$ $p_2 N$ >.
 ===== Binomické rozdělení ===== ===== Binomické rozdělení =====
  
-Pro odhad absolutní četnosti výskytu sledovaného jevu se nejlépe hodí hypergeometrické rozdělení, které je ovšem výpočetně poměrně složité. V případě vysokého počtu dat v základním souboru a relativně malého rozsahu výběru vzorku (poměr větší než 10:1) můžeme s úspěchem použít aproximaci [[wp>Binomial_distribution|binomickým rozdělením]], které je méně náročnější na výpočet. Pro ilustraci, binomické rozdělení se používá v případech modelové situace házení kostkou, kdy v několika nezávislých pokusech za sebou zjišťujeme četnost hození šestky.+Pro odhad absolutní četnosti výskytu sledovaného jevu se nejlépe hodí hypergeometrické rozdělení, které je ovšem výpočetně poměrně složité. V případě vysokého počtu dat v základním souboru a relativně malého rozsahu výběru vzorku (poměr větší než 10:1) můžeme s úspěchem použít aproximaci [[wp>Binomial_distribution|binomickým rozdělením]], které je méně náročné na výpočet. Pro ilustraci, binomické rozdělení se používá v případech modelové situace házení kostkou, kdy v několika nezávislých pokusech za sebou zjišťujeme četnost hození šestky.
  
 Mějme opět velikost základního vzorku //N//, neznámý počet výrazů //M// s hledanou vlastností. Jeho odhad provedeme na základě prostého náhodného výběru slov ze základního vzorku; rozsah vzorků budeme označovat //n//. Mějme opět velikost základního vzorku //N//, neznámý počet výrazů //M// s hledanou vlastností. Jeho odhad provedeme na základě prostého náhodného výběru slov ze základního vzorku; rozsah vzorků budeme označovat //n//.
Řádek 78: Řádek 78:
   - absolutní četnosti prvku s danou vlastností tj. parametru //M//.   - absolutní četnosti prvku s danou vlastností tj. parametru //M//.
  
-Označíme-li //X// součet vybraných slov s hledanou vlastností ve výběru, pak odhad //p// je //p'//,které vypočteme //p'= X / n//, odhad absolutní četnosti //M' = N × X / n = N × p'//.+Označíme-li //X// součet vybraných slov s hledanou vlastností ve výběru, pak odhad //p// je //p'//, které vypočteme //p'= X / n//, odhad absolutní četnosti //M' = N × X / n = N × p'//.
  
 Interval spolehlivosti je oblast, v níž se náš odhad bude vyskytovat s námi danou pravděpodobností, obvykle se používá hodnota  1-α, kde α je hladina významnosti, malé číslo, zpravidla 0,05. Tato daná pravděpodobnost tedy bude 95%. Interval spolehlivosti je oblast, v níž se náš odhad bude vyskytovat s námi danou pravděpodobností, obvykle se používá hodnota  1-α, kde α je hladina významnosti, malé číslo, zpravidla 0,05. Tato daná pravděpodobnost tedy bude 95%.
Řádek 88: Řádek 88:
 horní mez: $$p_2 = \frac{(X+1) F_2 (1 - \frac{\alpha}{2})}{n-X+(X+1)\cdot F_2 (1 - \frac{\alpha}{2})}$$ horní mez: $$p_2 = \frac{(X+1) F_2 (1 - \frac{\alpha}{2})}{n-X+(X+1)\cdot F_2 (1 - \frac{\alpha}{2})}$$
  
-kde F1(1- α/2) je první kritická hodnota Fisher-Snedecorova rozdělení. Toto rozdělení má dva stupně volnosti v1 v2; první se vypočítá pomocí vzorce v1 =  2(n − X + 1) a druhý se rovná v2 = 2X. F2 je druhá kritická hodnota Fisher-Snedecorova rozdělení se stupni volnosti v1 = 2(X + 1) a v2 = 2(n − X). Pro obojí najdeme v tabulkách hodnotu pro hladinu významnosti 1-α/2. V případě α = 0,05 hledáme hodnotu F1(0,975) a F2(0,975).+kde $F_1 (1- α/2)je první kritická hodnota [[wp>Fisher-Snedecor_distribution|Fisher-Snedecorova rozdělení]]. Toto rozdělení má dva stupně volnosti $v_1$ $v_2$; první se vypočítá pomocí vzorce $v_1 =  2(n − X + 1)a druhý se rovná $v_2 = 2X$$F_2$ je druhá kritická hodnota Fisher-Snedecorova rozdělení se stupni volnosti $v_1 = 2(X + 1)$v_2 = 2(n − X)$. Pro obojí najdeme v tabulkách hodnotu pro hladinu významnosti 1-α/2. V případě α = 0,05 hledáme hodnotu $F_1 (0,975)$F_2(0,975)$. 
 + 
 +Pro odhad intervalu spolehlivosti pro //M'// opět platí meze < $p_1 N$ , $p_2 N$ >. 
 + 
 +===== Doporučení ===== 
 + 
 +Při běžné výzkumné práci doporučujeme vycházet **minimálně** ze tří náhodných vzorků (čím víc, tím samozřejmě přesnější výsledky). Jejich souhrnná velikost by se v případě populace do 10.000 výskytů měla pohybovat okolo 10 % (opět platí, že čím větší vzorky, tím přesnější výsledky), v případě populace o řád nebo dva rozsáhlejší pak 1 % nebo 0,5 %. Pokud nejsme s výsledným intervalem spolehlivosti spokojeni, doporučujeme přidávat další vzorky spíš než vytvářet vzorky větší. Je už na badateli, aby sám zvážil, jak přesné výsledky vyžaduje. Odchylka 2 procentní body je ve společenských vědách považována za přijatelnou. Tedy v situaci, kdy po třech měřeních na náhodných vzorcích badatel zjistí, že jev, který zkoumá, nabývá hodnot 3, 4 a 17, což odpovídá interpretaci 8 průměrných výskytů ± 19 (!), je nasnadě pokračovat v dalším průzkumu. 
 + 
 + --- //Václav Cvrček, Tomáš Bartoň// 
 + 
 +---- 
 + 
 + 
 +<WRAP center round box 68%> 
 +[[http://ucnk.ff.cuni.cz/bonito/kalkulacka.php|Kalkulačka náhodných vzorků]] • [[http://www.itl.nist.gov/div898/handbook/eda/section3/eda3672.htm|Kritické hodnoty Studentova rozdělení]] • [[http://ucebnice.euromise.cz/index.php?conn=0&section=biostat1&node=8|Odhady populačních průměrů a pravděpodobností]] • [[wp>Sampling_error| Sampling error]] 
 +</WRAP>
  
-Pro odhad intervalu spolehlivosti pro M´ opět platí meze <p1N , p2N>.