AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
manual:nahodne_vzorky [2013/12/18 11:38] vaclavcvrcekkurz:nahodne_vzorky [2017/06/09 11:40] – [Určení spolehlivosti měření metodou náhodných vzorků] michalkren
Řádek 1: Řádek 1:
 ====== Určení spolehlivosti měření metodou náhodných vzorků ====== ====== Určení spolehlivosti měření metodou náhodných vzorků ======
  
-V určitých situacích je vzhledem k obrovskému množství dat v současných korpusech nutné provádět měření na náhodných [[manual:menu:konkordance#vzorky|vzorcích]]. Následující postup by měl na základě statistických metod pomoct v určení míry spolehlivosti takto získaných výsledků. Za účelem snadnějšího vyhodnocování byla pro výpočet spolehlivosti naprogramována jednoduchá **[[http://ucnk.ff.cuni.cz/bonito/kalkulacka.php|kalkulačka]]**.+V určitých situacích je vzhledem k obrovskému množství dat v současných korpusech nutné provádět měření na náhodných [[manualy:kontext:konkordance#vzorky|vzorcích]]. Následující postup by měl na základě statistických metod pomoct v určení míry spolehlivosti takto získaných výsledků. Za účelem snadnějšího vyhodnocování byla pro výpočet spolehlivosti naprogramována jednoduchá **[[http://ucnk.korpus.cz/bonito/kalkulacka.php|kalkulačka]]**.
  
-Mějme následující hypotetickou situaci (všechny údaje v celém textu jsou smyšlené): chceme zjistit poměr genitivní a lokálové interpretace slovního tvaru //třech// v korpusu [[cnk:syn2005|SYN2005]]. V korpusu najdeme 6387 výskytů tohoto slova (tento soubor se nazývá celková populace nebo také základní vzorek). Nemůžeme (nebo nechceme) se spolehnout na [[pojmy:morfologicka_analyza|morfologické značkování]] a proto přistoupíme k vytváření náhodných vzorků (v rozhraní KonText v menu [[manual:menu:konkordance#vzorky|Konkordance > Vzorky]]) z celkové populace všech výskytů tohoto slova (ponechme teď stranou, jak moc ne/náhodné vzorky jsou).+Mějme následující hypotetickou situaci (všechny údaje v celém textu jsou smyšlené): chceme zjistit poměr genitivní a lokálové interpretace slovního tvaru //třech// v korpusu [[cnk:syn2005|SYN2005]]. V korpusu najdeme 6387 výskytů tohoto slova (tento soubor se nazývá celková populace nebo také základní vzorek). Nemůžeme (nebo nechceme) se spolehnout na [[pojmy:morfologicka_analyza|morfologické značkování]] a proto přistoupíme k vytváření náhodných vzorků (v rozhraní KonText v menu [[manualy:kontext:konkordance#vzorky|Konkordance > Vzorky]]) z celkové populace všech výskytů tohoto slova (ponechme teď stranou, jak moc ne/náhodné vzorky jsou).
  
 A priori, tedy jenom z celkového počtu výskytů slova //třech// a bez znalosti rozložení lokálové a genitivní interpretace v naší populaci **nelze pomocí žádné statistické metody** říct, kolik vzorků máme vybrat a jak mají být rozsáhlé, aby byl výzkum statisticky solidní. Je totiž zjevné, že pokud by genitivní interpretace byla v celkovém počtu zastoupena pouze v 0,1 % dokladů, bylo by potřeba mnohem více a rozsáhlejších náhodných vzorků než v situaci, kdy by byly obě interpretace zastoupeny zhruba rovnoměrně. A priori, tedy jenom z celkového počtu výskytů slova //třech// a bez znalosti rozložení lokálové a genitivní interpretace v naší populaci **nelze pomocí žádné statistické metody** říct, kolik vzorků máme vybrat a jak mají být rozsáhlé, aby byl výzkum statisticky solidní. Je totiž zjevné, že pokud by genitivní interpretace byla v celkovém počtu zastoupena pouze v 0,1 % dokladů, bylo by potřeba mnohem více a rozsáhlejších náhodných vzorků než v situaci, kdy by byly obě interpretace zastoupeny zhruba rovnoměrně.
Řádek 49: Řádek 49:
 ===== Normální rozdělení ===== ===== Normální rozdělení =====
  
-Výpočet spolehlivosti odhadu aproximací normálním rozdělením je snazší, není ovšem tak přesný, zvláště pro malé vzorky a malé populace. Jeho nevýhodou je, že náhodné vzorky vybírané z populace nesmějí mít společný průnik.+Výpočet spolehlivosti odhadu aproximací [[wp>Normal_distribution|normálním rozdělením]] je snazší, není ovšem tak přesný, zvláště pro malé vzorky a malé populace. Jeho nevýhodou je, že náhodné vzorky vybírané z populace nesmějí mít společný průnik.
  
 Mějme velikost základního vzorku //N//, neznámý počet výrazů s hledanou vlastností //M//. Jeho odhad provedeme na základě prostého náhodného výběru dat ze základního vzorku; rozsah vzorků budeme označovat //n//. Mějme velikost základního vzorku //N//, neznámý počet výrazů s hledanou vlastností //M//. Jeho odhad provedeme na základě prostého náhodného výběru dat ze základního vzorku; rozsah vzorků budeme označovat //n//.
Řádek 63: Řádek 63:
 Pro interval spolehlivosti platí vzorec Pro interval spolehlivosti platí vzorec
  
-dolní mez: $$ p_1 = p' - z \times \sqrt{\frac{p'(1-p)}{n}}$$+dolní mez: $$ p_1 = p' - z \times \sqrt{\frac{p'(1-p')}{n}}$$
  
-horní mez: $$ p_1 = p' + z \times \sqrt{\frac{p'(1-p)}{n}}$$ +horní mez: $$ p_2 = p' + z \times \sqrt{\frac{p'(1-p')}{n}}$$
- +
-kde //z// je příslušná kritická hodnota normálního rozdělení. Při volbě hladiny významnosti 0,05 je kritická hodnota normálního rozdělení //z// rovna 1,96. Pro odhad intervalu spolehlivosti pro //M'// platí meze < //p1N , p2N// >.+
  
 +kde //z// je příslušná kritická hodnota normálního rozdělení. Při volbě hladiny významnosti 0,05 je kritická hodnota normálního rozdělení //z// rovna 1,96. Pro odhad intervalu spolehlivosti pro //M'// platí meze < $p_1 N$ , $p_2 N$ >.
 ===== Binomické rozdělení ===== ===== Binomické rozdělení =====
  
-Pro odhad absolutní četnosti výskytu sledovaného jevu se nejlépe hodí hypergeometrické rozdělení, které je ovšem výpočetně poměrně složité. V případě vysokého počtu dat v základním souboru a relativně malého rozsahu výběru vzorku (poměr větší než 10:1) můžeme s úspěchem použít aproximaci binomickým rozdělením, které je méně náročnější na výpočet. Pro ilustraci, binomické rozdělení se používá v případech modelové situace házení kostkou, kdy v několika nezávislých pokusech za sebou zjišťujeme četnost hození šestky.+Pro odhad absolutní četnosti výskytu sledovaného jevu se nejlépe hodí hypergeometrické rozdělení, které je ovšem výpočetně poměrně složité. V případě vysokého počtu dat v základním souboru a relativně malého rozsahu výběru vzorku (poměr větší než 10:1) můžeme s úspěchem použít aproximaci [[wp>Binomial_distribution|binomickým rozdělením]], které je méně náročnější na výpočet. Pro ilustraci, binomické rozdělení se používá v případech modelové situace házení kostkou, kdy v několika nezávislých pokusech za sebou zjišťujeme četnost hození šestky
 + 
 +Mějme opět velikost základního vzorku //N//, neznámý počet výrazů //M// s hledanou vlastností. Jeho odhad provedeme na základě prostého náhodného výběru slov ze základního vzorku; rozsah vzorků budeme označovat //n//.
  
-Mějme velikost základního vzorku N, neznámý počet výrazů M s hledanou vlastností. Jeho odhad provedeme na základě prostého náhodného výběru slov ze základního vzorku; rozsah vzorků budeme označovat n. 
 Hledáme opět odhady: Hledáme opět odhady:
 +  - relativní četnosti prvku s danou vlastností //p = M / N//.
 +  - absolutní četnosti prvku s danou vlastností tj. parametru //M//.
  
-relativní četnosti prvku s danou vlastností p = M / N. +Označíme-li //X// součet vybraných slov s hledanou vlastností ve výběru, pak odhad //p// je //p'//,které vypočteme //p'= X / n//, odhad absolutní četnosti //M' = N × X / n = N × p'//.
-absolutní četnosti prvku s danou vlastností tj. parametru M. +
-Označíme-li X součet vybraných slov s hledanou vlastností ve výběru, pak odhad p je ,které vypočteme = X / n, odhad absolutní četnosti M´ = N × X / n = N × .+
  
 Interval spolehlivosti je oblast, v níž se náš odhad bude vyskytovat s námi danou pravděpodobností, obvykle se používá hodnota  1-α, kde α je hladina významnosti, malé číslo, zpravidla 0,05. Tato daná pravděpodobnost tedy bude 95%. Interval spolehlivosti je oblast, v níž se náš odhad bude vyskytovat s námi danou pravděpodobností, obvykle se používá hodnota  1-α, kde α je hladina významnosti, malé číslo, zpravidla 0,05. Tato daná pravděpodobnost tedy bude 95%.
  
-Pro interval spolehlivosti odhadu p´ u binomického rozdělení platí vzorce:+Pro interval spolehlivosti odhadu p' u binomického rozdělení platí vzorce 
 + 
 +dolní mez$$p_1 = \frac{X}{X + (n-X+1)\cdot F_1 (1 - \frac{\alpha}{2})}$$ 
 + 
 +horní mez: $$p_2 = \frac{(X+1) F_2 (1 - \frac{\alpha}{2})}{n-X+(X+1)\cdot F_2 (1 - \frac{\alpha}{2})}$$ 
 + 
 +kde $F_1 (1- α/2)$ je první kritická hodnota [[wp>Fisher-Snedecor_distribution|Fisher-Snedecorova rozdělení]]. Toto rozdělení má dva stupně volnosti $v_1$ a $v_2$; první se vypočítá pomocí vzorce $v_1 =  2(n − X + 1)$ a druhý se rovná $v_2 = 2X$. $F_2$ je druhá kritická hodnota Fisher-Snedecorova rozdělení se stupni volnosti $v_1 = 2(X + 1)$ a $v_2 = 2(n − X)$. Pro obojí najdeme v tabulkách hodnotu pro hladinu významnosti 1-α/2. V případě α = 0,05 hledáme hodnotu $F_1 (0,975)$ a $F_2(0,975)$. 
 + 
 +Pro odhad intervalu spolehlivosti pro //M'// opět platí meze < $p_1 N$ , $p_2 N$ >. 
 + 
 +===== Doporučení ===== 
 + 
 +Při běžné výzkumné práci doporučujeme vycházet **minimálně** ze tří náhodných vzorků (čím víc, tím samozřejmě přesnější výsledky). Jejich souhrnná velikost by se v případě populace do 10.000 výskytů měla pohybovat okolo 10 % (opět platí, že čím větší vzorky, tím přesnější výsledky), v případě populace o řád nebo dva rozsáhlejší pak 1 % nebo 0,5 %. Pokud nejsme s výsledným intervalem spolehlivosti spokojeni, doporučujeme přidávat další vzorky spíš než vytvářet vzorky větší. Je už na badateli, aby sám zvážil, jak přesné výsledky vyžaduje. Odchylka 2 procentní body je ve společenských vědách považována za přijatelnou. Tedy v situaci, kdy po třech měřeních na náhodných vzorcích badatel zjistí, že jev, který zkoumá, nabývá hodnot 3, 4 a 17, což odpovídá interpretaci 8 průměrných výskytů ± 19 (!), je nasnadě pokračovat v dalším průzkumu. 
 + 
 + --- //Václav Cvrček, Tomáš Bartoň// 
 + 
 +---- 
 + 
 + 
 +<WRAP center round box 68%> 
 +[[http://ucnk.ff.cuni.cz/bonito/kalkulacka.php|Kalkulačka náhodných vzorků]] • [[http://www.itl.nist.gov/div898/handbook/eda/section3/eda3672.htm|Kritické hodnoty Studentova rozdělení]] • [[http://ucebnice.euromise.cz/index.php?conn=0&section=biostat1&node=8|Odhady populačních průměrů a pravděpodobností]] • [[wp>Sampling_error| Sampling error]] 
 +</WRAP>