Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
manual:nahodne_vzorky [2013/12/18 11:47] – [Binomické rozdělení] vaclavcvrcek | kurz:nahodne_vzorky [2017/06/09 11:40] – [Určení spolehlivosti měření metodou náhodných vzorků] michalkren | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Určení spolehlivosti měření metodou náhodných vzorků ====== | ====== Určení spolehlivosti měření metodou náhodných vzorků ====== | ||
- | V určitých situacích je vzhledem k obrovskému množství dat v současných korpusech nutné provádět měření na náhodných [[manual:menu: | + | V určitých situacích je vzhledem k obrovskému množství dat v současných korpusech nutné provádět měření na náhodných [[manualy:kontext: |
- | Mějme následující hypotetickou situaci (všechny údaje v celém textu jsou smyšlené): | + | Mějme následující hypotetickou situaci (všechny údaje v celém textu jsou smyšlené): |
A priori, tedy jenom z celkového počtu výskytů slova //třech// a bez znalosti rozložení lokálové a genitivní interpretace v naší populaci **nelze pomocí žádné statistické metody** říct, kolik vzorků máme vybrat a jak mají být rozsáhlé, aby byl výzkum statisticky solidní. Je totiž zjevné, že pokud by genitivní interpretace byla v celkovém počtu zastoupena pouze v 0,1 % dokladů, bylo by potřeba mnohem více a rozsáhlejších náhodných vzorků než v situaci, kdy by byly obě interpretace zastoupeny zhruba rovnoměrně. | A priori, tedy jenom z celkového počtu výskytů slova //třech// a bez znalosti rozložení lokálové a genitivní interpretace v naší populaci **nelze pomocí žádné statistické metody** říct, kolik vzorků máme vybrat a jak mají být rozsáhlé, aby byl výzkum statisticky solidní. Je totiž zjevné, že pokud by genitivní interpretace byla v celkovém počtu zastoupena pouze v 0,1 % dokladů, bylo by potřeba mnohem více a rozsáhlejších náhodných vzorků než v situaci, kdy by byly obě interpretace zastoupeny zhruba rovnoměrně. | ||
Řádek 63: | Řádek 63: | ||
Pro interval spolehlivosti platí vzorec | Pro interval spolehlivosti platí vzorec | ||
- | dolní mez: $$ p_1 = p' - z \times \sqrt{\frac{p' | + | dolní mez: $$ p_1 = p' - z \times \sqrt{\frac{p' |
- | horní mez: $$ p_1 = p' + z \times \sqrt{\frac{p' | + | horní mez: $$ p_2 = p' + z \times \sqrt{\frac{p' |
- | kde //z// je příslušná kritická hodnota normálního rozdělení. Při volbě hladiny významnosti 0,05 je kritická hodnota normálního rozdělení //z// rovna 1,96. Pro odhad intervalu spolehlivosti pro //M'// platí meze < //p1N , p2N// >. | + | kde //z// je příslušná kritická hodnota normálního rozdělení. Při volbě hladiny významnosti 0,05 je kritická hodnota normálního rozdělení //z// rovna 1,96. Pro odhad intervalu spolehlivosti pro //M'// platí meze < $p_1 N$ , $p_2 N$ >. |
===== Binomické rozdělení ===== | ===== Binomické rozdělení ===== | ||
Řádek 88: | Řádek 88: | ||
horní mez: $$p_2 = \frac{(X+1) F_2 (1 - \frac{\alpha}{2})}{n-X+(X+1)\cdot F_2 (1 - \frac{\alpha}{2})}$$ | horní mez: $$p_2 = \frac{(X+1) F_2 (1 - \frac{\alpha}{2})}{n-X+(X+1)\cdot F_2 (1 - \frac{\alpha}{2})}$$ | ||
- | kde F1(1- α/2) je první kritická hodnota Fisher-Snedecorova rozdělení. Toto rozdělení má dva stupně volnosti | + | kde $F_1 (1- α/2)$ je první kritická hodnota |
+ | |||
+ | Pro odhad intervalu spolehlivosti pro //M'// opět platí meze < $p_1 N$ , $p_2 N$ >. | ||
+ | |||
+ | ===== Doporučení ===== | ||
+ | |||
+ | Při běžné výzkumné práci doporučujeme vycházet **minimálně** ze tří náhodných vzorků (čím víc, tím samozřejmě přesnější výsledky). Jejich souhrnná velikost by se v případě populace do 10.000 výskytů měla pohybovat okolo 10 % (opět platí, že čím větší vzorky, tím přesnější výsledky), v případě populace o řád nebo dva rozsáhlejší pak 1 % nebo 0,5 %. Pokud nejsme s výsledným intervalem spolehlivosti spokojeni, doporučujeme přidávat další vzorky spíš než vytvářet vzorky větší. Je už na badateli, aby sám zvážil, jak přesné výsledky vyžaduje. Odchylka 2 procentní body je ve společenských vědách považována za přijatelnou. Tedy v situaci, kdy po třech měřeních na náhodných vzorcích badatel zjistí, že jev, který zkoumá, nabývá hodnot 3, 4 a 17, což odpovídá interpretaci 8 průměrných výskytů ± 19 (!), je nasnadě pokračovat v dalším průzkumu. | ||
+ | |||
+ | --- //Václav Cvrček, Tomáš Bartoň// | ||
+ | |||
+ | ---- | ||
+ | |||
+ | |||
+ | <WRAP center round box 68%> | ||
+ | [[http:// | ||
+ | </ | ||
- | Pro odhad intervalu spolehlivosti pro M´ opět platí meze <p1N , p2N>. |