Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
manual:nahodne_vzorky [2013/12/18 11:47] – [Normální rozdělení] vaclavcvrcek | kurz:nahodne_vzorky [2017/10/25 13:56] – [Studentovo rozdělení] vaclavcvrcek | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Určení spolehlivosti měření metodou náhodných vzorků ====== | ====== Určení spolehlivosti měření metodou náhodných vzorků ====== | ||
- | V určitých situacích je vzhledem k obrovskému množství dat v současných korpusech nutné provádět měření na náhodných [[manual:menu: | + | V určitých situacích je vzhledem k obrovskému množství dat v současných korpusech nutné provádět měření na náhodných [[manualy:kontext: |
- | Mějme následující hypotetickou situaci (všechny údaje v celém textu jsou smyšlené): | + | Mějme následující hypotetickou situaci (všechny údaje v celém textu jsou smyšlené): |
A priori, tedy jenom z celkového počtu výskytů slova //třech// a bez znalosti rozložení lokálové a genitivní interpretace v naší populaci **nelze pomocí žádné statistické metody** říct, kolik vzorků máme vybrat a jak mají být rozsáhlé, aby byl výzkum statisticky solidní. Je totiž zjevné, že pokud by genitivní interpretace byla v celkovém počtu zastoupena pouze v 0,1 % dokladů, bylo by potřeba mnohem více a rozsáhlejších náhodných vzorků než v situaci, kdy by byly obě interpretace zastoupeny zhruba rovnoměrně. | A priori, tedy jenom z celkového počtu výskytů slova //třech// a bez znalosti rozložení lokálové a genitivní interpretace v naší populaci **nelze pomocí žádné statistické metody** říct, kolik vzorků máme vybrat a jak mají být rozsáhlé, aby byl výzkum statisticky solidní. Je totiž zjevné, že pokud by genitivní interpretace byla v celkovém počtu zastoupena pouze v 0,1 % dokladů, bylo by potřeba mnohem více a rozsáhlejších náhodných vzorků než v situaci, kdy by byly obě interpretace zastoupeny zhruba rovnoměrně. | ||
Řádek 29: | Řádek 29: | ||
Výhodou [[wp> | Výhodou [[wp> | ||
- | Pro naše účely můžeme použit hladinu významnosti α = 0,05 (tedy připouštíme 5% pravděpodobnost chyby). Jelikož se však jedná o oboustranný test (odchylky můžeme očekávat jak směrem dolů, tak směrem nahoru), je třeba při výpočtech užívat hodnotu ekvivalentní pro polovinu zvolené hladiny spolehlivosti, | + | Pro naše účely můžeme použit hladinu významnosti α = 0,05 (tedy připouštíme 5% pravděpodobnost chyby). Jelikož se však jedná o oboustranný test (odchylky můžeme očekávat jak směrem dolů, tak směrem nahoru), je třeba při výpočtech užívat hodnotu ekvivalentní pro polovinu zvolené hladiny spolehlivosti, |
Když vydělíme SD druhou odmocninou z počtu měření (vzorků), získáme veličinu známou jako standardní chyba (standard error – SE). Po vynásobení příslušnou kritickou hodnotou Studentova rozdělení dostaneme číslo, které když přičteme a odečteme k/od průměru, získáme oblast, v níž se na 95 % (odvozeno od zvolené hladiny významnosti) nachází průměrná hodnota celé populace. V našem případě je to $0,01 \times 4,303 / \sqrt{3} = 0,025$. Z toho plyne, že v populaci výskytu slova //třech// je genitivní interpretace zastoupena 5 % ± 2,5 procentního bodu. | Když vydělíme SD druhou odmocninou z počtu měření (vzorků), získáme veličinu známou jako standardní chyba (standard error – SE). Po vynásobení příslušnou kritickou hodnotou Studentova rozdělení dostaneme číslo, které když přičteme a odečteme k/od průměru, získáme oblast, v níž se na 95 % (odvozeno od zvolené hladiny významnosti) nachází průměrná hodnota celé populace. V našem případě je to $0,01 \times 4,303 / \sqrt{3} = 0,025$. Z toho plyne, že v populaci výskytu slova //třech// je genitivní interpretace zastoupena 5 % ± 2,5 procentního bodu. | ||
Řádek 63: | Řádek 63: | ||
Pro interval spolehlivosti platí vzorec | Pro interval spolehlivosti platí vzorec | ||
- | dolní mez: $$ p_1 = p' - z \times \sqrt{\frac{p' | + | dolní mez: $$ p_1 = p' - z \times \sqrt{\frac{p' |
- | horní mez: $$ p_1 = p' + z \times \sqrt{\frac{p' | + | horní mez: $$ p_2 = p' + z \times \sqrt{\frac{p' |
- | kde //z// je příslušná kritická hodnota normálního rozdělení. Při volbě hladiny významnosti 0,05 je kritická hodnota normálního rozdělení //z// rovna 1,96. Pro odhad intervalu spolehlivosti pro //M'// platí meze < //p1N , p2N// >. | + | kde //z// je příslušná kritická hodnota normálního rozdělení. Při volbě hladiny významnosti 0,05 je kritická hodnota normálního rozdělení //z// rovna 1,96. Pro odhad intervalu spolehlivosti pro //M'// platí meze < $p_1 N$ , $p_2 N$ >. |
===== Binomické rozdělení ===== | ===== Binomické rozdělení ===== | ||
Řádek 84: | Řádek 84: | ||
Pro interval spolehlivosti odhadu p' u binomického rozdělení platí vzorce | Pro interval spolehlivosti odhadu p' u binomického rozdělení platí vzorce | ||
- | dolní mez: $$p_1 = \frac{X}{X + (n-X+1)\times F_1 (1 - \frac{\alpha}{2})}$$ | + | dolní mez: $$p_1 = \frac{X}{X + (n-X+1)\cdot F_1 (1 - \frac{\alpha}{2})}$$ |
+ | |||
+ | horní mez: $$p_2 = \frac{(X+1) F_2 (1 - \frac{\alpha}{2})}{n-X+(X+1)\cdot F_2 (1 - \frac{\alpha}{2})}$$ | ||
+ | |||
+ | kde $F_1 (1- α/2)$ je první kritická hodnota [[wp> | ||
+ | |||
+ | Pro odhad intervalu spolehlivosti pro //M'// opět platí meze < $p_1 N$ , $p_2 N$ >. | ||
+ | |||
+ | ===== Doporučení ===== | ||
+ | |||
+ | Při běžné výzkumné práci doporučujeme vycházet **minimálně** ze tří náhodných vzorků (čím víc, tím samozřejmě přesnější výsledky). Jejich souhrnná velikost by se v případě populace do 10.000 výskytů měla pohybovat okolo 10 % (opět platí, že čím větší vzorky, tím přesnější výsledky), v případě populace o řád nebo dva rozsáhlejší pak 1 % nebo 0,5 %. Pokud nejsme s výsledným intervalem spolehlivosti spokojeni, doporučujeme přidávat další vzorky spíš než vytvářet vzorky větší. Je už na badateli, aby sám zvážil, jak přesné výsledky vyžaduje. Odchylka 2 procentní body je ve společenských vědách považována za přijatelnou. Tedy v situaci, kdy po třech měřeních na náhodných vzorcích badatel zjistí, že jev, který zkoumá, nabývá hodnot 3, 4 a 17, což odpovídá interpretaci 8 průměrných výskytů ± 19 (!), je nasnadě pokračovat v dalším průzkumu. | ||
+ | |||
+ | --- //Václav Cvrček, Tomáš Bartoň// | ||
+ | |||
+ | ---- | ||
+ | |||
+ | |||
+ | <WRAP center round box 68%> | ||
+ | [[http:// | ||
+ | </ | ||
- | horní mez: $$p_2 = \frac{(X+1) F_2 (1 - \frac{\alpha}{2})}{n-X+(X+1)\times F_2 (1 - \frac{\alpha}{2})}$$ |