Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzePoslední revizeObě strany příští revize | ||
manual:nahodne_vzorky [2013/12/18 11:56] – vaclavcvrcek | kurz:nahodne_vzorky [2019/04/05 09:55] – [Binomické rozdělení] vaclavcvrcek | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Určení spolehlivosti měření metodou náhodných vzorků ====== | ====== Určení spolehlivosti měření metodou náhodných vzorků ====== | ||
- | V určitých situacích je vzhledem k obrovskému množství dat v současných korpusech nutné provádět měření na náhodných [[manual:menu: | + | V určitých situacích je vzhledem k obrovskému množství dat v současných korpusech nutné provádět měření na náhodných [[manualy:kontext: |
- | Mějme následující hypotetickou situaci (všechny údaje v celém textu jsou smyšlené): | + | Mějme následující hypotetickou situaci (všechny údaje v celém textu jsou smyšlené): |
A priori, tedy jenom z celkového počtu výskytů slova //třech// a bez znalosti rozložení lokálové a genitivní interpretace v naší populaci **nelze pomocí žádné statistické metody** říct, kolik vzorků máme vybrat a jak mají být rozsáhlé, aby byl výzkum statisticky solidní. Je totiž zjevné, že pokud by genitivní interpretace byla v celkovém počtu zastoupena pouze v 0,1 % dokladů, bylo by potřeba mnohem více a rozsáhlejších náhodných vzorků než v situaci, kdy by byly obě interpretace zastoupeny zhruba rovnoměrně. | A priori, tedy jenom z celkového počtu výskytů slova //třech// a bez znalosti rozložení lokálové a genitivní interpretace v naší populaci **nelze pomocí žádné statistické metody** říct, kolik vzorků máme vybrat a jak mají být rozsáhlé, aby byl výzkum statisticky solidní. Je totiž zjevné, že pokud by genitivní interpretace byla v celkovém počtu zastoupena pouze v 0,1 % dokladů, bylo by potřeba mnohem více a rozsáhlejších náhodných vzorků než v situaci, kdy by byly obě interpretace zastoupeny zhruba rovnoměrně. | ||
Řádek 29: | Řádek 29: | ||
Výhodou [[wp> | Výhodou [[wp> | ||
- | Pro naše účely můžeme použit hladinu významnosti α = 0,05 (tedy připouštíme 5% pravděpodobnost chyby). Jelikož se však jedná o oboustranný test (odchylky můžeme očekávat jak směrem dolů, tak směrem nahoru), je třeba při výpočtech užívat hodnotu ekvivalentní pro polovinu zvolené hladiny spolehlivosti, | + | Pro naše účely můžeme použit hladinu významnosti α = 0,05 (tedy připouštíme 5% pravděpodobnost chyby). Jelikož se však jedná o oboustranný test (odchylky můžeme očekávat jak směrem dolů, tak směrem nahoru), je třeba při výpočtech užívat hodnotu ekvivalentní pro polovinu zvolené hladiny spolehlivosti, |
Když vydělíme SD druhou odmocninou z počtu měření (vzorků), získáme veličinu známou jako standardní chyba (standard error – SE). Po vynásobení příslušnou kritickou hodnotou Studentova rozdělení dostaneme číslo, které když přičteme a odečteme k/od průměru, získáme oblast, v níž se na 95 % (odvozeno od zvolené hladiny významnosti) nachází průměrná hodnota celé populace. V našem případě je to $0,01 \times 4,303 / \sqrt{3} = 0,025$. Z toho plyne, že v populaci výskytu slova //třech// je genitivní interpretace zastoupena 5 % ± 2,5 procentního bodu. | Když vydělíme SD druhou odmocninou z počtu měření (vzorků), získáme veličinu známou jako standardní chyba (standard error – SE). Po vynásobení příslušnou kritickou hodnotou Studentova rozdělení dostaneme číslo, které když přičteme a odečteme k/od průměru, získáme oblast, v níž se na 95 % (odvozeno od zvolené hladiny významnosti) nachází průměrná hodnota celé populace. V našem případě je to $0,01 \times 4,303 / \sqrt{3} = 0,025$. Z toho plyne, že v populaci výskytu slova //třech// je genitivní interpretace zastoupena 5 % ± 2,5 procentního bodu. | ||
Řádek 63: | Řádek 63: | ||
Pro interval spolehlivosti platí vzorec | Pro interval spolehlivosti platí vzorec | ||
- | dolní mez: $$ p_1 = p' - z \times \sqrt{\frac{p' | + | dolní mez: $$ p_1 = p' - z \times \sqrt{\frac{p' |
- | horní mez: $$ p_1 = p' + z \times \sqrt{\frac{p' | + | horní mez: $$ p_2 = p' + z \times \sqrt{\frac{p' |
kde //z// je příslušná kritická hodnota normálního rozdělení. Při volbě hladiny významnosti 0,05 je kritická hodnota normálního rozdělení //z// rovna 1,96. Pro odhad intervalu spolehlivosti pro //M'// platí meze < $p_1 N$ , $p_2 N$ >. | kde //z// je příslušná kritická hodnota normálního rozdělení. Při volbě hladiny významnosti 0,05 je kritická hodnota normálního rozdělení //z// rovna 1,96. Pro odhad intervalu spolehlivosti pro //M'// platí meze < $p_1 N$ , $p_2 N$ >. | ||
===== Binomické rozdělení ===== | ===== Binomické rozdělení ===== | ||
- | Pro odhad absolutní četnosti výskytu sledovaného jevu se nejlépe hodí hypergeometrické rozdělení, | + | Pro odhad absolutní četnosti výskytu sledovaného jevu se nejlépe hodí hypergeometrické rozdělení, |
Mějme opět velikost základního vzorku //N//, neznámý počet výrazů //M// s hledanou vlastností. Jeho odhad provedeme na základě prostého náhodného výběru slov ze základního vzorku; rozsah vzorků budeme označovat //n//. | Mějme opět velikost základního vzorku //N//, neznámý počet výrazů //M// s hledanou vlastností. Jeho odhad provedeme na základě prostého náhodného výběru slov ze základního vzorku; rozsah vzorků budeme označovat //n//. | ||
Řádek 94: | Řádek 94: | ||
===== Doporučení ===== | ===== Doporučení ===== | ||
- | Při běžné výzkumné práci doporučujeme vycházet **minimálně** ze tří náhodných vzorků (čím víc, tím samozřejmě přesnější výsledky). Jejich souhrnná velikost by se v případě populace do 10.000 výskytů měla pohybovat okolo 10 % (opět platí, že čím větší vzorky, tím přesnější výsledky), v případě populace o řád nebo dva rozsáhlejší pak 1 % nebo 0,5 %. Pokud nejsme s výsledným intervalem spolehlivosti spokojeni, doporučujeme přidávat další vzorky spíš než vytvářet vzorky větší. Je už na badateli, aby sám zvážil, jak přesné výsledky vyžaduje. Odchylka 2 procentní body je ve společenských vědách považována za přijatelnou. Tedy v situaci, kdy po třech měřeních na náhodných vzorcích badatel zjistí, že jev, který zkoumá, nabývá hodnot 3, 4 a 17, což odpovídá interpretaci 8 ± 19 výskytů, je nasnadě pokračovat v dalším průzkumu. | + | Při běžné výzkumné práci doporučujeme vycházet **minimálně** ze tří náhodných vzorků (čím víc, tím samozřejmě přesnější výsledky). Jejich souhrnná velikost by se v případě populace do 10.000 výskytů měla pohybovat okolo 10 % (opět platí, že čím větší vzorky, tím přesnější výsledky), v případě populace o řád nebo dva rozsáhlejší pak 1 % nebo 0,5 %. Pokud nejsme s výsledným intervalem spolehlivosti spokojeni, doporučujeme přidávat další vzorky spíš než vytvářet vzorky větší. Je už na badateli, aby sám zvážil, jak přesné výsledky vyžaduje. Odchylka 2 procentní body je ve společenských vědách považována za přijatelnou. Tedy v situaci, kdy po třech měřeních na náhodných vzorcích badatel zjistí, že jev, který zkoumá, nabývá hodnot 3, 4 a 17, což odpovídá interpretaci 8 průměrných |
- | ==== Související odkazy ==== | + | --- //Václav Cvrček, Tomáš Bartoň// |
- | [[http:// | + | ---- |
- | [[http:// | ||
- | [[http:// | + | <WRAP center round box 68%> |
+ | [[http:// | ||
+ | </ | ||
- | [[wp> |