Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- kurz:nahodne_vzorky [2015/01/21 18:06] – cvrcek
+++ kurz:nahodne_vzorky [2017/06/09 11:40] – [Určení spolehlivosti měření metodou náhodných vzorků] michalkren
@@ Řádek 1: / Řádek 1: @@
 ====== Určení spolehlivosti měření metodou náhodných vzorků ======
-V určitých situacích je vzhledem k obrovskému množství dat v současných korpusech nutné provádět měření na náhodných [[manualy:kontext:konkordance#vzorky|vzorcích]]. Následující postup by měl na základě statistických metod pomoct v určení míry spolehlivosti takto získaných výsledků. Za účelem snadnějšího vyhodnocování byla pro výpočet spolehlivosti naprogramována jednoduchá **[[http://ucnk.ff.cuni.cz/bonito/kalkulacka.php|kalkulačka]]**.
+V určitých situacích je vzhledem k obrovskému množství dat v současných korpusech nutné provádět měření na náhodných [[manualy:kontext:konkordance#vzorky|vzorcích]]. Následující postup by měl na základě statistických metod pomoct v určení míry spolehlivosti takto získaných výsledků. Za účelem snadnějšího vyhodnocování byla pro výpočet spolehlivosti naprogramována jednoduchá **[[http://ucnk.korpus.cz/bonito/kalkulacka.php|kalkulačka]]**.
 Mějme následující hypotetickou situaci (všechny údaje v celém textu jsou smyšlené): chceme zjistit poměr genitivní a lokálové interpretace slovního tvaru //třech// v korpusu [[cnk:syn2005|SYN2005]]. V korpusu najdeme 6387 výskytů tohoto slova (tento soubor se nazývá celková populace nebo také základní vzorek). Nemůžeme (nebo nechceme) se spolehnout na [[pojmy:morfologicka_analyza|morfologické značkování]] a proto přistoupíme k vytváření náhodných vzorků (v rozhraní KonText v menu [[manualy:kontext:konkordance#vzorky|Konkordance > Vzorky]]) z celkové populace všech výskytů tohoto slova (ponechme teď stranou, jak moc ne/náhodné vzorky jsou).
@@ Řádek 94: / Řádek 94: @@
 ===== Doporučení =====
-Při běžné výzkumné práci doporučujeme vycházet **minimálně** ze tří náhodných vzorků (čím víc, tím samozřejmě přesnější výsledky). Jejich souhrnná velikost by se v případě populace do 10.000 výskytů měla pohybovat okolo 10 % (opět platí, že čím větší vzorky, tím přesnější výsledky), v případě populace o řád nebo dva rozsáhlejší pak 1 % nebo 0,5 %. Pokud nejsme s výsledným intervalem spolehlivosti spokojeni, doporučujeme přidávat další vzorky spíš než vytvářet vzorky větší. Je už na badateli, aby sám zvážil, jak přesné výsledky vyžaduje. Odchylka 2 procentní body je ve společenských vědách považována za přijatelnou. Tedy v situaci, kdy po třech měřeních na náhodných vzorcích badatel zjistí, že jev, který zkoumá, nabývá hodnot 3, 4 a 17, což odpovídá interpretaci 8 ± 19 výskytů, je nasnadě pokračovat v dalším průzkumu.
+Při běžné výzkumné práci doporučujeme vycházet **minimálně** ze tří náhodných vzorků (čím víc, tím samozřejmě přesnější výsledky). Jejich souhrnná velikost by se v případě populace do 10.000 výskytů měla pohybovat okolo 10 % (opět platí, že čím větší vzorky, tím přesnější výsledky), v případě populace o řád nebo dva rozsáhlejší pak 1 % nebo 0,5 %. Pokud nejsme s výsledným intervalem spolehlivosti spokojeni, doporučujeme přidávat další vzorky spíš než vytvářet vzorky větší. Je už na badateli, aby sám zvážil, jak přesné výsledky vyžaduje. Odchylka 2 procentní body je ve společenských vědách považována za přijatelnou. Tedy v situaci, kdy po třech měřeních na náhodných vzorcích badatel zjistí, že jev, který zkoumá, nabývá hodnot 3, 4 a 17, což odpovídá interpretaci 8 průměrných výskytů ± 19 (!), je nasnadě pokračovat v dalším průzkumu.
  --- //Václav Cvrček, Tomáš Bartoň//

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence