Určení spolehlivosti měření metodou náhodných vzorků

V určitých situacích je vzhledem k obrovskému množství dat v současných korpusech nutné provádět měření na náhodných vzorcích. Následující postup by měl na základě statistických metod pomoct v určení míry spolehlivosti takto získaných výsledků. Za účelem snadnějšího vyhodnocování byla pro výpočet spolehlivosti naprogramována jednoduchá kalkulačka.

Mějme následující hypotetickou situaci (všechny údaje v celém textu jsou smyšlené): chceme zjistit poměr genitivní a lokálové interpretace slovního tvaru třech v korpusu SYN2005. V korpusu najdeme 6387 výskytů tohoto slova (tento soubor se nazývá celková populace nebo také základní vzorek). Nemůžeme (nebo nechceme) se spolehnout na morfologické značkování a proto přistoupíme k vytváření náhodných vzorků (v rozhraní KonText v menu Konkordance > Vzorky) z celkové populace všech výskytů tohoto slova (ponechme teď stranou, jak moc ne/náhodné vzorky jsou).

A priori, tedy jenom z celkového počtu výskytů slova třech a bez znalosti rozložení lokálové a genitivní interpretace v naší populaci nelze pomocí žádné statistické metody říct, kolik vzorků máme vybrat a jak mají být rozsáhlé, aby byl výzkum statisticky solidní. Je totiž zjevné, že pokud by genitivní interpretace byla v celkovém počtu zastoupena pouze v 0,1 % dokladů, bylo by potřeba mnohem více a rozsáhlejších náhodných vzorků než v situaci, kdy by byly obě interpretace zastoupeny zhruba rovnoměrně.

Na celkovou spolehlivost naší metody bude mít tedy největší vliv rozdělení jednotlivých interpretacích v rámci celé populace, které dopředu neznáme. Zároveň je zřejmé, že čím víc vzorků vybereme a čím budou rozsáhlejší, tím přesnější odhady budeme mít (v ideálním případě, kdy ručně prozkoumáme všechny doklady z celé populace, budeme mít jistotu o vzájemném poměru obou interpretací).

Rozhodneme se na začátku pro 3 náhodné vzorky o velikosti 100 výskytů. Dostaneme po ručním třídění například tyto výsledky:

1. vzorek: 4 případů genitivní interpretace (tj. 4 %)

2. vzorek: 6 případů genitivní interpretace (tj. 6 %)

3. vzorek: 5 případů genitivní interpretace (tj. 5 %)

Průměr ($\bar{x}$) z těchto tří měření, který chceme vztáhnout na celou populaci, je tedy 5 %, odhad směrodatné odchylky v populaci ($SD$) při těchto třech měřeních je 0,01 (viz vzorce, kde N je počet vzorků, v našem případě tedy N = 3).

$$\bar{x} = \frac{x_1 + x_2 + x_3 + \dots + x_n}{N}$$

$$SD = \sqrt{\frac{\sum_{i=1}^{N} (x_i - \bar{x})^2}{N-1}}$$

Ačkoli dopředu neznáme rozdělení jevů v naší populaci, na základě centrální limitní věty se můžeme domnívat, že průměry výsledků s přibývajícími měřeními budou mít normální rozdělení. Můžeme tedy 1) použít Studentovo t-rozdělení k určení intervalu spolehlivosti, 2) uvažovat o intervalu spolehlivosti v normálním rozdělení na základě směrodatné odchylky (SD), 3) vypočítat interval spolehlivosti na základě binomického rozdělení. Probereme si postupně všechny tři možnosti.

Studentovo rozdělení

Výhodou Studentova rozdělení je fakt, že dává lepší výsledky i pro relativně malé vzorky. Na základě kritických hodnot tohoto rozdělení, které najdeme v každé lepší statistické příručce nebo na webu, spočítáme, v jakých intervalech se skutečná hodnota v rámci celé populace na určité hladině významnosti nachází.

Pro naše účely můžeme použit hladinu významnosti α = 0,05 (tedy připouštíme 5% pravděpodobnost chyby). Jelikož se však jedná o oboustranný test (odchylky můžeme očekávat jak směrem dolů, tak směrem nahoru), je třeba při výpočtech užívat hodnotu ekvivalentní pro polovinu zvolené hladiny spolehlivosti, abychom dostali výpočet platný pro zvolenou pravděpodobnost chyby. Další veličinu, kterou budeme potřebovat pro určení koeficientu t-rozdělní, jsou stupně volnosti (degrees of freedom – df), což je v tomto případě číslo rovnající se počtu měření zmenšenému o jedna. Z tabulky tedy vyčteme, že koeficient pro tuto hladinu a pro 2 stupně volnosti (tedy 3 měření - 1) je 4,303.

Když vydělíme SD druhou odmocninou z počtu měření (vzorků), získáme veličinu známou jako standardní chyba (standard error – SE). Po vynásobení příslušnou kritickou hodnotou Studentova rozdělení dostaneme číslo, které když přičteme a odečteme k/od průměru, získáme oblast, v níž se na 95 % (odvozeno od zvolené hladiny významnosti) nachází průměrná hodnota celé populace. V našem případě je to $0,01 \times 4,303 / \sqrt{3} = 0,025$. Z toho plyne, že v populaci výskytu slova třech je genitivní interpretace zastoupena 5 % ± 2,5 procentního bodu.

$$SE = \frac{SD \times \text{koeficient rozdělení}}{\sqrt{\text{počet měření}}}$$

Jelikož toto není výsledek, s kterým bychom se mohli spokojit – vypočtená tolerance totiž připouští poměrně široké pásmo (od 2,5 % po 7,5 %), což představuje 100 % hodnoty průměru –, přidáme proto další tři měření:

4. vzorek: 3 případy genitivní interpretace (tj. 3 %)

5. vzorek: 3 případy genitivní interpretace (tj. 3 %)

6. vzorek: 3 případy genitivní interpretace (tj. 3 %)

To nám (spolu s předcházejícími měřeními) změní průměr na 4 % a směrodatnou odchylku na 0,013. Faktor Studentova t-rozdělení se při šesti měřeních (tedy pěti stupních volnosti) a zachování stejné hladiny významnosti změní na 2,571 (opět najdeme v tabulkách). Po vynásobení směrodatné odchylky koeficientem rozdělení a vydělením odmocninou z počtu měření získáme ($0,013 \times 2,571 / \sqrt{6} = 0,014$), což můžeme interpretovat tak, že v průměru celé populace je genitivní interpretce zastoupena 4 % ± 1,4 procentního bodu. Takto můžeme postupovat tak dlouho, dokud nebudeme s výsledkem spokojeni.

Výsledkem měření intervalu spolehlivosti aproximací t-rozdělením je tedy fakt, že z celkové populace 6387 výskytů slovního tvaru třech jich je 255 v genitivu (tedy 4 %) ± 89 výskytů (tedy ± 1,4 procentního bodu).

Normální rozdělení

Výpočet spolehlivosti odhadu aproximací normálním rozdělením je snazší, není ovšem tak přesný, zvláště pro malé vzorky a malé populace. Jeho nevýhodou je, že náhodné vzorky vybírané z populace nesmějí mít společný průnik.

Mějme velikost základního vzorku N, neznámý počet výrazů s hledanou vlastností M. Jeho odhad provedeme na základě prostého náhodného výběru dat ze základního vzorku; rozsah vzorků budeme označovat n.

Hledáme odhady:

relativní četnosti prvku s danou vlastností p = M / N.
absolutní četnosti prvku s danou vlastností tj. parametru M.

Označíme-li X součet vybraných prvků s hledanou vlastností ve výběru, pak odhad p je p', a vypočítá se p' = X / n; odhad absolutní četnosti M' = N × X / n = N × p'.

Interval spolehlivosti je oblast, v níž se náš odhad bude vyskytovat s námi danou pravděpodobností, obvykle se používá hodnota 1-α, kde α je hladina významnosti, zpravidla 0,05. Očekávaná pravděpodobnost tedy bude 95%.

Pro interval spolehlivosti platí vzorec

dolní mez: $$ p_1 = p' - z \times \sqrt{\frac{p'(1-p')}{n}}$$

horní mez: $$ p_2 = p' + z \times \sqrt{\frac{p'(1-p')}{n}}$$

kde z je příslušná kritická hodnota normálního rozdělení. Při volbě hladiny významnosti 0,05 je kritická hodnota normálního rozdělení z rovna 1,96. Pro odhad intervalu spolehlivosti pro M' platí meze < $p_1 N$ , $p_2 N$ >.

Binomické rozdělení

Pro odhad absolutní četnosti výskytu sledovaného jevu se nejlépe hodí hypergeometrické rozdělení, které je ovšem výpočetně poměrně složité. V případě vysokého počtu dat v základním souboru a relativně malého rozsahu výběru vzorku (poměr větší než 10:1) můžeme s úspěchem použít aproximaci binomickým rozdělením, které je méně náročné na výpočet. Pro ilustraci, binomické rozdělení se používá v případech modelové situace házení kostkou, kdy v několika nezávislých pokusech za sebou zjišťujeme četnost hození šestky.

Mějme opět velikost základního vzorku N, neznámý počet výrazů M s hledanou vlastností. Jeho odhad provedeme na základě prostého náhodného výběru slov ze základního vzorku; rozsah vzorků budeme označovat n.

Hledáme opět odhady:

relativní četnosti prvku s danou vlastností p = M / N.
absolutní četnosti prvku s danou vlastností tj. parametru M.

Označíme-li X součet vybraných slov s hledanou vlastností ve výběru, pak odhad p je p', které vypočteme p'= X / n, odhad absolutní četnosti M' = N × X / n = N × p'.

Interval spolehlivosti je oblast, v níž se náš odhad bude vyskytovat s námi danou pravděpodobností, obvykle se používá hodnota 1-α, kde α je hladina významnosti, malé číslo, zpravidla 0,05. Tato daná pravděpodobnost tedy bude 95%.

Pro interval spolehlivosti odhadu p' u binomického rozdělení platí vzorce

dolní mez: $$p_1 = \frac{X}{X + (n-X+1)\cdot F_1 (1 - \frac{\alpha}{2})}$$

horní mez: $$p_2 = \frac{(X+1) F_2 (1 - \frac{\alpha}{2})}{n-X+(X+1)\cdot F_2 (1 - \frac{\alpha}{2})}$$

kde $F_1 (1- α/2)$ je první kritická hodnota Fisher-Snedecorova rozdělení. Toto rozdělení má dva stupně volnosti $v_1$ a $v_2$; první se vypočítá pomocí vzorce $v_1 = 2(n − X + 1)$ a druhý se rovná $v_2 = 2X$. $F_2$ je druhá kritická hodnota Fisher-Snedecorova rozdělení se stupni volnosti $v_1 = 2(X + 1)$ a $v_2 = 2(n − X)$. Pro obojí najdeme v tabulkách hodnotu pro hladinu významnosti 1-α/2. V případě α = 0,05 hledáme hodnotu $F_1 (0,975)$ a $F_2(0,975)$.

Pro odhad intervalu spolehlivosti pro M' opět platí meze < $p_1 N$ , $p_2 N$ >.

Doporučení

Při běžné výzkumné práci doporučujeme vycházet minimálně ze tří náhodných vzorků (čím víc, tím samozřejmě přesnější výsledky). Jejich souhrnná velikost by se v případě populace do 10.000 výskytů měla pohybovat okolo 10 % (opět platí, že čím větší vzorky, tím přesnější výsledky), v případě populace o řád nebo dva rozsáhlejší pak 1 % nebo 0,5 %. Pokud nejsme s výsledným intervalem spolehlivosti spokojeni, doporučujeme přidávat další vzorky spíš než vytvářet vzorky větší. Je už na badateli, aby sám zvážil, jak přesné výsledky vyžaduje. Odchylka 2 procentní body je ve společenských vědách považována za přijatelnou. Tedy v situaci, kdy po třech měřeních na náhodných vzorcích badatel zjistí, že jev, který zkoumá, nabývá hodnot 3, 4 a 17, což odpovídá interpretaci 8 průměrných výskytů ± 19 (!), je nasnadě pokračovat v dalším průzkumu.

— Václav Cvrček, Tomáš Bartoň

Kalkulačka náhodných vzorků • Kritické hodnoty Studentova rozdělení • Odhady populačních průměrů a pravděpodobností • Sampling error