Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- kurz:nahodne_vzorky [2017/06/09 11:40] – [Určení spolehlivosti měření metodou náhodných vzorků] Michal Křen
+++ kurz:nahodne_vzorky [2019/04/05 09:56] (aktuální) – [Binomické rozdělení] Václav Cvrček
@@ Řádek 29: / Řádek 29: @@
 Výhodou [[wp>Student_distribution|Studentova rozdělení]] je fakt, že dává lepší výsledky i pro relativně malé vzorky. Na základě kritických hodnot tohoto rozdělení, které najdeme v každé lepší statistické příručce nebo na [[http://www.itl.nist.gov/div898/handbook/eda/section3/eda3672.htm|webu]], spočítáme, v jakých intervalech se skutečná hodnota v rámci celé populace na určité hladině významnosti nachází.
-Pro naše účely můžeme použit hladinu významnosti α = 0,05 (tedy připouštíme 5% pravděpodobnost chyby). Jelikož se však jedná o oboustranný test (odchylky můžeme očekávat jak směrem dolů, tak směrem nahoru), je třeba při výpočtech užívat hodnotu ekvivalentní pro polovinu zvolené hladiny spolehlivosti, abychom dostali výpočet platný pro zvolenou pravděpodobnost chyby. Další veličinu, kterou budeme potřebovat pro určení koeficientu t-rozdělní jsou stupně volnosti ([[wp>Degrees_of_freedom_(statistics)|degrees of freedom]] – df), což je v tomto případě číslo rovnající se počtu měření zmenšenému o jedna. Z tabulky tedy vyčteme, že koeficient pro tuto hladinu a pro 2 stupně volnosti (tedy 3 měření - 1) je 4,303.
+Pro naše účely můžeme použit hladinu významnosti α = 0,05 (tedy připouštíme 5% pravděpodobnost chyby). Jelikož se však jedná o oboustranný test (odchylky můžeme očekávat jak směrem dolů, tak směrem nahoru), je třeba při výpočtech užívat hodnotu ekvivalentní pro polovinu zvolené hladiny spolehlivosti, abychom dostali výpočet platný pro zvolenou pravděpodobnost chyby. Další veličinu, kterou budeme potřebovat pro určení koeficientu t-rozdělní, jsou stupně volnosti ([[wp>Degrees_of_freedom_(statistics)|degrees of freedom]] – df), což je v tomto případě číslo rovnající se počtu měření zmenšenému o jedna. Z tabulky tedy vyčteme, že koeficient pro tuto hladinu a pro 2 stupně volnosti (tedy 3 měření - 1) je 4,303.
 Když vydělíme SD druhou odmocninou z počtu měření (vzorků), získáme veličinu známou jako standardní chyba (standard error – SE). Po vynásobení příslušnou kritickou hodnotou Studentova rozdělení dostaneme číslo, které když přičteme a odečteme k/od průměru, získáme oblast, v níž se na 95 % (odvozeno od zvolené hladiny významnosti) nachází průměrná hodnota celé populace. V našem případě je to $0,01 \times 4,303 / \sqrt{3} = 0,025$. Z toho plyne, že v populaci výskytu slova //třech// je genitivní interpretace zastoupena 5 % ± 2,5 procentního bodu.
@@ Řádek 70: / Řádek 70: @@
 ===== Binomické rozdělení =====
-Pro odhad absolutní četnosti výskytu sledovaného jevu se nejlépe hodí hypergeometrické rozdělení, které je ovšem výpočetně poměrně složité. V případě vysokého počtu dat v základním souboru a relativně malého rozsahu výběru vzorku (poměr větší než 10:1) můžeme s úspěchem použít aproximaci [[wp>Binomial_distribution|binomickým rozdělením]], které je méně náročnější na výpočet. Pro ilustraci, binomické rozdělení se používá v případech modelové situace házení kostkou, kdy v několika nezávislých pokusech za sebou zjišťujeme četnost hození šestky.
+Pro odhad absolutní četnosti výskytu sledovaného jevu se nejlépe hodí hypergeometrické rozdělení, které je ovšem výpočetně poměrně složité. V případě vysokého počtu dat v základním souboru a relativně malého rozsahu výběru vzorku (poměr větší než 10:1) můžeme s úspěchem použít aproximaci [[wp>Binomial_distribution|binomickým rozdělením]], které je méně náročné na výpočet. Pro ilustraci, binomické rozdělení se používá v případech modelové situace házení kostkou, kdy v několika nezávislých pokusech za sebou zjišťujeme četnost hození šestky.
 Mějme opět velikost základního vzorku //N//, neznámý počet výrazů //M// s hledanou vlastností. Jeho odhad provedeme na základě prostého náhodného výběru slov ze základního vzorku; rozsah vzorků budeme označovat //n//.
@@ Řádek 78: / Řádek 78: @@
   - absolutní četnosti prvku s danou vlastností tj. parametru //M//.
-Označíme-li //X// součet vybraných slov s hledanou vlastností ve výběru, pak odhad //p// je //p'//,které vypočteme //p'= X / n//, odhad absolutní četnosti //M' = N × X / n = N × p'//.
+Označíme-li //X// součet vybraných slov s hledanou vlastností ve výběru, pak odhad //p// je //p'//, které vypočteme //p'= X / n//, odhad absolutní četnosti //M' = N × X / n = N × p'//.
 Interval spolehlivosti je oblast, v níž se náš odhad bude vyskytovat s námi danou pravděpodobností, obvykle se používá hodnota  1-α, kde α je hladina významnosti, malé číslo, zpravidla 0,05. Tato daná pravděpodobnost tedy bude 95%.

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence