AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze
Předchozí verze
pojmy:chi2 [2013/06/18 18:12] – vytvořeno Václav Cvrčekpojmy:chi2 [2013/09/12 17:21] (aktuální) – Schvaleno pro 1. verzi Václav Cvrček
Řádek 1: Řádek 1:
 ====== Test chi kvadrát (χ2 test) ====== ====== Test chi kvadrát (χ2 test) ======
  
-Test, který se užívá k určení statistické významnosti kvantitativního rozdílu v datech. V lingvistice se používá zejména pro porovnání frekvencí jednotky ve dvou textech nebo korpusech. Principem χ2 testu je porovnání frekvence jednotky naměřené v jednom korpusu (observed) s hodnotou očekávanou na základě pravděpodobnosti zjištěné v druhém korpusu (expected). Takovéto porovnání je v základu identifikace ↑klíčových slov (2). Pokud je rozdíl těchto hodnot velký, je značná pravděpodobnost, že zkoumaný rozdíl není náhodný a vyjadřuje skutečnou odlišnost mezi daty. Test χ2 se ukazuje jako nespolehlivý v případě, že zkoumané jednotky nabývají malých frekvencí (menší než 5); z toho důvodu se užívá analogických testů log-likelihood nebo Fischerova exaktního testu. χ2 test přitom neslouží k určení míry odlišnosti (effect size), měří pouze, zda je k dispozici dostatek dat, abychom významnost rozdílu mohli konstatovat s určitou mírou jistoty. V případě, že poměřované hodnoty jsou velmi vysoké (např. v řádu desetitisíců), vycházejí testy téměř vždy jako statisticky signifikantní, ačkoli relativní rozdíl mezi hodnotami není lingvisticky relevantní, uchopitelný nebo interpretovatelný.+Test, který se užívá k určení statistické významnosti kvantitativního rozdílu v datech. V rámci korpusové lingvistiky se využívá v [[pojmy:keyword#keyword|analýze klíčových slov]] a také jako [[pojmy:asociacni_miry|asociační míra]] pro identifikaci [[pojmy:kolokace|kolokací]]. 
 + 
 +===== χ2 test při analýze klíčových slov ===== 
 + 
 +Principem χ2 testu je porovnání frekvence jednotky naměřené v jednom korpusu (observed) s hodnotou očekávanou na základě pravděpodobnosti zjištěné v druhém korpusu (expected). Pokud je rozdíl těchto hodnot velký, je značná pravděpodobnost, že zkoumaný rozdíl není náhodný a vyjadřuje skutečnou odlišnost mezi daty.  
 + 
 +Test χ2 se ukazuje jako nespolehlivý v případě, že zkoumané jednotky nabývají malých frekvencí (menší než 5); z toho důvodu se užívá analogických testů [[pojmy:asociacni_miry#log_likelihood|log-likelihood]] nebo Fischerova exaktního testu.  
 + 
 +χ2 test přitom neslouží k určení míry odlišnosti, relevance (effect size), měří pouze, zda je k dispozici dostatek dat, abychom významnost rozdílu mohli konstatovat s určitou mírou jistoty. V případě, že poměřované hodnoty jsou velmi vysoké (např. v řádu desetitisíců), vycházejí testy téměř vždy jako statisticky signifikantní, ačkoli relativní rozdíl mezi hodnotami není lingvisticky relevantní, uchopitelný nebo interpretovatelný. 
 + 
 +===== χ2 test při identifikaci kolokací ===== 
 + 
 +Principiálně se užití χ2 testu pro identifikaci [[pojmy:kolokace|kolokací]] neliší od využití předchozího. Stejným vzorcem se v tomto případě nepoměřují dva různé texty/korpusy, ale frekvence kolokátů v okolí hledaného [[pojmy:kwic|KWICu]] s frekvencí těchto slov v celém korpusu. Je-li relativní frekvence v okolí hledaného slova (node word) signifikantně větší než v celém korpusu, pak je takové slovo označeno jako kolokát. 
 + 
 +===== Související odkazy ===== 
 + 
 +<WRAP round box 49%> 
 +[[wp>Pearson's_chi-squared_test|Pearson's chi-squared test]] • [[pojmy:asociacni_miry|Asociační míry]] • [[pojmy:kolokace|Kolokace]] 
 +</WRAP>