Toto je starší verze dokumentu!
Test chi kvadrát (χ2 test)
Test, který se užívá k určení statistické významnosti kvantitativního rozdílu v datech. V lingvistice se používá zejména pro porovnání frekvencí jednotky ve dvou textech nebo korpusech. Principem χ2 testu je porovnání frekvence jednotky naměřené v jednom korpusu (observed) s hodnotou očekávanou na základě pravděpodobnosti zjištěné v druhém korpusu (expected). Takovéto porovnání je v základu identifikace ↑klíčových slov (2). Pokud je rozdíl těchto hodnot velký, je značná pravděpodobnost, že zkoumaný rozdíl není náhodný a vyjadřuje skutečnou odlišnost mezi daty. Test χ2 se ukazuje jako nespolehlivý v případě, že zkoumané jednotky nabývají malých frekvencí (menší než 5); z toho důvodu se užívá analogických testů ↑log-likelihood nebo Fischerova exaktního testu. χ2 test přitom neslouží k určení míry odlišnosti (effect size), měří pouze, zda je k dispozici dostatek dat, abychom významnost rozdílu mohli konstatovat s určitou mírou jistoty. V případě, že poměřované hodnoty jsou velmi vysoké (např. v řádu desetitisíců), vycházejí testy téměř vždy jako statisticky signifikantní, ačkoli relativní rozdíl mezi hodnotami není lingvisticky relevantní, uchopitelný nebo interpretovatelný.