Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzePoslední revizeObě strany příští revize |
pojmy:din [2019/09/27 09:57] – [Princip fungování] vaclavcvrcek | pojmy:din [2019/09/27 10:31] – [Signifikance a relevance] vaclavcvrcek |
---|
====== DIN ====== | ====== DIN ====== |
| |
DIN (Difference index) je tzv. effect size metrika, tedy míra navržená((viz Fidler, M. - Cvrček, V.: {{:pojmy:josl-separat.pdf|A Data-Driven Analysis of Reader Viewpoints: Reconstructing the Historical Reader Using Keyword Analysis}}. Journal of Slavic Linguistics 23(2), (s. 197–239). )) pro účely poměřování relevance rozdílu mezi čísly. DIN se uplatňuje zejména při analýze prominence klíčových slov v aplikaci [[manualy:kwords|KWords]]. | DIN (Difference index) je tzv. effect size metrika, tedy míra navržená((viz Fidler, M. - Cvrček, V.: {{:pojmy:josl-separat.pdf|A Data-Driven Analysis of Reader Viewpoints: Reconstructing the Historical Reader Using Keyword Analysis}}. Journal of Slavic Linguistics 23(2), (s. 197–239). )) pro účely poměřování relevance rozdílu mezi čísly. DIN se uplatňuje zejména při analýze prominence [[pojmy:keyword|klíčových slov]] v aplikaci [[manualy:kwords|KWords]]. |
| |
===== Signifikance a relevance ===== | ===== Signifikance a relevance ===== |
| |
Při poměřování čísel (např. frekvencí slov) nás zajímá jednak to, jestli je jejich rozdíl statisticky signifikantní, a jednak, jestli je z hlediska popisu relevantní. První typ informace zprostředkovávají testy statistické **signifikance** (např. [[pojmy:chi2|chi2]] test, Fisherův test či [[pojmy:loglikelihood|log-likelihood]]).((Fakt, že se některé z těchto testů používají zároveň jako [[pojmy:asociacni_miry|asociační míry]] není v tuto chvíli relevantní.)) Výsledek těchto testů lze převést na tzv. //p//-value, která vyjadřuje, jak pravděpodobné je, že daný rozdíl je způsoben přirozenou variabilitou dat nebo náhodou. | Při poměřování hodnot (např. frekvencí slov) nás zajímá jednak to, jestli je jejich rozdíl statisticky signifikantní, a jednak, jestli je z hlediska popisu relevantní. První typ informace zprostředkovávají testy statistické **signifikance** (např. [[pojmy:chi2|chi2]] test, Fisherův test či [[pojmy:loglikelihood|log-likelihood]] test).((Fakt, že se některé z těchto testů používají zároveň jako [[pojmy:asociacni_miry|asociační míry]], není v tuto chvíli relevantní.)) Výsledek těchto testů lze převést na tzv. //p//-value, která vyjadřuje, jak pravděpodobné je, že daný rozdíl je způsoben přirozenou variabilitou dat nebo náhodou. |
| |
To, že rozdíl je statisticky signifikantní ještě neznamená, že je také výzkumně relevantní. I velmi malý rozdíl se může ukázat jako signifikantní, pokud máme dostatek měření. Proto se údaj o statistické signifikanci kombinuje s informací o relevanci (effect-size). | To, že rozdíl je statisticky signifikantní ještě neznamená, že je také výzkumně relevantní. I velmi malý rozdíl se může ukázat jako signifikantní, pokud máme dostatek měření. Proto se údaj o statistické signifikanci kombinuje s informací o relevanci (effect-size). |
V základu vzorce pro výpočet DIN je rozdíl relativních frekvencí v čitateli ku frekvenční hladině, na níž se oba jevy vyskytují. Tuto frekvenční hladinu můžeme reprezentovat např. průměrem relativních frekvencí (celý vzorec se pak nenásobí koeficientem 100, ale 50): | V základu vzorce pro výpočet DIN je rozdíl relativních frekvencí v čitateli ku frekvenční hladině, na níž se oba jevy vyskytují. Tuto frekvenční hladinu můžeme reprezentovat např. průměrem relativních frekvencí (celý vzorec se pak nenásobí koeficientem 100, ale 50): |
| |
$$DIN = 50 \times \frac{ RelFq(Ttxt) - RelFq(RefC) }{ RelFq(Ttxt) + RelFq(RefC) } $ | {{:pojmy:vzorecdin2.png?nolink&350|}} |
| |
| |
| |
<WRAP round box 50%> | <WRAP round box 50%> |
xxx • xxx | [[pojmy:keyword|Klíčové slovo (keyword)]] • [[manualy:kwords|aplikace KWords]] • [[pojmy:chi2|chi2]] |
</WRAP> | </WRAP> |
| |