Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzePoslední revizeObě strany příští revize |
pojmy:din [2019/09/27 09:51] – [Princip fungování] vaclavcvrcek | pojmy:din [2019/09/27 10:31] – [Signifikance a relevance] vaclavcvrcek |
---|
====== DIN ====== | ====== DIN ====== |
| |
DIN (Difference index) je tzv. effect size metrika, tedy míra navržená((viz Fidler, M. - Cvrček, V.: {{:pojmy:josl-separat.pdf|A Data-Driven Analysis of Reader Viewpoints: Reconstructing the Historical Reader Using Keyword Analysis}}. Journal of Slavic Linguistics 23(2), (s. 197–239). )) pro účely poměřování relevance rozdílu mezi čísly. DIN se uplatňuje zejména při analýze prominence klíčových slov v aplikaci [[manualy:kwords|KWords]]. | DIN (Difference index) je tzv. effect size metrika, tedy míra navržená((viz Fidler, M. - Cvrček, V.: {{:pojmy:josl-separat.pdf|A Data-Driven Analysis of Reader Viewpoints: Reconstructing the Historical Reader Using Keyword Analysis}}. Journal of Slavic Linguistics 23(2), (s. 197–239). )) pro účely poměřování relevance rozdílu mezi čísly. DIN se uplatňuje zejména při analýze prominence [[pojmy:keyword|klíčových slov]] v aplikaci [[manualy:kwords|KWords]]. |
| |
===== Signifikance a relevance ===== | ===== Signifikance a relevance ===== |
| |
Při poměřování čísel (např. frekvencí slov) nás zajímá jednak to, jestli je jejich rozdíl statisticky signifikantní, a jednak, jestli je z hlediska popisu relevantní. První typ informace zprostředkovávají testy statistické **signifikance** (např. [[pojmy:chi2|chi2]] test, Fisherův test či [[pojmy:loglikelihood|log-likelihood]]).((Fakt, že se některé z těchto testů používají zároveň jako [[pojmy:asociacni_miry|asociační míry]] není v tuto chvíli relevantní.)) Výsledek těchto testů lze převést na tzv. //p//-value, která vyjadřuje, jak pravděpodobné je, že daný rozdíl je způsoben přirozenou variabilitou dat nebo náhodou. | Při poměřování hodnot (např. frekvencí slov) nás zajímá jednak to, jestli je jejich rozdíl statisticky signifikantní, a jednak, jestli je z hlediska popisu relevantní. První typ informace zprostředkovávají testy statistické **signifikance** (např. [[pojmy:chi2|chi2]] test, Fisherův test či [[pojmy:loglikelihood|log-likelihood]] test).((Fakt, že se některé z těchto testů používají zároveň jako [[pojmy:asociacni_miry|asociační míry]], není v tuto chvíli relevantní.)) Výsledek těchto testů lze převést na tzv. //p//-value, která vyjadřuje, jak pravděpodobné je, že daný rozdíl je způsoben přirozenou variabilitou dat nebo náhodou. |
| |
To, že rozdíl je statisticky signifikantní ještě neznamená, že je také výzkumně relevantní. I velmi malý rozdíl se může ukázat jako signifikantní, pokud máme dostatek měření. Proto se údaj o statistické signifikanci kombinuje s informací o relevanci (effect-size). | To, že rozdíl je statisticky signifikantní ještě neznamená, že je také výzkumně relevantní. I velmi malý rozdíl se může ukázat jako signifikantní, pokud máme dostatek měření. Proto se údaj o statistické signifikanci kombinuje s informací o relevanci (effect-size). |
kde $RelFq(Ttxt)$ je relativní frekvence jevu ve zkoumaném textu (target text) a $RelFq(RefC)$ je relativní frekvence téhož jevu v referenčním korpusu. | kde $RelFq(Ttxt)$ je relativní frekvence jevu ve zkoumaném textu (target text) a $RelFq(RefC)$ je relativní frekvence téhož jevu v referenčním korpusu. |
| |
V základu vzorce pro výpočet DIN je rozdíl relativních frekvencí v čitateli ku frekvenční hladině, na níž se oba jevy vyskytují. Tuto frekvenční hladinu můžeme reprezentovat např. průměrem relativních frekvencí: | V základu vzorce pro výpočet DIN je rozdíl relativních frekvencí v čitateli ku frekvenční hladině, na níž se oba jevy vyskytují. Tuto frekvenční hladinu můžeme reprezentovat např. průměrem relativních frekvencí (celý vzorec se pak nenásobí koeficientem 100, ale 50): |
| |
| {{:pojmy:vzorecdin2.png?nolink&350|}} |
| |
$$DIN = 50 \times \frac{RelFq(Ttxt) - RelFq(RefC)}{\frac{RelFq(Ttxt) + RelFq(RefC)}{2}}$$ | |
| |
| |
===== Hodnoty DIN ===== | ===== Hodnoty DIN ===== |
| |
| Hodnota DIN je koncipována tak, aby dosahovala hodnot od -100 do 100, přičemž platí, že: |
Hodnoty DIN, podle nichž jsou klíčová slova ve výpisu programu seřazena, mohou dosahovat hodnot od -100 do 100, přičemž platí, že: | |
* hodnota -100 znamená, že daný jev se ve zkoumaném textu nevyskytuje, je pouze v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní) | * hodnota -100 znamená, že daný jev se ve zkoumaném textu nevyskytuje, je pouze v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní) |
* hodnota 0 znamená, že daný jev má zhruba stejnou relativní frekvenci ve zkoumaném textu i v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní) | * hodnota 0 znamená, že daný jev má zhruba stejnou relativní frekvenci ve zkoumaném textu i v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní) |
| |
<WRAP round box 50%> | <WRAP round box 50%> |
xxx • xxx | [[pojmy:keyword|Klíčové slovo (keyword)]] • [[manualy:kwords|aplikace KWords]] • [[pojmy:chi2|chi2]] |
</WRAP> | </WRAP> |
| |