Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Následující verze | Předchozí verze | ||
pojmy:din [2019/09/23 13:34] – vytvořeno vaclavcvrcek | pojmy:din [2019/09/27 10:32] (aktuální) – [Princip fungování] vaclavcvrcek | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== DIN ====== | ====== DIN ====== | ||
- | DIN (Difference index) je effect size metrika navržená pro účely poměřování prominence klíčových slov v aplikaci [[manualy: | + | DIN (Difference index) je tzv. effect size metrika, tedy míra navržená((viz Fidler, M. - Cvrček, V.: {{: |
+ | ===== Signifikance a relevance ===== | ||
+ | |||
+ | Při poměřování hodnot (např. frekvencí slov) nás zajímá jednak to, jestli je jejich rozdíl statisticky signifikantní, | ||
+ | |||
+ | To, že rozdíl je statisticky signifikantní ještě neznamená, že je také výzkumně relevantní. I velmi malý rozdíl se může ukázat jako signifikantní, | ||
+ | |||
+ | ===== Princip fungování ===== | ||
+ | |||
+ | Když se vrátíme k modelovému příkladu identifikace prominentních jednotek v textu (klíčových slov), tak pro jednotky, u nichž byl zaznamenán statisticky signifikantní rozdíl (podle zvoleného statistického testu), je vypočítána hodnota **DIN** (difference index) vypovídající o relevanci daného rozdílu: | ||
+ | |||
+ | $$DIN = 100 \times \frac{RelFq(Ttxt) - RelFq(RefC)}{RelFq(Ttxt) + RelFq(RefC)}$$ | ||
+ | |||
+ | kde $RelFq(Ttxt)$ je relativní frekvence jevu ve zkoumaném textu (target text) a $RelFq(RefC)$ je relativní frekvence téhož jevu v referenčním korpusu. | ||
+ | |||
+ | V základu vzorce pro výpočet DIN je rozdíl relativních frekvencí v čitateli ku frekvenční hladině, na níž se oba jevy vyskytují. Tuto frekvenční hladinu můžeme reprezentovat např. průměrem relativních frekvencí (celý vzorec se pak nenásobí koeficientem 100, ale 50, aby byl zachován požadovaný rozsah hodnot DIN): | ||
+ | |||
+ | {{: | ||
+ | |||
+ | |||
+ | |||
+ | ===== Hodnoty DIN ===== | ||
+ | |||
+ | Hodnota DIN je koncipována tak, aby dosahovala hodnot od -100 do 100, přičemž platí, že: | ||
+ | * hodnota -100 znamená, že daný jev se ve zkoumaném textu nevyskytuje, | ||
+ | * hodnota 0 znamená, že daný jev má zhruba stejnou relativní frekvenci ve zkoumaném textu i v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní) | ||
+ | * hodnota 100 značí, že slovo se vyskytuje pouze ve zkoumaném textu (může se tedy jednat o velmi prominentní slovo((V takovýchto případech je třeba mít na paměti, že absence slova v referenčním korpusu je situace zvláštní, | ||
+ | |||
+ | V textech o rozsahu do 20 tisíc slov a při analýze [[pojmy: | ||
--- //Václav Cvrček// | --- //Václav Cvrček// | ||
Řádek 11: | Řádek 39: | ||
<WRAP round box 50%> | <WRAP round box 50%> | ||
- | xxx • xxx | + | [[pojmy: |
</ | </ | ||