AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Poslední revizeObě strany příští revize
pojmy:din [2019/09/27 09:51] – [Princip fungování] vaclavcvrcekpojmy:din [2019/09/27 10:31] – [Signifikance a relevance] vaclavcvrcek
Řádek 1: Řádek 1:
 ====== DIN ====== ====== DIN ======
  
-DIN (Difference index) je tzv. effect size metrika, tedy míra navržená((viz Fidler, M. - Cvrček, V.: {{:pojmy:josl-separat.pdf|A Data-Driven Analysis of Reader Viewpoints: Reconstructing the Historical Reader Using Keyword Analysis}}. Journal of Slavic Linguistics 23(2), (s. 197–239). )) pro účely poměřování relevance rozdílu mezi čísly. DIN se uplatňuje zejména při analýze prominence klíčových slov v aplikaci [[manualy:kwords|KWords]].+DIN (Difference index) je tzv. effect size metrika, tedy míra navržená((viz Fidler, M. - Cvrček, V.: {{:pojmy:josl-separat.pdf|A Data-Driven Analysis of Reader Viewpoints: Reconstructing the Historical Reader Using Keyword Analysis}}. Journal of Slavic Linguistics 23(2), (s. 197–239). )) pro účely poměřování relevance rozdílu mezi čísly. DIN se uplatňuje zejména při analýze prominence [[pojmy:keyword|klíčových slov]] v aplikaci [[manualy:kwords|KWords]].
  
 ===== Signifikance a relevance ===== ===== Signifikance a relevance =====
  
-Při poměřování čísel (např. frekvencí slov) nás zajímá jednak to, jestli je jejich rozdíl statisticky signifikantní, a jednak, jestli je z hlediska popisu relevantní. První typ informace zprostředkovávají testy statistické **signifikance** (např. [[pojmy:chi2|chi2]] test, Fisherův test či [[pojmy:loglikelihood|log-likelihood]]).((Fakt, že se některé z těchto testů používají zároveň jako [[pojmy:asociacni_miry|asociační míry]] není v tuto chvíli relevantní.)) Výsledek těchto testů lze převést na tzv. //p//-value, která vyjadřuje, jak pravděpodobné je, že daný rozdíl je způsoben přirozenou variabilitou dat nebo náhodou.+Při poměřování hodnot (např. frekvencí slov) nás zajímá jednak to, jestli je jejich rozdíl statisticky signifikantní, a jednak, jestli je z hlediska popisu relevantní. První typ informace zprostředkovávají testy statistické **signifikance** (např. [[pojmy:chi2|chi2]] test, Fisherův test či [[pojmy:loglikelihood|log-likelihood]] test).((Fakt, že se některé z těchto testů používají zároveň jako [[pojmy:asociacni_miry|asociační míry]]není v tuto chvíli relevantní.)) Výsledek těchto testů lze převést na tzv. //p//-value, která vyjadřuje, jak pravděpodobné je, že daný rozdíl je způsoben přirozenou variabilitou dat nebo náhodou.
  
 To, že rozdíl je statisticky signifikantní ještě neznamená, že je také výzkumně relevantní. I velmi malý rozdíl se může ukázat jako signifikantní, pokud máme dostatek měření. Proto se údaj o statistické signifikanci kombinuje s informací o relevanci (effect-size). To, že rozdíl je statisticky signifikantní ještě neznamená, že je také výzkumně relevantní. I velmi malý rozdíl se může ukázat jako signifikantní, pokud máme dostatek měření. Proto se údaj o statistické signifikanci kombinuje s informací o relevanci (effect-size).
Řádek 17: Řádek 17:
 kde $RelFq(Ttxt)$ je relativní frekvence jevu ve zkoumaném textu (target text) a $RelFq(RefC)$ je relativní frekvence téhož jevu v referenčním korpusu.  kde $RelFq(Ttxt)$ je relativní frekvence jevu ve zkoumaném textu (target text) a $RelFq(RefC)$ je relativní frekvence téhož jevu v referenčním korpusu. 
  
-V základu vzorce pro výpočet DIN je rozdíl relativních frekvencí v čitateli ku frekvenční hladině, na níž se oba jevy vyskytují. Tuto frekvenční hladinu můžeme reprezentovat např. průměrem relativních frekvencí:+V základu vzorce pro výpočet DIN je rozdíl relativních frekvencí v čitateli ku frekvenční hladině, na níž se oba jevy vyskytují. Tuto frekvenční hladinu můžeme reprezentovat např. průměrem relativních frekvencí (celý vzorec se pak nenásobí koeficientem 100, ale 50):
  
 +{{:pojmy:vzorecdin2.png?nolink&350|}}
  
-$$DIN = 50 \times \frac{RelFq(Ttxt) - RelFq(RefC)}{\frac{RelFq(Ttxt) + RelFq(RefC)}{2}}$$ 
  
  
 ===== Hodnoty DIN ===== ===== Hodnoty DIN =====
  
- +Hodnota DIN je koncipována takaby dosahovala hodnot od -100 do 100, přičemž platí, že:
-Hodnoty DIN, podle nichž jsou klíčová slova ve výpisu programu seřazena, mohou dosahovat hodnot od -100 do 100, přičemž platí, že:+
   * hodnota -100 znamená, že daný jev se ve zkoumaném textu nevyskytuje, je pouze v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní)   * hodnota -100 znamená, že daný jev se ve zkoumaném textu nevyskytuje, je pouze v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní)
   * hodnota 0 znamená, že daný jev má zhruba stejnou relativní frekvenci ve zkoumaném textu i v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní)   * hodnota 0 znamená, že daný jev má zhruba stejnou relativní frekvenci ve zkoumaném textu i v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní)
Řádek 40: Řádek 39:
  
 <WRAP round box 50%> <WRAP round box 50%>
-xxx • xxx+[[pojmy:keyword|Klíčové slovo (keyword)]] • [[manualy:kwords|aplikace KWords]] • [[pojmy:chi2|chi2]]
 </WRAP> </WRAP>