AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Poslední revizeObě strany příští revize
pojmy:din [2019/09/23 13:40] – [DIN] vaclavcvrcekpojmy:din [2019/09/27 10:31] – [Signifikance a relevance] vaclavcvrcek
Řádek 1: Řádek 1:
 ====== DIN ====== ====== DIN ======
  
-DIN (Difference index) je effect size metrika navržená((viz Fidler, M. - Cvrček, V.: {{:pojmy:josl-separat.pdf|A Data-Driven Analysis of Reader Viewpoints: Reconstructing the Historical Reader Using Keyword Analysis}}. Journal of Slavic Linguistics 23(2), (s. 197–239). )) pro účely poměřování prominence klíčových slov v aplikaci [[manualy:kwords|KWords]].+DIN (Difference index) je tzv. effect size metrika, tedy míra navržená((viz Fidler, M. - Cvrček, V.: {{:pojmy:josl-separat.pdf|A Data-Driven Analysis of Reader Viewpoints: Reconstructing the Historical Reader Using Keyword Analysis}}. Journal of Slavic Linguistics 23(2), (s. 197–239). )) pro účely poměřování relevance rozdílu mezi čísly. DIN se uplatňuje zejména při analýze prominence [[pojmy:keyword|klíčových slov]] v aplikaci [[manualy:kwords|KWords]].
  
- Pro jednotkyu nichž byl zaznamenán statisticky signifikantní rozdíl (podle zvoleného statistického testu -- [[pojmy:chi2|chi2]] či [[pojmy:loglikelihood|log-likelihood]]), je dále vypočítána hodnota **DIN** (difference index) vypovídající o relevanci daného rozdílu:+===== Signifikance a relevance ===== 
 + 
 +Při poměřování hodnot (např. frekvencí slov) nás zajímá jednak tojestli je jejich rozdíl statisticky signifikantní, a jednak, jestli je z hlediska popisu relevantní. První typ informace zprostředkovávají testy statistické **signifikance** (např. [[pojmy:chi2|chi2]] test, Fisherův test či [[pojmy:loglikelihood|log-likelihood]] test).((Fakt, že se některé z těchto testů používají zároveň jako [[pojmy:asociacni_miry|asociační míry]], není v tuto chvíli relevantní.)) Výsledek těchto testů lze převést na tzv. //p//-value, která vyjadřuje, jak pravděpodobné je, že daný rozdíl je způsoben přirozenou variabilitou dat nebo náhodou. 
 + 
 +To, že rozdíl je statisticky signifikantní ještě neznamená, že je také výzkumně relevantní. I velmi malý rozdíl se může ukázat jako signifikantní, pokud máme dostatek měření. Proto se údaj o statistické signifikanci kombinuje s informací o relevanci (effect-size). 
 + 
 +===== Princip fungování ===== 
 + 
 +Když se vrátíme k modelovému příkladu identifikace prominentních jednotek v textu (klíčových slov), tak pro jednotky, u nichž byl zaznamenán statisticky signifikantní rozdíl (podle zvoleného statistického testu), je vypočítána hodnota **DIN** (difference index) vypovídající o relevanci daného rozdílu:
  
 $$DIN = 100 \times \frac{RelFq(Ttxt) - RelFq(RefC)}{RelFq(Ttxt) + RelFq(RefC)}$$ $$DIN = 100 \times \frac{RelFq(Ttxt) - RelFq(RefC)}{RelFq(Ttxt) + RelFq(RefC)}$$
  
-kde $RelFq(Ttxt)$ je relativní frekvence jevu ve zkoumaném textu (target text) a $RelFq(RefC)$ je relativní frekvence téhož jevu v referenčním korpusu. Hodnoty DIN, podle nichž jsou klíčová slova ve výpisu programu seřazenamohou dosahovat hodnot od -100 do 100, přičemž platí, že:+kde $RelFq(Ttxt)$ je relativní frekvence jevu ve zkoumaném textu (target text) a $RelFq(RefC)$ je relativní frekvence téhož jevu v referenčním korpusu.  
 + 
 +V základu vzorce pro výpočet DIN je rozdíl relativních frekvencí v čitateli ku frekvenční hladiněna níž se oba jevy vyskytují. Tuto frekvenční hladinu můžeme reprezentovat např. průměrem relativních frekvencí (celý vzorec se pak nenásobí koeficientem 100, ale 50): 
 + 
 +{{:pojmy:vzorecdin2.png?nolink&350|}} 
 + 
 + 
 + 
 +===== Hodnoty DIN ===== 
 + 
 +Hodnota DIN je koncipována takaby dosahovala hodnot od -100 do 100, přičemž platí, že:
   * hodnota -100 znamená, že daný jev se ve zkoumaném textu nevyskytuje, je pouze v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní)   * hodnota -100 znamená, že daný jev se ve zkoumaném textu nevyskytuje, je pouze v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní)
   * hodnota 0 znamená, že daný jev má zhruba stejnou relativní frekvenci ve zkoumaném textu i v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní)   * hodnota 0 znamená, že daný jev má zhruba stejnou relativní frekvenci ve zkoumaném textu i v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní)
Řádek 13: Řádek 31:
  
 V textech o rozsahu do 20 tisíc slov a při analýze [[pojmy:word|slovních tvarů]] je možné považovat hodnoty DIN v rozmezí 75-100 za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu. V textech o rozsahu do 20 tisíc slov a při analýze [[pojmy:word|slovních tvarů]] je možné považovat hodnoty DIN v rozmezí 75-100 za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu.
- 
  
 --- //Václav Cvrček// --- //Václav Cvrček//
Řádek 22: Řádek 39:
  
 <WRAP round box 50%> <WRAP round box 50%>
-xxx • xxx+[[pojmy:keyword|Klíčové slovo (keyword)]] • [[manualy:kwords|aplikace KWords]] • [[pojmy:chi2|chi2]]
 </WRAP> </WRAP>