AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
pojmy:din [2019/09/27 09:43] – [DIN] vaclavcvrcekpojmy:din [2019/09/27 09:52] – [Hodnoty DIN] vaclavcvrcek
Řádek 11: Řádek 11:
 ===== Princip fungování ===== ===== Princip fungování =====
  
-Pro hodnoty, u nichž byl zaznamenán statisticky signifikantní rozdíl (podle zvoleného statistického testu), je vypočítána hodnota **DIN** (difference index) vypovídající o relevanci daného rozdílu:+Když se vrátíme k modelovému příkladu identifikace prominentních jednotek v textu (klíčových slov), tak pro jednotky, u nichž byl zaznamenán statisticky signifikantní rozdíl (podle zvoleného statistického testu), je vypočítána hodnota **DIN** (difference index) vypovídající o relevanci daného rozdílu:
  
 $$DIN = 100 \times \frac{RelFq(Ttxt) - RelFq(RefC)}{RelFq(Ttxt) + RelFq(RefC)}$$ $$DIN = 100 \times \frac{RelFq(Ttxt) - RelFq(RefC)}{RelFq(Ttxt) + RelFq(RefC)}$$
  
-kde $RelFq(Ttxt)$ je relativní frekvence jevu ve zkoumaném textu (target text) a $RelFq(RefC)$ je relativní frekvence téhož jevu v referenčním korpusu. Hodnoty DIN, podle nichž jsou klíčová slova ve výpisu programu seřazenamohou dosahovat hodnot od -100 do 100, přičemž platí, že:+kde $RelFq(Ttxt)$ je relativní frekvence jevu ve zkoumaném textu (target text) a $RelFq(RefC)$ je relativní frekvence téhož jevu v referenčním korpusu.  
 + 
 +V základu vzorce pro výpočet DIN je rozdíl relativních frekvencí v čitateli ku frekvenční hladiněna níž se oba jevy vyskytují. Tuto frekvenční hladinu můžeme reprezentovat např. průměrem relativních frekvencí: 
 + 
 + 
 +$$DIN = 50 \times \frac{RelFq(Ttxt) - RelFq(RefC)}{\frac{RelFq(Ttxt) + RelFq(RefC)}{2}}$$ 
 + 
 + 
 +===== Hodnoty DIN ===== 
 + 
 +Hodnota DIN je koncipována takaby dosahovala hodnot od -100 do 100, přičemž platí, že:
   * hodnota -100 znamená, že daný jev se ve zkoumaném textu nevyskytuje, je pouze v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní)   * hodnota -100 znamená, že daný jev se ve zkoumaném textu nevyskytuje, je pouze v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní)
   * hodnota 0 znamená, že daný jev má zhruba stejnou relativní frekvenci ve zkoumaném textu i v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní)   * hodnota 0 znamená, že daný jev má zhruba stejnou relativní frekvenci ve zkoumaném textu i v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní)
Řádek 21: Řádek 31:
  
 V textech o rozsahu do 20 tisíc slov a při analýze [[pojmy:word|slovních tvarů]] je možné považovat hodnoty DIN v rozmezí 75-100 za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu. V textech o rozsahu do 20 tisíc slov a při analýze [[pojmy:word|slovních tvarů]] je možné považovat hodnoty DIN v rozmezí 75-100 za velmi zajímavé a značí, že se jedná pravděpodobně o prominentní jednotku, která může dobře posloužit jako východisko pro interpretaci celého textu.
- 
  
 --- //Václav Cvrček// --- //Václav Cvrček//