Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
pojmy:din [2019/09/27 09:43] – [DIN] vaclavcvrcek | pojmy:din [2019/09/27 09:51] – [Princip fungování] vaclavcvrcek | ||
---|---|---|---|
Řádek 11: | Řádek 11: | ||
===== Princip fungování ===== | ===== Princip fungování ===== | ||
- | Pro hodnoty, u nichž byl zaznamenán statisticky signifikantní rozdíl (podle zvoleného statistického testu), je vypočítána hodnota **DIN** (difference index) vypovídající o relevanci daného rozdílu: | + | Když se vrátíme k modelovému příkladu identifikace prominentních jednotek v textu (klíčových slov), tak pro jednotky, u nichž byl zaznamenán statisticky signifikantní rozdíl (podle zvoleného statistického testu), je vypočítána hodnota **DIN** (difference index) vypovídající o relevanci daného rozdílu: |
$$DIN = 100 \times \frac{RelFq(Ttxt) - RelFq(RefC)}{RelFq(Ttxt) + RelFq(RefC)}$$ | $$DIN = 100 \times \frac{RelFq(Ttxt) - RelFq(RefC)}{RelFq(Ttxt) + RelFq(RefC)}$$ | ||
- | kde $RelFq(Ttxt)$ je relativní frekvence jevu ve zkoumaném textu (target text) a $RelFq(RefC)$ je relativní frekvence téhož jevu v referenčním korpusu. Hodnoty DIN, podle nichž jsou klíčová slova ve výpisu programu seřazena, mohou dosahovat hodnot od -100 do 100, přičemž platí, že: | + | kde $RelFq(Ttxt)$ je relativní frekvence jevu ve zkoumaném textu (target text) a $RelFq(RefC)$ je relativní frekvence téhož jevu v referenčním korpusu. |
+ | |||
+ | V základu vzorce pro výpočet DIN je rozdíl relativních frekvencí v čitateli ku frekvenční hladině, na níž se oba jevy vyskytují. Tuto frekvenční hladinu můžeme reprezentovat např. průměrem relativních frekvencí: | ||
+ | |||
+ | |||
+ | $$DIN = 50 \times \frac{RelFq(Ttxt) - RelFq(RefC)}{\frac{RelFq(Ttxt) + RelFq(RefC)}{2}}$$ | ||
+ | |||
+ | |||
+ | ===== Hodnoty DIN ===== | ||
+ | |||
+ | |||
+ | Hodnoty DIN, podle nichž jsou klíčová slova ve výpisu programu seřazena, mohou dosahovat hodnot od -100 do 100, přičemž platí, že: | ||
* hodnota -100 znamená, že daný jev se ve zkoumaném textu nevyskytuje, | * hodnota -100 znamená, že daný jev se ve zkoumaném textu nevyskytuje, | ||
* hodnota 0 znamená, že daný jev má zhruba stejnou relativní frekvenci ve zkoumaném textu i v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní) | * hodnota 0 znamená, že daný jev má zhruba stejnou relativní frekvenci ve zkoumaném textu i v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní) | ||
Řádek 21: | Řádek 32: | ||
V textech o rozsahu do 20 tisíc slov a při analýze [[pojmy: | V textech o rozsahu do 20 tisíc slov a při analýze [[pojmy: | ||
- | |||
--- //Václav Cvrček// | --- //Václav Cvrček// |