Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
pojmy:din [2019/09/23 13:40] – [DIN] vaclavcvrcek | pojmy:din [2019/09/27 10:32] (aktuální) – [Princip fungování] vaclavcvrcek | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== DIN ====== | ====== DIN ====== | ||
- | DIN (Difference index) je effect size metrika navržená((viz Fidler, M. - Cvrček, V.: {{: | + | DIN (Difference index) je tzv. effect size metrika, tedy míra navržená((viz Fidler, M. - Cvrček, V.: {{: |
- | Pro jednotky, u nichž byl zaznamenán | + | ===== Signifikance a relevance ===== |
+ | |||
+ | Při poměřování hodnot (např. frekvencí slov) nás zajímá jednak to, jestli je jejich rozdíl | ||
+ | |||
+ | To, že rozdíl je statisticky signifikantní ještě neznamená, že je také výzkumně relevantní. I velmi malý rozdíl se může ukázat jako signifikantní, | ||
+ | |||
+ | ===== Princip fungování ===== | ||
+ | |||
+ | Když se vrátíme k modelovému příkladu identifikace prominentních jednotek v textu (klíčových slov), tak pro jednotky, u nichž byl zaznamenán statisticky signifikantní rozdíl (podle zvoleného statistického testu), je vypočítána hodnota **DIN** (difference index) vypovídající o relevanci daného rozdílu: | ||
DIN=100×RelFq(Ttxt)−RelFq(RefC)RelFq(Ttxt)+RelFq(RefC) | DIN=100×RelFq(Ttxt)−RelFq(RefC)RelFq(Ttxt)+RelFq(RefC) | ||
- | kde RelFq(Ttxt) je relativní frekvence jevu ve zkoumaném textu (target text) a RelFq(RefC) je relativní frekvence téhož jevu v referenčním korpusu. | + | kde RelFq(Ttxt) je relativní frekvence jevu ve zkoumaném textu (target text) a RelFq(RefC) je relativní frekvence téhož jevu v referenčním korpusu. |
+ | |||
+ | V základu vzorce pro výpočet | ||
+ | |||
+ | {{: | ||
+ | |||
+ | |||
+ | |||
+ | ===== Hodnoty DIN ===== | ||
+ | |||
+ | Hodnota DIN je koncipována tak, aby dosahovala | ||
* hodnota -100 znamená, že daný jev se ve zkoumaném textu nevyskytuje, | * hodnota -100 znamená, že daný jev se ve zkoumaném textu nevyskytuje, | ||
* hodnota 0 znamená, že daný jev má zhruba stejnou relativní frekvenci ve zkoumaném textu i v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní) | * hodnota 0 znamená, že daný jev má zhruba stejnou relativní frekvenci ve zkoumaném textu i v referenčním korpusu (slovo tedy není ve zkoumaném textu prominentní) | ||
Řádek 13: | Řádek 31: | ||
V textech o rozsahu do 20 tisíc slov a při analýze [[pojmy: | V textech o rozsahu do 20 tisíc slov a při analýze [[pojmy: | ||
- | |||
--- //Václav Cvrček// | --- //Václav Cvrček// | ||
Řádek 22: | Řádek 39: | ||
<WRAP round box 50%> | <WRAP round box 50%> | ||
- | xxx • xxx | + | [[pojmy: |
</ | </ | ||