Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
pojmy:asociacni_miry [2013/06/20 15:42] – vaclavcvrcek | pojmy:asociacni_miry [2013/06/20 16:11] – [Log likelihood] vaclavcvrcek | ||
---|---|---|---|
Řádek 41: | Řádek 41: | ||
Nevítanou vlastností MI-score je to, že je velmi ovlivňováno frekvencí jednotlivých slov. Nejvyšších hodnot totiž dosahují dvojice slov s nízkou frekvencí. Z tohoto důvodu umožňují korpusové manažery při výpočtu MI-score nastavit spodní hranici frekvence a pro slova s absolutní frekvencí pod touto hranicí se potom mi-score nepočítá. | Nevítanou vlastností MI-score je to, že je velmi ovlivňováno frekvencí jednotlivých slov. Nejvyšších hodnot totiž dosahují dvojice slov s nízkou frekvencí. Z tohoto důvodu umožňují korpusové manažery při výpočtu MI-score nastavit spodní hranici frekvence a pro slova s absolutní frekvencí pod touto hranicí se potom mi-score nepočítá. | ||
+ | |||
+ | Hodnoty MI-score jsou převážně kladné (záporné hodnoty značí vzájemné odpuzování jednotek a njsou relativně řídké). Za relevantní bývá považována hranice MI = 7 (pro stomilionový korpus), kdy je oprávněná domněnka, že se jedná o systémovou kolokaci. Tato hodnota ovšem samozřejmě závisí na velikosti korpusu. | ||
==== T-score ==== | ==== T-score ==== | ||
Řádek 62: | Řádek 64: | ||
Využívá přitom faktu, že hodnoty MI-score a T-score se pohybuje zhruba ve stejném rozsahu. Za hodnotu MIt se považuje menší z hodnot MI-score a T-score. Jelikož je MI-score nespolehlivé při určování míry asociace u slov s nízkou frekvencí a T-score naopak přeceňuje kolokace tvořené slovy s vysokou frekvencí, slouží MIt jako korektiv, který bere v úvahu vždy tu z hodnot, o které můžeme předpokládat, | Využívá přitom faktu, že hodnoty MI-score a T-score se pohybuje zhruba ve stejném rozsahu. Za hodnotu MIt se považuje menší z hodnot MI-score a T-score. Jelikož je MI-score nespolehlivé při určování míry asociace u slov s nízkou frekvencí a T-score naopak přeceňuje kolokace tvořené slovy s vysokou frekvencí, slouží MIt jako korektiv, který bere v úvahu vždy tu z hodnot, o které můžeme předpokládat, | ||
==== Dice a logDice ==== | ==== Dice a logDice ==== | ||
+ | |||
+ | Na rozdíl od ostatních měr, je Dice a od ní odvozená míra logDice, závislá pouze na frekvencích slov //x// a //y// a na frekvenci bigramu //xy//. Do výpočtu tak nevstupuje N, tedy velikost korpusu. | ||
+ | |||
+ | $$Dice(xy) = \frac{2 f(xy)}{f(x) + f(y)}$$ | ||
+ | |||
+ | $$logDice(xy) = 14 + \log_{2} \frac{2 f(xy)}{f(x) + f(y)} $$ | ||
+ | |||
+ | V základu výpočtu míry Dice je poměřování frekvence bigramu, //f(xy)//, s průměrem frekvencí slov //x// a //y//, //(f(x) + f(y))/2//. Vzhledem k tomu, že frekvence bigramu f(xy) nemůže nikdy být větší než průměr hodnot frekvencí obou jeho konstituentů, | ||
+ | |||
+ | LogDice představuje normalizovanou variantu Dice, která nabývá hodnot od mínus nekonečna do 14. | ||
+ | |||
==== Log likelihood ==== | ==== Log likelihood ==== | ||
+ | |||
+ | $$LL(xy) = f(xy) \log(f(xy)) + (f(x) - f(xy)) \log (f(x) - f(xy)) + (f(y) - f(xy)) \log (f(y) - f(xy)) + N \log N + (N + f(xy) - f(x) - f(y)) \log (N + f(xy)$$ | ||
+ | $$ - f(x) - f(y)) - f(x) \log (f(x)) - f(y) \log (f(y)) - (N - f(x)) \log (N - f(x)) - (N - f(y)) \log (N - f(y))$$ | ||
==== Min. sensitivity (citlivost) ==== | ==== Min. sensitivity (citlivost) ==== | ||
+ | Minimální citlivost je jedna z nejjednodušších asociačních měr. Její silnou stránkou je fakt, že je snadno interpretovatelná. Vypočítává se podle vzorce: | ||
+ | |||
+ | $$MS(xy) = \min ( \frac{f(xy)}{f(x)}, | ||
+ | |||
+ | Jedná se tedy o menší z hodnot poměru frekvence bigramu k frekvenci jednoho z jeho konstituentů. | ||
==== Chi2 ==== | ==== Chi2 ==== | ||
Řádek 73: | Řádek 94: | ||
==== z-score ==== | ==== z-score ==== | ||
+ | $$z(xy) = \frac{f(xy) - \frac{f(x) f(y)}{N}}{\sqrt{\frac{f(x) f(y)}{N}}}$$ | ||
===== Související odkazy ===== | ===== Související odkazy ===== | ||
[[http:// | [[http:// |