AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
pojmy:asociacni_miry [2013/06/20 15:42] vaclavcvrcekpojmy:asociacni_miry [2013/06/20 16:12] – [Log likelihood] vaclavcvrcek
Řádek 41: Řádek 41:
  
 Nevítanou vlastností MI-score je to, že je velmi ovlivňováno frekvencí jednotlivých slov. Nejvyšších hodnot totiž dosahují dvojice slov s nízkou frekvencí. Z tohoto důvodu umožňují korpusové manažery při výpočtu MI-score nastavit spodní hranici frekvence a pro slova s absolutní frekvencí pod touto hranicí se potom mi-score nepočítá. Nevítanou vlastností MI-score je to, že je velmi ovlivňováno frekvencí jednotlivých slov. Nejvyšších hodnot totiž dosahují dvojice slov s nízkou frekvencí. Z tohoto důvodu umožňují korpusové manažery při výpočtu MI-score nastavit spodní hranici frekvence a pro slova s absolutní frekvencí pod touto hranicí se potom mi-score nepočítá.
 +
 +Hodnoty MI-score jsou převážně kladné (záporné hodnoty značí vzájemné odpuzování jednotek a njsou relativně řídké). Za relevantní bývá považována hranice MI = 7 (pro stomilionový korpus), kdy je oprávněná domněnka, že se jedná o systémovou kolokaci. Tato hodnota ovšem samozřejmě závisí na velikosti korpusu.
 ==== T-score ==== ==== T-score ====
  
Řádek 62: Řádek 64:
 Využívá přitom faktu, že hodnoty MI-score a T-score se pohybuje zhruba ve stejném rozsahu. Za hodnotu MIt se považuje menší z hodnot MI-score a T-score. Jelikož je MI-score nespolehlivé při určování míry asociace u slov s nízkou frekvencí a T-score naopak přeceňuje kolokace tvořené slovy s vysokou frekvencí, slouží MIt jako korektiv, který bere v úvahu vždy tu z hodnot, o které můžeme předpokládat, že je umírněnější.  Využívá přitom faktu, že hodnoty MI-score a T-score se pohybuje zhruba ve stejném rozsahu. Za hodnotu MIt se považuje menší z hodnot MI-score a T-score. Jelikož je MI-score nespolehlivé při určování míry asociace u slov s nízkou frekvencí a T-score naopak přeceňuje kolokace tvořené slovy s vysokou frekvencí, slouží MIt jako korektiv, který bere v úvahu vždy tu z hodnot, o které můžeme předpokládat, že je umírněnější. 
 ==== Dice a logDice ==== ==== Dice a logDice ====
 +
 +Na rozdíl od ostatních měr, je Dice a od ní odvozená míra logDice, závislá pouze na frekvencích slov //x// a //y// a na frekvenci bigramu //xy//. Do výpočtu tak nevstupuje N, tedy velikost korpusu.
 +
 +$$Dice(xy) = \frac{2 f(xy)}{f(x) + f(y)}$$
 +
 +$$logDice(xy) = 14 + \log_{2} \frac{2 f(xy)}{f(x) + f(y)} $$
 +
 +V základu výpočtu míry Dice je poměřování frekvence bigramu, //f(xy)//, s průměrem frekvencí slov //x// a //y//, //(f(x) + f(y))/2//. Vzhledem k tomu, že frekvence bigramu f(xy) nemůže nikdy být větší než průměr hodnot frekvencí obou jeho konstituentů, pohybují se hodnoty Dice v intervalu (0,1). Maximální hodnota (=1) nastává v případě, že f(xy) = f(x) = f(y).
 +
 +LogDice představuje normalizovanou variantu Dice, která nabývá hodnot od mínus nekonečna do 14.
 +
  
 ==== Log likelihood ==== ==== Log likelihood ====
 +
 +$$LL(xy) = f(xy) \log(f(xy)) + (f(x) - f(xy)) \log (f(x) - f(xy)) + (f(y) - f(xy)) \log (f(y) - f(xy)) + N \log N + (N + f(xy) - f(x) - f(y)) \log (N + f(xy) - f(x) - f(y)) $$
 +$$- f(x) \log (f(x)) - f(y) \log (f(y)) - (N - f(x)) \log (N - f(x)) - (N - f(y)) \log (N - f(y))$$
  
 ==== Min. sensitivity (citlivost) ==== ==== Min. sensitivity (citlivost) ====
  
 +Minimální citlivost je jedna z nejjednodušších asociačních měr. Její silnou stránkou je fakt, že je snadno interpretovatelná. Vypočítává se podle vzorce:
 +
 +$$MS(xy) = \min ( \frac{f(xy)}{f(x)}, \frac{f(xy)}{f(y)} ) $$
 +
 +Jedná se tedy o menší z hodnot poměru frekvence bigramu k frekvenci jednoho z jeho konstituentů.
 ==== Chi2 ==== ==== Chi2 ====
  
Řádek 73: Řádek 94:
 ==== z-score ==== ==== z-score ====
  
 +$$z(xy) = \frac{f(xy) - \frac{f(x) f(y)}{N}}{\sqrt{\frac{f(x) f(y)}{N}}}$$
  
 ===== Související odkazy ===== ===== Související odkazy =====
  
 [[http://www.collocations.de/AM/index.html|www.collocations.de]] [[http://www.collocations.de/AM/index.html|www.collocations.de]]