AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:asociacni_miry [2013/08/21 11:30] alzbetavitkovapojmy:asociacni_miry [2019/04/09 15:10] (aktuální) Václav Cvrček
Řádek 1: Řádek 1:
 ====== Asociační (kolokační) míry ====== ====== Asociační (kolokační) míry ======
  
-Asociační míry (association measures) jsou matematické postupy (vzorce) používané pro vyhledání[[pojmy:kolokace|kolokací]] v korpusu. +Asociační míry (association measures) jsou matematické postupy (vzorce) používané pro vyhledání [[pojmy:kolokace|kolokací]] v korpusu. 
  
-Velká většina asociačních měr je omezena pouze na dvoučlenné kolokace. Asociační míry mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované míry včetně čistě empirických bez vztahu ke statistické relevanci.+Velká většina asociačních měr je omezena pouze na dvoučlenné kolokace ([[pojmy:bigram|bigramy]]). Asociační míry mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované míry včetně čistě empirických bez vztahu ke statistické relevanci.
  
 ===== Obecný princip ===== ===== Obecný princip =====
Řádek 43: Řádek 43:
  
 Hodnoty MI-score jsou převážně kladné (záporné hodnoty značí vzájemné odpuzování jednotek a jsou relativně řídké). Za relevantní bývá považována hranice MI = 7 (pro stomilionový korpus), kdy je oprávněná domněnka, že se jedná o systémovou kolokaci. Tato hodnota ovšem samozřejmě závisí na velikosti korpusu. Hodnoty MI-score jsou převážně kladné (záporné hodnoty značí vzájemné odpuzování jednotek a jsou relativně řídké). Za relevantní bývá považována hranice MI = 7 (pro stomilionový korpus), kdy je oprávněná domněnka, že se jedná o systémovou kolokaci. Tato hodnota ovšem samozřejmě závisí na velikosti korpusu.
 +
 +FIXME
 +
 ==== T-score ==== ==== T-score ====
  
Řádek 56: Řádek 59:
  
 Na rozdíl od MI-score je T-score citlivé na frekvenci celé kolokace - výsledky tohoto testu tak pravidelně přeceňují kombinace slov velmi frekventovaných (což jsou většinou slova gramatická) na úkor méně frekventovaných lexikálních kombinací. Na rozdíl od MI-score je T-score citlivé na frekvenci celé kolokace - výsledky tohoto testu tak pravidelně přeceňují kombinace slov velmi frekventovaných (což jsou většinou slova gramatická) na úkor méně frekventovaných lexikálních kombinací.
 +
 +FIXME
 +
 ==== MIt score ==== ==== MIt score ====
  
Řádek 63: Řádek 69:
  
 Využívá přitom faktu, že hodnoty MI-score a T-score se pohybují zhruba ve stejném rozsahu. Za hodnotu MIt se považuje menší z hodnot MI-score a T-score. Jelikož je MI-score nespolehlivé při určování míry asociace u slov s nízkou frekvencí a T-score naopak přeceňuje kolokace tvořené slovy s vysokou frekvencí, slouží MIt jako korektiv, který bere v úvahu vždy tu z hodnot, o které můžeme předpokládat, že je v danou chvíli vhodnější.  Využívá přitom faktu, že hodnoty MI-score a T-score se pohybují zhruba ve stejném rozsahu. Za hodnotu MIt se považuje menší z hodnot MI-score a T-score. Jelikož je MI-score nespolehlivé při určování míry asociace u slov s nízkou frekvencí a T-score naopak přeceňuje kolokace tvořené slovy s vysokou frekvencí, slouží MIt jako korektiv, který bere v úvahu vždy tu z hodnot, o které můžeme předpokládat, že je v danou chvíli vhodnější. 
 +
 ==== Dice a logDice ==== ==== Dice a logDice ====
  
Řádek 75: Řádek 82:
 LogDice představuje normalizovanou variantu Dice, která nabývá hodnot od mínus nekonečna do 14. LogDice představuje normalizovanou variantu Dice, která nabývá hodnot od mínus nekonečna do 14.
  
 +FIXME
  
 ==== Log likelihood ==== ==== Log likelihood ====
Řádek 80: Řádek 88:
 $$LL(xy) = f(xy) \log(f(xy)) + (f(x) - f(xy)) \log (f(x) - f(xy)) + (f(y) - f(xy)) \log (f(y) - f(xy)) + N \log N $$ $$LL(xy) = f(xy) \log(f(xy)) + (f(x) - f(xy)) \log (f(x) - f(xy)) + (f(y) - f(xy)) \log (f(y) - f(xy)) + N \log N $$
 $$ + (N + f(xy) - f(x) - f(y)) \log (N + f(xy) - f(x) - f(y)) - f(x) \log (f(x)) - f(y) \log (f(y)) - (N - f(x)) \log (N - f(x)) - (N - f(y)) \log (N - f(y))$$ $$ + (N + f(xy) - f(x) - f(y)) \log (N + f(xy) - f(x) - f(y)) - f(x) \log (f(x)) - f(y) \log (f(y)) - (N - f(x)) \log (N - f(x)) - (N - f(y)) \log (N - f(y))$$
 +
 +FIXME
  
 ==== Min. sensitivity (citlivost) ==== ==== Min. sensitivity (citlivost) ====
Řádek 88: Řádek 98:
  
 Jedná se tedy o menší z hodnot poměru frekvence bigramu k frekvenci jednoho z jeho konstituentů. Jedná se tedy o menší z hodnot poměru frekvence bigramu k frekvenci jednoho z jeho konstituentů.
 +
 +FIXME
 +
 ==== Chi2 ==== ==== Chi2 ====
  
Řádek 97: Řádek 110:
  
 $$z(xy) = \frac{f(xy) - \frac{f(x) f(y)}{N}}{\sqrt{\frac{f(x) f(y)}{N}}}$$ $$z(xy) = \frac{f(xy) - \frac{f(x) f(y)}{N}}{\sqrt{\frac{f(x) f(y)}{N}}}$$
 +
 +FIXME
  
 ===== Související odkazy ===== ===== Související odkazy =====
 +
 <WRAP round box 49%> <WRAP round box 49%>
 [[pojmy:frekvence|Frekvence]] • [[pojmy:kolokace|Kolokace]] • [[http://www.collocations.de/AM/index.html|www.collocations.de]] [[pojmy:frekvence|Frekvence]] • [[pojmy:kolokace|Kolokace]] • [[http://www.collocations.de/AM/index.html|www.collocations.de]]
 </WRAP> </WRAP>