AplikaceAplikace
Nastavení
LDAP: couldn't connect to LDAP server

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:asociacni_miry [2013/08/21 11:30] alzbetavitkovapojmy:asociacni_miry [2019/04/09 15:10] (aktuální) vaclavcvrcek
Řádek 1: Řádek 1:
 ====== Asociační (kolokační) míry ====== ====== Asociační (kolokační) míry ======
  
-Asociační míry (association measures) jsou matematické postupy (vzorce) používané pro vyhledání[[pojmy:kolokace|kolokací]] v korpusu. +Asociační míry (association measures) jsou matematické postupy (vzorce) používané pro vyhledání [[pojmy:kolokace|kolokací]] v korpusu. 
  
-Velká většina asociačních měr je omezena pouze na dvoučlenné kolokace. Asociační míry mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované míry včetně čistě empirických bez vztahu ke statistické relevanci.+Velká většina asociačních měr je omezena pouze na dvoučlenné kolokace ([[pojmy:bigram|bigramy]]). Asociační míry mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované míry včetně čistě empirických bez vztahu ke statistické relevanci.
  
 ===== Obecný princip ===== ===== Obecný princip =====
Řádek 43: Řádek 43:
  
 Hodnoty MI-score jsou převážně kladné (záporné hodnoty značí vzájemné odpuzování jednotek a jsou relativně řídké). Za relevantní bývá považována hranice MI = 7 (pro stomilionový korpus), kdy je oprávněná domněnka, že se jedná o systémovou kolokaci. Tato hodnota ovšem samozřejmě závisí na velikosti korpusu. Hodnoty MI-score jsou převážně kladné (záporné hodnoty značí vzájemné odpuzování jednotek a jsou relativně řídké). Za relevantní bývá považována hranice MI = 7 (pro stomilionový korpus), kdy je oprávněná domněnka, že se jedná o systémovou kolokaci. Tato hodnota ovšem samozřejmě závisí na velikosti korpusu.
 +
 +FIXME
 +
 ==== T-score ==== ==== T-score ====
  
Řádek 56: Řádek 59:
  
 Na rozdíl od MI-score je T-score citlivé na frekvenci celé kolokace - výsledky tohoto testu tak pravidelně přeceňují kombinace slov velmi frekventovaných (což jsou většinou slova gramatická) na úkor méně frekventovaných lexikálních kombinací. Na rozdíl od MI-score je T-score citlivé na frekvenci celé kolokace - výsledky tohoto testu tak pravidelně přeceňují kombinace slov velmi frekventovaných (což jsou většinou slova gramatická) na úkor méně frekventovaných lexikálních kombinací.
 +
 +FIXME
 +
 ==== MIt score ==== ==== MIt score ====
  
Řádek 63: Řádek 69:
  
 Využívá přitom faktu, že hodnoty MI-score a T-score se pohybují zhruba ve stejném rozsahu. Za hodnotu MIt se považuje menší z hodnot MI-score a T-score. Jelikož je MI-score nespolehlivé při určování míry asociace u slov s nízkou frekvencí a T-score naopak přeceňuje kolokace tvořené slovy s vysokou frekvencí, slouží MIt jako korektiv, který bere v úvahu vždy tu z hodnot, o které můžeme předpokládat, že je v danou chvíli vhodnější.  Využívá přitom faktu, že hodnoty MI-score a T-score se pohybují zhruba ve stejném rozsahu. Za hodnotu MIt se považuje menší z hodnot MI-score a T-score. Jelikož je MI-score nespolehlivé při určování míry asociace u slov s nízkou frekvencí a T-score naopak přeceňuje kolokace tvořené slovy s vysokou frekvencí, slouží MIt jako korektiv, který bere v úvahu vždy tu z hodnot, o které můžeme předpokládat, že je v danou chvíli vhodnější. 
 +
 ==== Dice a logDice ==== ==== Dice a logDice ====
  
Řádek 75: Řádek 82:
 LogDice představuje normalizovanou variantu Dice, která nabývá hodnot od mínus nekonečna do 14. LogDice představuje normalizovanou variantu Dice, která nabývá hodnot od mínus nekonečna do 14.
  
 +FIXME
  
 ==== Log likelihood ==== ==== Log likelihood ====
Řádek 80: Řádek 88:
 LL(xy)=f(xy)log(f(xy))+(f(x)f(xy))log(f(x)f(xy))+(f(y)f(xy))log(f(y)f(xy))+NlogN LL(xy)=f(xy)log(f(xy))+(f(x)f(xy))log(f(x)f(xy))+(f(y)f(xy))log(f(y)f(xy))+NlogN
 +(N+f(xy)f(x)f(y))log(N+f(xy)f(x)f(y))f(x)log(f(x))f(y)log(f(y))(Nf(x))log(Nf(x))(Nf(y))log(Nf(y)) +(N+f(xy)f(x)f(y))log(N+f(xy)f(x)f(y))f(x)log(f(x))f(y)log(f(y))(Nf(x))log(Nf(x))(Nf(y))log(Nf(y))
 +
 +FIXME
  
 ==== Min. sensitivity (citlivost) ==== ==== Min. sensitivity (citlivost) ====
Řádek 88: Řádek 98:
  
 Jedná se tedy o menší z hodnot poměru frekvence bigramu k frekvenci jednoho z jeho konstituentů. Jedná se tedy o menší z hodnot poměru frekvence bigramu k frekvenci jednoho z jeho konstituentů.
 +
 +FIXME
 +
 ==== Chi2 ==== ==== Chi2 ====
  
Řádek 97: Řádek 110:
  
 z(xy)=f(xy)f(x)f(y)Nf(x)f(y)N z(xy)=f(xy)f(x)f(y)Nf(x)f(y)N
 +
 +FIXME
  
 ===== Související odkazy ===== ===== Související odkazy =====
 +
 <WRAP round box 49%> <WRAP round box 49%>
 [[pojmy:frekvence|Frekvence]] • [[pojmy:kolokace|Kolokace]] • [[http://www.collocations.de/AM/index.html|www.collocations.de]] [[pojmy:frekvence|Frekvence]] • [[pojmy:kolokace|Kolokace]] • [[http://www.collocations.de/AM/index.html|www.collocations.de]]
 </WRAP> </WRAP>