AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
pojmy:asociacni_miry [2013/06/20 15:41] – [MI/t score] vaclavcvrcekpojmy:asociacni_miry [2013/09/11 17:33] – Schvaleno pro 1. verzi vaclavcvrcek
Řádek 1: Řádek 1:
 ====== Asociační (kolokační) míry ====== ====== Asociační (kolokační) míry ======
  
-Asociační míry (association measures) jsou matematické postupy (vzorce) používané pro detekci [[pojmy:kolokace|kolokací]] v korpusu. +Asociační míry (association measures) jsou matematické postupy (vzorce) používané pro vyhledání[[pojmy:kolokace|kolokací]] v korpusu. 
  
 Velká většina asociačních měr je omezena pouze na dvoučlenné kolokace. Asociační míry mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované míry včetně čistě empirických bez vztahu ke statistické relevanci. Velká většina asociačních měr je omezena pouze na dvoučlenné kolokace. Asociační míry mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované míry včetně čistě empirických bez vztahu ke statistické relevanci.
Řádek 7: Řádek 7:
 ===== Obecný princip ===== ===== Obecný princip =====
  
-Asociační míry typicky pracují s [[pojmy:frekvence|frekvencí]] celé [[pojmy:kolokace|kolokace]], jejích jednotlivých členů (slov) a velikostí korpusu, dosazují je do kontingenčních tabulek a na jejich základě počítají podle určeného vzorce výslednou číselnou hodnotu. Konvenční značení těchto proměnných je: +Asociační míry typicky pracují s [[pojmy:frekvence|frekvencí]] celé [[pojmy:kolokace|kolokace]], jejích jednotlivých členů (slov) a velikostí korpusu, dosazují je do kontingenčních tabulek a na jejich základě počítají podle určeného vzorce výslednou číselnou hodnotu. Obvyklé značení těchto proměnných je: 
   * //f(x), f(y)// pro frekvenci slov //x// a //y//   * //f(x), f(y)// pro frekvenci slov //x// a //y//
   * //f(xy)// pro frekvenci spojení //xy//    * //f(xy)// pro frekvenci spojení //xy// 
Řádek 20: Řádek 20:
 V současné době jsou známé desítky asociačních měr, mezi nejpoužívanější patří **Dice, log-likelihood, MI-score, MI3, T-score** aj. Vzhledem k šíři a různorodosti kolokací z lingvistického i matematického hlediska je pochopitelné, že se jednotlivé míry mohou navzájem výrazně lišit druhem kolokací, které označují za významné. Podstatný rozdíl je např. mezi MI-score a T-score: zatímco MI-score nachází silné kolokace s velkou relativní frekvencí, a tedy spíše výjimečné až náhodné, T-score naopak kolokace nenáhodné, pravidelné a ustálené, ale nepříliš výrazné.  V současné době jsou známé desítky asociačních měr, mezi nejpoužívanější patří **Dice, log-likelihood, MI-score, MI3, T-score** aj. Vzhledem k šíři a různorodosti kolokací z lingvistického i matematického hlediska je pochopitelné, že se jednotlivé míry mohou navzájem výrazně lišit druhem kolokací, které označují za významné. Podstatný rozdíl je např. mezi MI-score a T-score: zatímco MI-score nachází silné kolokace s velkou relativní frekvencí, a tedy spíše výjimečné až náhodné, T-score naopak kolokace nenáhodné, pravidelné a ustálené, ale nepříliš výrazné. 
  
-Protože nelze určit, která asociační míra je obecně „nejlepší“, a nelze ani očekávat uspokojivé podchycení celé množiny kolokací pomocí jediné univerzální míry, používají se v praxi také jejich kombinace. Výběr vhodné asociační míry by tedy měl záviset především na tom, jaký druh kolokací chceme hledat; důležité je přitom i nastavení kontextu a dalších parametrů (např. Mi-score je citlivá na minimální frekvenci celé kolokace apod.).+Protože nelze určit, která asociační míra je obecně „nejlepší“, a nelze ani očekávat uspokojivé podchycení celé množiny kolokací pomocí jediné univerzální míry, používají se v praxi také jejich kombinace. Výběr vhodné asociační míry by tedy měl záviset především na tom, jaký druh kolokací chceme hledat; důležité je přitom i nastavení kontextu a dalších parametrů (např. MI-score je citlivá na minimální frekvenci celé kolokace apod.).
  
 ==== MI-score a MI3 ==== ==== MI-score a MI3 ====
Řádek 28: Řádek 28:
 $$I(xy) = \log_{2} \frac{p(xy)}{p(x) p(y)}$$ $$I(xy) = \log_{2} \frac{p(xy)}{p(x) p(y)}$$
  
-kde //p(x)// je pravděpodobnost jevu //x//, //P(y)// pravděpodobnost jevu //y// a //P(xy)// je pravděpodobnost, že jevy //x// a //y// nastanou současně. V případě slov v korpusu rozumíme //p(x)// pravděpodobnost výskytu hledaného slova ((slovem přitom rozumíme jak [[pojmy:word|slovní tvar]] tak [[pojmy:lemma|lemma]])) //x//, podobně //p(y)// pravděpodobnost výskytu slova //y// a //p(xy)// pravděpodobnost výskytu slova //y// v kontextu slova //x//. Vzhledem k tomu, že pravděpodobnosti slov v jazyce nám nejsou bezprostředně známé, musíme jejich hodnotou aproximovat relativní frekvencí slova v korpusu, která se počítá jako podíl zjištěné frekvence slova k celkové velikosti korpusu (//N//):+kde //p(x)// je pravděpodobnost jevu //x//, //p(y)// pravděpodobnost jevu //y// a //p(xy)// je pravděpodobnost, že jevy //x// a //y// nastanou současně. V případě slov v korpusu rozumíme //p(x)// pravděpodobnost výskytu hledaného slova ((slovem přitom rozumíme jak [[pojmy:word|slovní tvar]] tak [[pojmy:lemma|lemma]])) //x//, podobně //p(y)// pravděpodobnost výskytu slova //y// a //p(xy)// pravděpodobnost výskytu slova //y// v kontextu slova //x//. Vzhledem k tomu, že pravděpodobnosti slov v jazyce nám nejsou bezprostředně známé, musíme jejich hodnotou aproximovat relativní frekvencí slova v korpusu, která se počítá jako podíl zjištěné frekvence slova k celkové velikosti korpusu (//N//):
  
 $p(x) = f(x) / N$ $p(x) = f(x) / N$
Řádek 40: Řádek 40:
 $$MI(xy) = \log_{2} \frac{\frac{f(xy)}{N}}{\frac{f(x)}{N} \frac{f(y)}{N}} = \log_{2} \frac{N f(xy)}{f(x) f(y)}$$ $$MI(xy) = \log_{2} \frac{\frac{f(xy)}{N}}{\frac{f(x)}{N} \frac{f(y)}{N}} = \log_{2} \frac{N f(xy)}{f(x) f(y)}$$
  
-Nevítanou vlastností MI-score je to, že je velmi ovlivňováno frekvencí jednotlivých slov. Nejvyšších hodnot totiž dosahují dvojice slov s nízkou frekvencí. Z tohoto důvodu umožňují korpusové manažery při výpočtu MI-score nastavit spodní hranici frekvence a pro slova s absolutní frekvencí pod touto hranicí se potom mi-score nepočítá.+Nevítanou vlastností MI-score je to, že je velmi ovlivňováno frekvencí jednotlivých slov. Nejvyšších hodnot totiž dosahují dvojice slov s nízkou frekvencí. Z tohoto důvodu umožňují korpusové manažery při výpočtu MI-score nastavit spodní hranici frekvence a pro slova s absolutní frekvencí pod touto hranicí se potom MI-score nepočítá. 
 + 
 +Hodnoty MI-score jsou převážně kladné (záporné hodnoty značí vzájemné odpuzování jednotek a jsou relativně řídké). Za relevantní bývá považována hranice MI = 7 (pro stomilionový korpus), kdy je oprávněná domněnka, že se jedná o systémovou kolokaci. Tato hodnota ovšem samozřejmě závisí na velikosti korpusu. 
 + 
 +FIXME 
 ==== T-score ==== ==== T-score ====
  
 T-score vychází ze statistické metody testování hypotéz pomocí tzv. t-testu a bývá někdy označována jako míra kontrastu. T-score vychází ze statistické metody testování hypotéz pomocí tzv. t-testu a bývá někdy označována jako míra kontrastu.
  
-V případě [[pojmy:kolokace|kolokací]] testujeme, zda zjištěné počty výskytů jednotlivých slov a jejich dvojic odpovídají náhodnému rozložení slov v korpusu. Čím vyšší je hodnota t-score, tím méně je pravděpodobné, že jde o náhodné rozložení slov a a naopak tím pravděpodobnější je, že jde o pevnější, ustálenější kombinace slov, tj. o kolokace.+V případě [[pojmy:kolokace|kolokací]] testujeme, zda zjištěné počty výskytů jednotlivých slov a jejich dvojic odpovídají náhodnému rozložení slov v korpusu. Čím vyšší je hodnota T-score, tím méně je pravděpodobné, že jde o náhodné rozložení slov a a naopak tím pravděpodobnější je, že jde o pevnější, ustálenější kombinace slov, tj. o kolokace.
  
 Statistický vzorec pro náhodnou veličinu adaptujeme na rozložení slov v korpusu a jeho zjednodušením dostáváme pro výpočet t-score vztah: Statistický vzorec pro náhodnou veličinu adaptujeme na rozložení slov v korpusu a jeho zjednodušením dostáváme pro výpočet t-score vztah:
Řádek 53: Řádek 58:
 Vzorec pro výpočet T-score můžeme interpretovat i tak, že se v čitateli jedná o porovnání skutečné (tj. zjištěné, naměřené) hodnoty frekvence [[pojmy:ngram|bigramu]] //f(xy)//, od něhož je odečítána hodnota očekávaná. Očekávaná (expected) frekvence je vždy součinem frekvence slova //x// a pravděpodobnosti slova //y// (nebo také pravděpodobnosti slova //x// a freklvence slova //y//): $f(x) p(y) = p(x) f(y) = \frac{f(x) f(y)}{N}$. Předpokládáme totiž, že kolokace //xy// může vzniknout tolikrát, kolikrát je v korpusu //x,// krát pravděpodobnost, že se v okolí objeví slovo //y//. Vzorec pro výpočet T-score můžeme interpretovat i tak, že se v čitateli jedná o porovnání skutečné (tj. zjištěné, naměřené) hodnoty frekvence [[pojmy:ngram|bigramu]] //f(xy)//, od něhož je odečítána hodnota očekávaná. Očekávaná (expected) frekvence je vždy součinem frekvence slova //x// a pravděpodobnosti slova //y// (nebo také pravděpodobnosti slova //x// a freklvence slova //y//): $f(x) p(y) = p(x) f(y) = \frac{f(x) f(y)}{N}$. Předpokládáme totiž, že kolokace //xy// může vzniknout tolikrát, kolikrát je v korpusu //x,// krát pravděpodobnost, že se v okolí objeví slovo //y//.
  
-Na rozdíl od MI-scoreje T-score citlivé na frekvenci celé kolokace - výsledky tohoto testu tak pravidelně přeceňují kombinace slov velmi frekventovaných (což jsou většinou slova gramatická) na úkor méně frekventovaných lexikálních kombinací.+Na rozdíl od MI-score je T-score citlivé na frekvenci celé kolokace - výsledky tohoto testu tak pravidelně přeceňují kombinace slov velmi frekventovaných (což jsou většinou slova gramatická) na úkor méně frekventovaných lexikálních kombinací. 
 + 
 +FIXME 
 ==== MIt score ==== ==== MIt score ====
  
 MIt score je kombinací měr MI-score a T-score, které má alespoň částečně kompenzovat nevýhody těchto měr. Výpočet MIt se provádí podle následujícího vzorce: MIt score je kombinací měr MI-score a T-score, které má alespoň částečně kompenzovat nevýhody těchto měr. Výpočet MIt se provádí podle následujícího vzorce:
  
-$MIt(xy) = \min\( MI(xy), T(xy) \)$+$MIt(xy) = \min( MI(xy), T(xy) )$ 
 + 
 +Využívá přitom faktu, že hodnoty MI-score a T-score se pohybují zhruba ve stejném rozsahu. Za hodnotu MIt se považuje menší z hodnot MI-score a T-score. Jelikož je MI-score nespolehlivé při určování míry asociace u slov s nízkou frekvencí a T-score naopak přeceňuje kolokace tvořené slovy s vysokou frekvencí, slouží MIt jako korektiv, který bere v úvahu vždy tu z hodnot, o které můžeme předpokládat, že je v danou chvíli vhodnější. 
  
-Využívá přitom faktu, že hodnoty MI-score a T-score se pohybuje zhruba ve stejném rozsahu. Za hodnotu MIt se považuje menší z hodnot MI-score a T-score. Jelikož je MI-score nespolehlivé při určování míry asociace u slov s nízkou frekvencí a T-score naopak přeceňuje kolokace tvořené slovy s vysokou frekvencí, slouží MIt jako korektiv, který bere v úvahu vždy tu z hodnot, o které můžeme předpokládat, že je umírněnější.  
 ==== Dice a logDice ==== ==== Dice a logDice ====
 +
 +Na rozdíl od ostatních měr je Dice a od ní odvozená míra logDice závislá pouze na frekvencích slov //x// a //y// a na frekvenci bigramu //xy//. Do výpočtu tak nevstupuje N, tedy velikost korpusu.
 +
 +$$Dice(xy) = \frac{2 f(xy)}{f(x) + f(y)}$$
 +
 +$$logDice(xy) = 14 + \log_{2} \frac{2 f(xy)}{f(x) + f(y)} $$
 +
 +V základu výpočtu míry Dice je poměřování frekvence bigramu, //f(xy)//, s průměrem frekvencí slov //x// a //y//, //(f(x) + f(y))/2//. Vzhledem k tomu, že frekvence bigramu //f(xy)// nemůže nikdy být větší než průměr hodnot frekvencí obou jeho konstituentů, pohybují se hodnoty Dice v intervalu (0,1). Maximální hodnota (=1) nastává v případě, že f(xy) = f(x) = f(y).
 +
 +LogDice představuje normalizovanou variantu Dice, která nabývá hodnot od mínus nekonečna do 14.
 +
 +FIXME
  
 ==== Log likelihood ==== ==== Log likelihood ====
 +
 +$$LL(xy) = f(xy) \log(f(xy)) + (f(x) - f(xy)) \log (f(x) - f(xy)) + (f(y) - f(xy)) \log (f(y) - f(xy)) + N \log N $$
 +$$ + (N + f(xy) - f(x) - f(y)) \log (N + f(xy) - f(x) - f(y)) - f(x) \log (f(x)) - f(y) \log (f(y)) - (N - f(x)) \log (N - f(x)) - (N - f(y)) \log (N - f(y))$$
 +
 +FIXME
  
 ==== Min. sensitivity (citlivost) ==== ==== Min. sensitivity (citlivost) ====
 +
 +Minimální citlivost je jedna z nejjednodušších asociačních měr. Její silnou stránkou je fakt, že je snadno interpretovatelná. Vypočítává se podle vzorce:
 +
 +$$MS(xy) = \min ( \frac{f(xy)}{f(x)}, \frac{f(xy)}{f(y)} ) $$
 +
 +Jedná se tedy o menší z hodnot poměru frekvence bigramu k frekvenci jednoho z jeho konstituentů.
 +
 +FIXME
  
 ==== Chi2 ==== ==== Chi2 ====
  
-Princip chi kvadrát testu užívaného pro extrakci kolokací je vysvětlen v [[pojmy:chi2|samostatném článku]].+Princip chi kvadrát testuužívaného pro extrakci kolokacíje vysvětlen v [[pojmy:chi2|samostatném článku]].
  
 ==== z-score ==== ==== z-score ====
  
 +Svojí podstatou i výsledky je z-score velmi podobné T-score. Dnes se užívá zřídka.
 +
 +$$z(xy) = \frac{f(xy) - \frac{f(x) f(y)}{N}}{\sqrt{\frac{f(x) f(y)}{N}}}$$
 +
 +FIXME
  
 ===== Související odkazy ===== ===== Související odkazy =====
  
-[[http://www.collocations.de/AM/index.html|www.collocations.de]]+<WRAP round box 49%> 
 +[[pojmy:frekvence|Frekvence]] • [[pojmy:kolokace|Kolokace]] • [[http://www.collocations.de/AM/index.html|www.collocations.de]] 
 +</WRAP>