Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
pojmy:asociacni_miry [2013/06/20 16:11]
Václav Cvrček [Log likelihood]
pojmy:asociacni_miry [2019/04/09 15:10] (aktuální)
Václav Cvrček
Řádek 1: Řádek 1:
 ====== Asociační (kolokační) míry ====== ====== Asociační (kolokační) míry ======
  
-Asociační míry (association measures) jsou matematické postupy (vzorce) používané pro detekci [[pojmy:kolokace|kolokací]] v korpusu. +Asociační míry (association measures) jsou matematické postupy (vzorce) používané pro vyhledání [[pojmy:kolokace|kolokací]] v korpusu. 
  
-Velká většina asociačních měr je omezena pouze na dvoučlenné kolokace. Asociační míry mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované míry včetně čistě empirických bez vztahu ke statistické relevanci.+Velká většina asociačních měr je omezena pouze na dvoučlenné kolokace ([[pojmy:bigram|bigramy]]). Asociační míry mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované míry včetně čistě empirických bez vztahu ke statistické relevanci.
  
 ===== Obecný princip ===== ===== Obecný princip =====
  
-Asociační míry typicky pracují s [[pojmy:frekvence|frekvencí]] celé [[pojmy:kolokace|kolokace]], jejích jednotlivých členů (slov) a velikostí korpusu, dosazují je do kontingenčních tabulek a na jejich základě počítají podle určeného vzorce výslednou číselnou hodnotu. Konvenční značení těchto proměnných je: +Asociační míry typicky pracují s [[pojmy:frekvence|frekvencí]] celé [[pojmy:kolokace|kolokace]], jejích jednotlivých členů (slov) a velikostí korpusu, dosazují je do kontingenčních tabulek a na jejich základě počítají podle určeného vzorce výslednou číselnou hodnotu. Obvyklé značení těchto proměnných je: 
   * //f(x), f(y)// pro frekvenci slov //x// a //y//   * //f(x), f(y)// pro frekvenci slov //x// a //y//
   * //f(xy)// pro frekvenci spojení //xy//    * //f(xy)// pro frekvenci spojení //xy// 
Řádek 20: Řádek 20:
 V současné době jsou známé desítky asociačních měr, mezi nejpoužívanější patří **Dice, log-likelihood, MI-score, MI3, T-score** aj. Vzhledem k šíři a různorodosti kolokací z lingvistického i matematického hlediska je pochopitelné, že se jednotlivé míry mohou navzájem výrazně lišit druhem kolokací, které označují za významné. Podstatný rozdíl je např. mezi MI-score a T-score: zatímco MI-score nachází silné kolokace s velkou relativní frekvencí, a tedy spíše výjimečné až náhodné, T-score naopak kolokace nenáhodné, pravidelné a ustálené, ale nepříliš výrazné.  V současné době jsou známé desítky asociačních měr, mezi nejpoužívanější patří **Dice, log-likelihood, MI-score, MI3, T-score** aj. Vzhledem k šíři a různorodosti kolokací z lingvistického i matematického hlediska je pochopitelné, že se jednotlivé míry mohou navzájem výrazně lišit druhem kolokací, které označují za významné. Podstatný rozdíl je např. mezi MI-score a T-score: zatímco MI-score nachází silné kolokace s velkou relativní frekvencí, a tedy spíše výjimečné až náhodné, T-score naopak kolokace nenáhodné, pravidelné a ustálené, ale nepříliš výrazné. 
  
-Protože nelze určit, která asociační míra je obecně „nejlepší“, a nelze ani očekávat uspokojivé podchycení celé množiny kolokací pomocí jediné univerzální míry, používají se v praxi také jejich kombinace. Výběr vhodné asociační míry by tedy měl záviset především na tom, jaký druh kolokací chceme hledat; důležité je přitom i nastavení kontextu a dalších parametrů (např. Mi-score je citlivá na minimální frekvenci celé kolokace apod.).+Protože nelze určit, která asociační míra je obecně „nejlepší“, a nelze ani očekávat uspokojivé podchycení celé množiny kolokací pomocí jediné univerzální míry, používají se v praxi také jejich kombinace. Výběr vhodné asociační míry by tedy měl záviset především na tom, jaký druh kolokací chceme hledat; důležité je přitom i nastavení kontextu a dalších parametrů (např. MI-score je citlivá na minimální frekvenci celé kolokace apod.).
  
 ==== MI-score a MI3 ==== ==== MI-score a MI3 ====
Řádek 28: Řádek 28:
 $$I(xy) = \log_{2} \frac{p(xy)}{p(x) p(y)}$$ $$I(xy) = \log_{2} \frac{p(xy)}{p(x) p(y)}$$
  
-kde //p(x)// je pravděpodobnost jevu //x//, //P(y)// pravděpodobnost jevu //y// a //P(xy)// je pravděpodobnost, že jevy //x// a //y// nastanou současně. V případě slov v korpusu rozumíme //p(x)// pravděpodobnost výskytu hledaného slova ((slovem přitom rozumíme jak [[pojmy:word|slovní tvar]] tak [[pojmy:lemma|lemma]])) //x//, podobně //p(y)// pravděpodobnost výskytu slova //y// a //p(xy)// pravděpodobnost výskytu slova //y// v kontextu slova //x//. Vzhledem k tomu, že pravděpodobnosti slov v jazyce nám nejsou bezprostředně známé, musíme jejich hodnotou aproximovat relativní frekvencí slova v korpusu, která se počítá jako podíl zjištěné frekvence slova k celkové velikosti korpusu (//N//):+kde //p(x)// je pravděpodobnost jevu //x//, //p(y)// pravděpodobnost jevu //y// a //p(xy)// je pravděpodobnost, že jevy //x// a //y// nastanou současně. V případě slov v korpusu rozumíme //p(x)// pravděpodobnost výskytu hledaného slova ((slovem přitom rozumíme jak [[pojmy:word|slovní tvar]] tak [[pojmy:lemma|lemma]])) //x//, podobně //p(y)// pravděpodobnost výskytu slova //y// a //p(xy)// pravděpodobnost výskytu slova //y// v kontextu slova //x//. Vzhledem k tomu, že pravděpodobnosti slov v jazyce nám nejsou bezprostředně známé, musíme jejich hodnotou aproximovat relativní frekvencí slova v korpusu, která se počítá jako podíl zjištěné frekvence slova k celkové velikosti korpusu (//N//):
  
 $p(x) = f(x) / N$ $p(x) = f(x) / N$
Řádek 40: Řádek 40:
 $$MI(xy) = \log_{2} \frac{\frac{f(xy)}{N}}{\frac{f(x)}{N} \frac{f(y)}{N}} = \log_{2} \frac{N f(xy)}{f(x) f(y)}$$ $$MI(xy) = \log_{2} \frac{\frac{f(xy)}{N}}{\frac{f(x)}{N} \frac{f(y)}{N}} = \log_{2} \frac{N f(xy)}{f(x) f(y)}$$
  
-Nevítanou vlastností MI-score je to, že je velmi ovlivňováno frekvencí jednotlivých slov. Nejvyšších hodnot totiž dosahují dvojice slov s nízkou frekvencí. Z tohoto důvodu umožňují korpusové manažery při výpočtu MI-score nastavit spodní hranici frekvence a pro slova s absolutní frekvencí pod touto hranicí se potom mi-score nepočítá.+Nevítanou vlastností MI-score je to, že je velmi ovlivňováno frekvencí jednotlivých slov. Nejvyšších hodnot totiž dosahují dvojice slov s nízkou frekvencí. Z tohoto důvodu umožňují korpusové manažery při výpočtu MI-score nastavit spodní hranici frekvence a pro slova s absolutní frekvencí pod touto hranicí se potom MI-score nepočítá. 
 + 
 +Hodnoty MI-score jsou převážně kladné (záporné hodnoty značí vzájemné odpuzování jednotek a jsou relativně řídké). Za relevantní bývá považována hranice MI = 7 (pro stomilionový korpus), kdy je oprávněná domněnka, že se jedná o systémovou kolokaci. Tato hodnota ovšem samozřejmě závisí na velikosti korpusu. 
 + 
 +FIXME
  
-Hodnoty MI-score jsou převážně kladné (záporné hodnoty značí vzájemné odpuzování jednotek a njsou relativně řídké). Za relevantní bývá považována hranice MI = 7 (pro stomilionový korpus), kdy je oprávněná domněnka, že se jedná o systémovou kolokaci. Tato hodnota ovšem samozřejmě závisí na velikosti korpusu. 
 ==== T-score ==== ==== T-score ====
  
 T-score vychází ze statistické metody testování hypotéz pomocí tzv. t-testu a bývá někdy označována jako míra kontrastu. T-score vychází ze statistické metody testování hypotéz pomocí tzv. t-testu a bývá někdy označována jako míra kontrastu.
  
-V případě [[pojmy:kolokace|kolokací]] testujeme, zda zjištěné počty výskytů jednotlivých slov a jejich dvojic odpovídají náhodnému rozložení slov v korpusu. Čím vyšší je hodnota t-score, tím méně je pravděpodobné, že jde o náhodné rozložení slov a a naopak tím pravděpodobnější je, že jde o pevnější, ustálenější kombinace slov, tj. o kolokace.+V případě [[pojmy:kolokace|kolokací]] testujeme, zda zjištěné počty výskytů jednotlivých slov a jejich dvojic odpovídají náhodnému rozložení slov v korpusu. Čím vyšší je hodnota T-score, tím méně je pravděpodobné, že jde o náhodné rozložení slov a a naopak tím pravděpodobnější je, že jde o pevnější, ustálenější kombinace slov, tj. o kolokace.
  
 Statistický vzorec pro náhodnou veličinu adaptujeme na rozložení slov v korpusu a jeho zjednodušením dostáváme pro výpočet t-score vztah: Statistický vzorec pro náhodnou veličinu adaptujeme na rozložení slov v korpusu a jeho zjednodušením dostáváme pro výpočet t-score vztah:
Řádek 55: Řádek 58:
 Vzorec pro výpočet T-score můžeme interpretovat i tak, že se v čitateli jedná o porovnání skutečné (tj. zjištěné, naměřené) hodnoty frekvence [[pojmy:ngram|bigramu]] //f(xy)//, od něhož je odečítána hodnota očekávaná. Očekávaná (expected) frekvence je vždy součinem frekvence slova //x// a pravděpodobnosti slova //y// (nebo také pravděpodobnosti slova //x// a freklvence slova //y//): $f(x) p(y) = p(x) f(y) = \frac{f(x) f(y)}{N}$. Předpokládáme totiž, že kolokace //xy// může vzniknout tolikrát, kolikrát je v korpusu //x,// krát pravděpodobnost, že se v okolí objeví slovo //y//. Vzorec pro výpočet T-score můžeme interpretovat i tak, že se v čitateli jedná o porovnání skutečné (tj. zjištěné, naměřené) hodnoty frekvence [[pojmy:ngram|bigramu]] //f(xy)//, od něhož je odečítána hodnota očekávaná. Očekávaná (expected) frekvence je vždy součinem frekvence slova //x// a pravděpodobnosti slova //y// (nebo také pravděpodobnosti slova //x// a freklvence slova //y//): $f(x) p(y) = p(x) f(y) = \frac{f(x) f(y)}{N}$. Předpokládáme totiž, že kolokace //xy// může vzniknout tolikrát, kolikrát je v korpusu //x,// krát pravděpodobnost, že se v okolí objeví slovo //y//.
  
-Na rozdíl od MI-scoreje T-score citlivé na frekvenci celé kolokace - výsledky tohoto testu tak pravidelně přeceňují kombinace slov velmi frekventovaných (což jsou většinou slova gramatická) na úkor méně frekventovaných lexikálních kombinací.+Na rozdíl od MI-score je T-score citlivé na frekvenci celé kolokace - výsledky tohoto testu tak pravidelně přeceňují kombinace slov velmi frekventovaných (což jsou většinou slova gramatická) na úkor méně frekventovaných lexikálních kombinací. 
 + 
 +FIXME 
 ==== MIt score ==== ==== MIt score ====
  
Řádek 62: Řádek 68:
 $MIt(xy) = \min( MI(xy), T(xy) )$ $MIt(xy) = \min( MI(xy), T(xy) )$
  
-Využívá přitom faktu, že hodnoty MI-score a T-score se pohybuje zhruba ve stejném rozsahu. Za hodnotu MIt se považuje menší z hodnot MI-score a T-score. Jelikož je MI-score nespolehlivé při určování míry asociace u slov s nízkou frekvencí a T-score naopak přeceňuje kolokace tvořené slovy s vysokou frekvencí, slouží MIt jako korektiv, který bere v úvahu vždy tu z hodnot, o které můžeme předpokládat, že je umírněnější. +Využívá přitom faktu, že hodnoty MI-score a T-score se pohybují zhruba ve stejném rozsahu. Za hodnotu MIt se považuje menší z hodnot MI-score a T-score. Jelikož je MI-score nespolehlivé při určování míry asociace u slov s nízkou frekvencí a T-score naopak přeceňuje kolokace tvořené slovy s vysokou frekvencí, slouží MIt jako korektiv, který bere v úvahu vždy tu z hodnot, o které můžeme předpokládat, že je v danou chvíli vhodnější.  
 ==== Dice a logDice ==== ==== Dice a logDice ====
  
-Na rozdíl od ostatních měrje Dice a od ní odvozená míra logDicezávislá pouze na frekvencích slov //x// a //y// a na frekvenci bigramu //xy//. Do výpočtu tak nevstupuje N, tedy velikost korpusu.+Na rozdíl od ostatních měr je Dice a od ní odvozená míra logDice závislá pouze na frekvencích slov //x// a //y// a na frekvenci bigramu //xy//. Do výpočtu tak nevstupuje N, tedy velikost korpusu.
  
 $$Dice(xy) = \frac{2 f(xy)}{f(x) + f(y)}$$ $$Dice(xy) = \frac{2 f(xy)}{f(x) + f(y)}$$
Řádek 71: Řádek 78:
 $$logDice(xy) = 14 + \log_{2} \frac{2 f(xy)}{f(x) + f(y)} $$ $$logDice(xy) = 14 + \log_{2} \frac{2 f(xy)}{f(x) + f(y)} $$
  
-V základu výpočtu míry Dice je poměřování frekvence bigramu, //f(xy)//, s průměrem frekvencí slov //x// a //y//, //(f(x) + f(y))/2//. Vzhledem k tomu, že frekvence bigramu f(xy) nemůže nikdy být větší než průměr hodnot frekvencí obou jeho konstituentů, pohybují se hodnoty Dice v intervalu (0,1). Maximální hodnota (=1) nastává v případě, že f(xy) = f(x) = f(y).+V základu výpočtu míry Dice je poměřování frekvence bigramu, //f(xy)//, s průměrem frekvencí slov //x// a //y//, //(f(x) + f(y))/2//. Vzhledem k tomu, že frekvence bigramu //f(xy)// nemůže nikdy být větší než průměr hodnot frekvencí obou jeho konstituentů, pohybují se hodnoty Dice v intervalu (0,1). Maximální hodnota (=1) nastává v případě, že f(xy) = f(x) = f(y).
  
 LogDice představuje normalizovanou variantu Dice, která nabývá hodnot od mínus nekonečna do 14. LogDice představuje normalizovanou variantu Dice, která nabývá hodnot od mínus nekonečna do 14.
  
 +FIXME
  
 ==== Log likelihood ==== ==== Log likelihood ====
  
-$$LL(xy) = f(xy) \log(f(xy)) + (f(x) - f(xy)) \log (f(x) - f(xy)) + (f(y) - f(xy)) \log (f(y) - f(xy)) + N \log N + (N + f(xy) - f(x) - f(y)) \log (N + f(xy)$$ +$$LL(xy) = f(xy) \log(f(xy)) + (f(x) - f(xy)) \log (f(x) - f(xy)) + (f(y) - f(xy)) \log (f(y) - f(xy)) + N \log N $$ 
-$$ - f(x) - f(y)) - f(x) \log (f(x)) - f(y) \log (f(y)) - (N - f(x)) \log (N - f(x)) - (N - f(y)) \log (N - f(y))$$+$$ + (N + f(xy) - f(x) - f(y)) \log (N + f(xy) - f(x) - f(y)) - f(x) \log (f(x)) - f(y) \log (f(y)) - (N - f(x)) \log (N - f(x)) - (N - f(y)) \log (N - f(y))$$ 
 + 
 +FIXME
  
 ==== Min. sensitivity (citlivost) ==== ==== Min. sensitivity (citlivost) ====
Řádek 88: Řádek 98:
  
 Jedná se tedy o menší z hodnot poměru frekvence bigramu k frekvenci jednoho z jeho konstituentů. Jedná se tedy o menší z hodnot poměru frekvence bigramu k frekvenci jednoho z jeho konstituentů.
 +
 +FIXME
 +
 ==== Chi2 ==== ==== Chi2 ====
  
-Princip chi kvadrát testu užívaného pro extrakci kolokací je vysvětlen v [[pojmy:chi2|samostatném článku]].+Princip chi kvadrát testuužívaného pro extrakci kolokacíje vysvětlen v [[pojmy:chi2|samostatném článku]].
  
 ==== z-score ==== ==== z-score ====
 +
 +Svojí podstatou i výsledky je z-score velmi podobné T-score. Dnes se užívá zřídka.
  
 $$z(xy) = \frac{f(xy) - \frac{f(x) f(y)}{N}}{\sqrt{\frac{f(x) f(y)}{N}}}$$ $$z(xy) = \frac{f(xy) - \frac{f(x) f(y)}{N}}{\sqrt{\frac{f(x) f(y)}{N}}}$$
 +
 +FIXME
  
 ===== Související odkazy ===== ===== Související odkazy =====
  
-[[http://www.collocations.de/AM/index.html|www.collocations.de]]+<WRAP round box 49%> 
 +[[pojmy:frekvence|Frekvence]] • [[pojmy:kolokace|Kolokace]] • [[http://www.collocations.de/AM/index.html|www.collocations.de]] 
 +</WRAP>