Asociační (kolokační) míry

Asociační míry (association measures) jsou matematické postupy (vzorce) používané pro detekci kolokací v korpusu.

Velká většina asociačních měr je omezena pouze na dvoučlenné kolokace. Asociační míry mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované míry včetně čistě empirických bez vztahu ke statistické relevanci.

Obecný princip

Asociační míry typicky pracují s frekvencí celé kolokace, jejích jednotlivých členů (slov) a velikostí korpusu, dosazují je do kontingenčních tabulek a na jejich základě počítají podle určeného vzorce výslednou číselnou hodnotu. Konvenční značení těchto proměnných je:

f(x), f(y) pro frekvenci slov x a y
f(xy) pro frekvenci spojení xy
N pro velikost korpusu (počet tokenů)

Výsledná hodnota pro danou dvojici slov (obecně n-tici, resp. n-gram) v korpusu vyjadřuje míru asociace mezi nimi, která může být u některých měr i záporná, což ukazuje negativní asociaci, tj. vzájemné „odpuzování“. Číselné hodnoty jedné asociační míry obecně nejsou srovnatelné s hodnotami jiné asociační míry, pro srovnávání se však číselné hodnoty běžně převádějí na pořadí (rank) v seznamu kolokací uspořádaného podle číselných hodnot dané míry.

Kolokační moduly v korpusovém software zpravidla umožňují uživatelům tvořit a zobrazovat seznamy nejvýznamnějších kolokací (slovních tvarů nebo lemmat) k vyhledanému slovu (node) podle výsledné hodnoty zvolené asociační míry.

Běžně užívané asociační míry

V současné době jsou známé desítky asociačních měr, mezi nejpoužívanější patří Dice, log-likelihood, MI-score, MI3, T-score aj. Vzhledem k šíři a různorodosti kolokací z lingvistického i matematického hlediska je pochopitelné, že se jednotlivé míry mohou navzájem výrazně lišit druhem kolokací, které označují za významné. Podstatný rozdíl je např. mezi MI-score a T-score: zatímco MI-score nachází silné kolokace s velkou relativní frekvencí, a tedy spíše výjimečné až náhodné, T-score naopak kolokace nenáhodné, pravidelné a ustálené, ale nepříliš výrazné.

Protože nelze určit, která asociační míra je obecně „nejlepší“, a nelze ani očekávat uspokojivé podchycení celé množiny kolokací pomocí jediné univerzální míry, používají se v praxi také jejich kombinace. Výběr vhodné asociační míry by tedy měl záviset především na tom, jaký druh kolokací chceme hledat; důležité je přitom i nastavení kontextu a dalších parametrů (např. Mi-score je citlivá na minimální frekvenci celé kolokace apod.).

MI-score a MI3

MI-score (zkratka stojící za angl. mutual information) vychází z teorie informace, kde je pro jevy x a y definována takto:

$$I(xy) = \log_{2} \frac{p(xy)}{p(x) p(y)}$$

kde p(x) je pravděpodobnost jevu x, P(y) pravděpodobnost jevu y a P(xy) je pravděpodobnost, že jevy x a y nastanou současně. V případě slov v korpusu rozumíme p(x) pravděpodobnost výskytu hledaného slova ¹⁾ x, podobně p(y) pravděpodobnost výskytu slova y a p(xy) pravděpodobnost výskytu slova y v kontextu slova x. Vzhledem k tomu, že pravděpodobnosti slov v jazyce nám nejsou bezprostředně známé, musíme jejich hodnotou aproximovat relativní frekvencí slova v korpusu, která se počítá jako podíl zjištěné frekvence slova k celkové velikosti korpusu (N):

$p(x) = f(x) / N$

$p(y) = f(y) / N$

$p(xy) = f(xy) / N$

Po dosazení do vzorce dostaneme:

$$MI(xy) = \log_{2} \frac{\frac{f(xy)}{N}}{\frac{f(x)}{N} \frac{f(y)}{N}} = \log_{2} \frac{N f(xy)}{f(x) f(y)}$$

Nevítanou vlastností MI-score je to, že je velmi ovlivňováno frekvencí jednotlivých slov. Nejvyšších hodnot totiž dosahují dvojice slov s nízkou frekvencí. Z tohoto důvodu umožňují korpusové manažery při výpočtu MI-score nastavit spodní hranici frekvence a pro slova s absolutní frekvencí pod touto hranicí se potom mi-score nepočítá.

Hodnoty MI-score jsou převážně kladné (záporné hodnoty značí vzájemné odpuzování jednotek a njsou relativně řídké). Za relevantní bývá považována hranice MI = 7 (pro stomilionový korpus), kdy je oprávněná domněnka, že se jedná o systémovou kolokaci. Tato hodnota ovšem samozřejmě závisí na velikosti korpusu.

T-score

T-score vychází ze statistické metody testování hypotéz pomocí tzv. t-testu a bývá někdy označována jako míra kontrastu.

V případě kolokací testujeme, zda zjištěné počty výskytů jednotlivých slov a jejich dvojic odpovídají náhodnému rozložení slov v korpusu. Čím vyšší je hodnota t-score, tím méně je pravděpodobné, že jde o náhodné rozložení slov a a naopak tím pravděpodobnější je, že jde o pevnější, ustálenější kombinace slov, tj. o kolokace.

Statistický vzorec pro náhodnou veličinu adaptujeme na rozložení slov v korpusu a jeho zjednodušením dostáváme pro výpočet t-score vztah:

$$T(xy) = \frac{f(xy) - \frac{f(x) f(y)}{N}}{\sqrt{f(xy)}}$$

Vzorec pro výpočet T-score můžeme interpretovat i tak, že se v čitateli jedná o porovnání skutečné (tj. zjištěné, naměřené) hodnoty frekvence bigramu f(xy), od něhož je odečítána hodnota očekávaná. Očekávaná (expected) frekvence je vždy součinem frekvence slova x a pravděpodobnosti slova y (nebo také pravděpodobnosti slova x a freklvence slova y): $f(x) p(y) = p(x) f(y) = \frac{f(x) f(y)}{N}$. Předpokládáme totiž, že kolokace xy může vzniknout tolikrát, kolikrát je v korpusu x, krát pravděpodobnost, že se v okolí objeví slovo y.

Na rozdíl od MI-score, je T-score citlivé na frekvenci celé kolokace - výsledky tohoto testu tak pravidelně přeceňují kombinace slov velmi frekventovaných (což jsou většinou slova gramatická) na úkor méně frekventovaných lexikálních kombinací.

MIt score

MIt score je kombinací měr MI-score a T-score, které má alespoň částečně kompenzovat nevýhody těchto měr. Výpočet MIt se provádí podle následujícího vzorce:

$MIt(xy) = \min( MI(xy), T(xy) )$

Využívá přitom faktu, že hodnoty MI-score a T-score se pohybuje zhruba ve stejném rozsahu. Za hodnotu MIt se považuje menší z hodnot MI-score a T-score. Jelikož je MI-score nespolehlivé při určování míry asociace u slov s nízkou frekvencí a T-score naopak přeceňuje kolokace tvořené slovy s vysokou frekvencí, slouží MIt jako korektiv, který bere v úvahu vždy tu z hodnot, o které můžeme předpokládat, že je umírněnější.

Dice a logDice

Na rozdíl od ostatních měr, je Dice a od ní odvozená míra logDice, závislá pouze na frekvencích slov x a y a na frekvenci bigramu xy. Do výpočtu tak nevstupuje N, tedy velikost korpusu.

$$Dice(xy) = \frac{2 f(xy)}{f(x) + f(y)}$$

$$logDice(xy) = 14 + \log_{2} \frac{2 f(xy)}{f(x) + f(y)} $$

V základu výpočtu míry Dice je poměřování frekvence bigramu, f(xy), s průměrem frekvencí slov x a y, (f(x) + f(y))/2. Vzhledem k tomu, že frekvence bigramu f(xy) nemůže nikdy být větší než průměr hodnot frekvencí obou jeho konstituentů, pohybují se hodnoty Dice v intervalu (0,1). Maximální hodnota (=1) nastává v případě, že f(xy) = f(x) = f(y).

LogDice představuje normalizovanou variantu Dice, která nabývá hodnot od mínus nekonečna do 14.