AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Asociační (kolokační) míry

Asociační míry (association measures) jsou matematické postupy (vzorce) používané pro detekci kolokací v korpusu.

Velká většina asociačních měr je omezena pouze na dvoučlenné kolokace. Asociační míry mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované míry včetně čistě empirických bez vztahu ke statistické relevanci.

Obecný princip

Asociační míry typicky pracují s frekvencí celé kolokace, jejích jednotlivých členů (slov) a velikostí korpusu, dosazují je do kontingenčních tabulek a na jejich základě počítají podle určeného vzorce výslednou číselnou hodnotu. Konvenční značení těchto proměnných je:

  • f(x), f(y) pro frekvenci slov x a y
  • f(xy) pro frekvenci spojení xy
  • N pro velikost korpusu (počet tokenů)

Výsledná hodnota pro danou dvojici slov (obecně n-tici, resp. n-gram) v korpusu vyjadřuje míru asociace mezi nimi, která může být u některých měr i záporná, což ukazuje negativní asociaci, tj. vzájemné „odpuzování“. Číselné hodnoty jedné asociační míry obecně nejsou srovnatelné s hodnotami jiné asociační míry, pro srovnávání se však číselné hodnoty běžně převádějí na pořadí (rank) v seznamu kolokací uspořádaného podle číselných hodnot dané míry.

Kolokační moduly v korpusovém software (↑software korpusový a lingvistický) zpravidla umožňují uživatelům tvořit a zobrazovat seznamy nejvýznamnějších kolokací (slovních tvarů nebo lemmat) k vyhledanému slovu (node) podle výsledné hodnoty zvolené asociační míry.

Běžně užívané asociační míry

V současné době jsou známé desítky asociačních měr, mezi nejpoužívanější patří Dice, log-likelihood, MI-score, MI3, T-score aj. Vzhledem k šíři a různorodosti kolokací z lingvistického i matematického hlediska je pochopitelné, že se jednotlivé míry mohou navzájem výrazně lišit druhem kolokací, které označují za významné. Podstatný rozdíl je např. mezi MI-score a T-score: zatímco MI-score nachází silné kolokace s velkou relativní frekvencí, a tedy spíše výjimečné až náhodné, T-score naopak kolokace nenáhodné, pravidelné a ustálené, ale nepříliš výrazné.

Protože nelze určit, která asociační míra je obecně „nejlepší“, a nelze ani očekávat uspokojivé podchycení celé množiny kolokací pomocí jediné univerzální míry, používají se v praxi také jejich kombinace. Výběr vhodné asociační míry by tedy měl záviset především na tom, jaký druh kolokací chceme hledat; důležité je přitom i nastavení kontextu a dalších parametrů (např. Mi-score je citlivá na minimální frekvenci celé kolokace apod.).

MI-score a MI3

T-score

MI/t score

Dice a logDice

Log likelihood

Min. sensitivity (citlivost)

Chi2

z-score

Odkazy