Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
| pojmy:asociacni_miry [2013/08/21 11:30] – alzbetavitkova | pojmy:asociacni_miry [2019/04/09 15:10] (aktuální) – vaclavcvrcek | ||
|---|---|---|---|
| Řádek 1: | Řádek 1: | ||
| ====== Asociační (kolokační) míry ====== | ====== Asociační (kolokační) míry ====== | ||
| - | Asociační míry (association measures) jsou matematické postupy (vzorce) používané pro vyhledání[[pojmy: | + | Asociační míry (association measures) jsou matematické postupy (vzorce) používané pro vyhledání [[pojmy: |
| - | Velká většina asociačních měr je omezena pouze na dvoučlenné kolokace. Asociační míry mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované míry včetně čistě empirických bez vztahu ke statistické relevanci. | + | Velká většina asociačních měr je omezena pouze na dvoučlenné kolokace |
| ===== Obecný princip ===== | ===== Obecný princip ===== | ||
| Řádek 43: | Řádek 43: | ||
| Hodnoty MI-score jsou převážně kladné (záporné hodnoty značí vzájemné odpuzování jednotek a jsou relativně řídké). Za relevantní bývá považována hranice MI = 7 (pro stomilionový korpus), kdy je oprávněná domněnka, že se jedná o systémovou kolokaci. Tato hodnota ovšem samozřejmě závisí na velikosti korpusu. | Hodnoty MI-score jsou převážně kladné (záporné hodnoty značí vzájemné odpuzování jednotek a jsou relativně řídké). Za relevantní bývá považována hranice MI = 7 (pro stomilionový korpus), kdy je oprávněná domněnka, že se jedná o systémovou kolokaci. Tato hodnota ovšem samozřejmě závisí na velikosti korpusu. | ||
| + | |||
| + | FIXME | ||
| + | |||
| ==== T-score ==== | ==== T-score ==== | ||
| Řádek 56: | Řádek 59: | ||
| Na rozdíl od MI-score je T-score citlivé na frekvenci celé kolokace - výsledky tohoto testu tak pravidelně přeceňují kombinace slov velmi frekventovaných (což jsou většinou slova gramatická) na úkor méně frekventovaných lexikálních kombinací. | Na rozdíl od MI-score je T-score citlivé na frekvenci celé kolokace - výsledky tohoto testu tak pravidelně přeceňují kombinace slov velmi frekventovaných (což jsou většinou slova gramatická) na úkor méně frekventovaných lexikálních kombinací. | ||
| + | |||
| + | FIXME | ||
| + | |||
| ==== MIt score ==== | ==== MIt score ==== | ||
| Řádek 63: | Řádek 69: | ||
| Využívá přitom faktu, že hodnoty MI-score a T-score se pohybují zhruba ve stejném rozsahu. Za hodnotu MIt se považuje menší z hodnot MI-score a T-score. Jelikož je MI-score nespolehlivé při určování míry asociace u slov s nízkou frekvencí a T-score naopak přeceňuje kolokace tvořené slovy s vysokou frekvencí, slouží MIt jako korektiv, který bere v úvahu vždy tu z hodnot, o které můžeme předpokládat, | Využívá přitom faktu, že hodnoty MI-score a T-score se pohybují zhruba ve stejném rozsahu. Za hodnotu MIt se považuje menší z hodnot MI-score a T-score. Jelikož je MI-score nespolehlivé při určování míry asociace u slov s nízkou frekvencí a T-score naopak přeceňuje kolokace tvořené slovy s vysokou frekvencí, slouží MIt jako korektiv, který bere v úvahu vždy tu z hodnot, o které můžeme předpokládat, | ||
| + | |||
| ==== Dice a logDice ==== | ==== Dice a logDice ==== | ||
| Řádek 75: | Řádek 82: | ||
| LogDice představuje normalizovanou variantu Dice, která nabývá hodnot od mínus nekonečna do 14. | LogDice představuje normalizovanou variantu Dice, která nabývá hodnot od mínus nekonečna do 14. | ||
| + | FIXME | ||
| ==== Log likelihood ==== | ==== Log likelihood ==== | ||
| Řádek 80: | Řádek 88: | ||
| $$LL(xy) = f(xy) \log(f(xy)) + (f(x) - f(xy)) \log (f(x) - f(xy)) + (f(y) - f(xy)) \log (f(y) - f(xy)) + N \log N $$ | $$LL(xy) = f(xy) \log(f(xy)) + (f(x) - f(xy)) \log (f(x) - f(xy)) + (f(y) - f(xy)) \log (f(y) - f(xy)) + N \log N $$ | ||
| $$ + (N + f(xy) - f(x) - f(y)) \log (N + f(xy) - f(x) - f(y)) - f(x) \log (f(x)) - f(y) \log (f(y)) - (N - f(x)) \log (N - f(x)) - (N - f(y)) \log (N - f(y))$$ | $$ + (N + f(xy) - f(x) - f(y)) \log (N + f(xy) - f(x) - f(y)) - f(x) \log (f(x)) - f(y) \log (f(y)) - (N - f(x)) \log (N - f(x)) - (N - f(y)) \log (N - f(y))$$ | ||
| + | |||
| + | FIXME | ||
| ==== Min. sensitivity (citlivost) ==== | ==== Min. sensitivity (citlivost) ==== | ||
| Řádek 88: | Řádek 98: | ||
| Jedná se tedy o menší z hodnot poměru frekvence bigramu k frekvenci jednoho z jeho konstituentů. | Jedná se tedy o menší z hodnot poměru frekvence bigramu k frekvenci jednoho z jeho konstituentů. | ||
| + | |||
| + | FIXME | ||
| + | |||
| ==== Chi2 ==== | ==== Chi2 ==== | ||
| Řádek 97: | Řádek 110: | ||
| $$z(xy) = \frac{f(xy) - \frac{f(x) f(y)}{N}}{\sqrt{\frac{f(x) f(y)}{N}}}$$ | $$z(xy) = \frac{f(xy) - \frac{f(x) f(y)}{N}}{\sqrt{\frac{f(x) f(y)}{N}}}$$ | ||
| + | |||
| + | FIXME | ||
| ===== Související odkazy ===== | ===== Související odkazy ===== | ||
| + | |||
| <WRAP round box 49%> | <WRAP round box 49%> | ||
| [[pojmy: | [[pojmy: | ||
| </ | </ | ||