Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
pojmy:asociacni_miry [2013/06/20 15:42] – vaclavcvrcek | pojmy:asociacni_miry [2019/04/09 15:10] (aktuální) – vaclavcvrcek | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Asociační (kolokační) míry ====== | ====== Asociační (kolokační) míry ====== | ||
- | Asociační míry (association measures) jsou matematické postupy (vzorce) používané pro detekci | + | Asociační míry (association measures) jsou matematické postupy (vzorce) používané pro vyhledání |
- | Velká většina asociačních měr je omezena pouze na dvoučlenné kolokace. Asociační míry mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované míry včetně čistě empirických bez vztahu ke statistické relevanci. | + | Velká většina asociačních měr je omezena pouze na dvoučlenné kolokace |
===== Obecný princip ===== | ===== Obecný princip ===== | ||
- | Asociační míry typicky pracují s [[pojmy: | + | Asociační míry typicky pracují s [[pojmy: |
* //f(x), f(y)// pro frekvenci slov //x// a //y// | * //f(x), f(y)// pro frekvenci slov //x// a //y// | ||
* //f(xy)// pro frekvenci spojení // | * //f(xy)// pro frekvenci spojení // | ||
Řádek 20: | Řádek 20: | ||
V současné době jsou známé desítky asociačních měr, mezi nejpoužívanější patří **Dice, log-likelihood, | V současné době jsou známé desítky asociačních měr, mezi nejpoužívanější patří **Dice, log-likelihood, | ||
- | Protože nelze určit, která asociační míra je obecně „nejlepší“, | + | Protože nelze určit, která asociační míra je obecně „nejlepší“, |
==== MI-score a MI3 ==== | ==== MI-score a MI3 ==== | ||
Řádek 28: | Řádek 28: | ||
$$I(xy) = \log_{2} \frac{p(xy)}{p(x) p(y)}$$ | $$I(xy) = \log_{2} \frac{p(xy)}{p(x) p(y)}$$ | ||
- | kde //p(x)// je pravděpodobnost jevu //x//, //P(y)// pravděpodobnost jevu //y// a //P(xy)// je pravděpodobnost, | + | kde //p(x)// je pravděpodobnost jevu //x//, //p(y)// pravděpodobnost jevu //y// a //p(xy)// je pravděpodobnost, |
$p(x) = f(x) / N$ | $p(x) = f(x) / N$ | ||
Řádek 40: | Řádek 40: | ||
$$MI(xy) = \log_{2} \frac{\frac{f(xy)}{N}}{\frac{f(x)}{N} \frac{f(y)}{N}} = \log_{2} \frac{N f(xy)}{f(x) f(y)}$$ | $$MI(xy) = \log_{2} \frac{\frac{f(xy)}{N}}{\frac{f(x)}{N} \frac{f(y)}{N}} = \log_{2} \frac{N f(xy)}{f(x) f(y)}$$ | ||
- | Nevítanou vlastností MI-score je to, že je velmi ovlivňováno frekvencí jednotlivých slov. Nejvyšších hodnot totiž dosahují dvojice slov s nízkou frekvencí. Z tohoto důvodu umožňují korpusové manažery při výpočtu MI-score nastavit spodní hranici frekvence a pro slova s absolutní frekvencí pod touto hranicí se potom mi-score nepočítá. | + | Nevítanou vlastností MI-score je to, že je velmi ovlivňováno frekvencí jednotlivých slov. Nejvyšších hodnot totiž dosahují dvojice slov s nízkou frekvencí. Z tohoto důvodu umožňují korpusové manažery při výpočtu MI-score nastavit spodní hranici frekvence a pro slova s absolutní frekvencí pod touto hranicí se potom MI-score nepočítá. |
+ | |||
+ | Hodnoty MI-score jsou převážně kladné (záporné hodnoty značí vzájemné odpuzování jednotek a jsou relativně řídké). Za relevantní bývá považována hranice MI = 7 (pro stomilionový korpus), kdy je oprávněná domněnka, že se jedná o systémovou kolokaci. Tato hodnota ovšem samozřejmě závisí na velikosti korpusu. | ||
+ | |||
+ | FIXME | ||
==== T-score ==== | ==== T-score ==== | ||
T-score vychází ze statistické metody testování hypotéz pomocí tzv. t-testu a bývá někdy označována jako míra kontrastu. | T-score vychází ze statistické metody testování hypotéz pomocí tzv. t-testu a bývá někdy označována jako míra kontrastu. | ||
- | V případě [[pojmy: | + | V případě [[pojmy: |
Statistický vzorec pro náhodnou veličinu adaptujeme na rozložení slov v korpusu a jeho zjednodušením dostáváme pro výpočet t-score vztah: | Statistický vzorec pro náhodnou veličinu adaptujeme na rozložení slov v korpusu a jeho zjednodušením dostáváme pro výpočet t-score vztah: | ||
Řádek 53: | Řádek 58: | ||
Vzorec pro výpočet T-score můžeme interpretovat i tak, že se v čitateli jedná o porovnání skutečné (tj. zjištěné, | Vzorec pro výpočet T-score můžeme interpretovat i tak, že se v čitateli jedná o porovnání skutečné (tj. zjištěné, | ||
- | Na rozdíl od MI-score, je T-score citlivé na frekvenci celé kolokace - výsledky tohoto testu tak pravidelně přeceňují kombinace slov velmi frekventovaných (což jsou většinou slova gramatická) na úkor méně frekventovaných lexikálních kombinací. | + | Na rozdíl od MI-score je T-score citlivé na frekvenci celé kolokace - výsledky tohoto testu tak pravidelně přeceňují kombinace slov velmi frekventovaných (což jsou většinou slova gramatická) na úkor méně frekventovaných lexikálních kombinací. |
+ | |||
+ | FIXME | ||
==== MIt score ==== | ==== MIt score ==== | ||
Řádek 60: | Řádek 68: | ||
$MIt(xy) = \min( MI(xy), T(xy) )$ | $MIt(xy) = \min( MI(xy), T(xy) )$ | ||
- | Využívá přitom faktu, že hodnoty MI-score a T-score se pohybuje | + | Využívá přitom faktu, že hodnoty MI-score a T-score se pohybují |
==== Dice a logDice ==== | ==== Dice a logDice ==== | ||
+ | |||
+ | Na rozdíl od ostatních měr je Dice a od ní odvozená míra logDice závislá pouze na frekvencích slov //x// a //y// a na frekvenci bigramu //xy//. Do výpočtu tak nevstupuje N, tedy velikost korpusu. | ||
+ | |||
+ | $$Dice(xy) = \frac{2 f(xy)}{f(x) + f(y)}$$ | ||
+ | |||
+ | $$logDice(xy) = 14 + \log_{2} \frac{2 f(xy)}{f(x) + f(y)} $$ | ||
+ | |||
+ | V základu výpočtu míry Dice je poměřování frekvence bigramu, //f(xy)//, s průměrem frekvencí slov //x// a //y//, //(f(x) + f(y))/2//. Vzhledem k tomu, že frekvence bigramu //f(xy)// nemůže nikdy být větší než průměr hodnot frekvencí obou jeho konstituentů, | ||
+ | |||
+ | LogDice představuje normalizovanou variantu Dice, která nabývá hodnot od mínus nekonečna do 14. | ||
+ | |||
+ | FIXME | ||
==== Log likelihood ==== | ==== Log likelihood ==== | ||
+ | |||
+ | $$LL(xy) = f(xy) \log(f(xy)) + (f(x) - f(xy)) \log (f(x) - f(xy)) + (f(y) - f(xy)) \log (f(y) - f(xy)) + N \log N $$ | ||
+ | $$ + (N + f(xy) - f(x) - f(y)) \log (N + f(xy) - f(x) - f(y)) - f(x) \log (f(x)) - f(y) \log (f(y)) - (N - f(x)) \log (N - f(x)) - (N - f(y)) \log (N - f(y))$$ | ||
+ | |||
+ | FIXME | ||
==== Min. sensitivity (citlivost) ==== | ==== Min. sensitivity (citlivost) ==== | ||
+ | |||
+ | Minimální citlivost je jedna z nejjednodušších asociačních měr. Její silnou stránkou je fakt, že je snadno interpretovatelná. Vypočítává se podle vzorce: | ||
+ | |||
+ | $$MS(xy) = \min ( \frac{f(xy)}{f(x)}, | ||
+ | |||
+ | Jedná se tedy o menší z hodnot poměru frekvence bigramu k frekvenci jednoho z jeho konstituentů. | ||
+ | |||
+ | FIXME | ||
==== Chi2 ==== | ==== Chi2 ==== | ||
- | Princip chi kvadrát testu užívaného pro extrakci kolokací je vysvětlen v [[pojmy: | + | Princip chi kvadrát testu, užívaného pro extrakci kolokací, je vysvětlen v [[pojmy: |
==== z-score ==== | ==== z-score ==== | ||
+ | Svojí podstatou i výsledky je z-score velmi podobné T-score. Dnes se užívá zřídka. | ||
+ | |||
+ | $$z(xy) = \frac{f(xy) - \frac{f(x) f(y)}{N}}{\sqrt{\frac{f(x) f(y)}{N}}}$$ | ||
+ | |||
+ | FIXME | ||
===== Související odkazy ===== | ===== Související odkazy ===== | ||
- | [[http:// | + | <WRAP round box 49%> |
+ | [[pojmy: | ||
+ | </ |