Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- pojmy:asociacni_miry [2013/08/21 11:30] – alzbetavitkova
+++ pojmy:asociacni_miry [2019/04/09 15:10] (aktuální) – vaclavcvrcek
@@ Řádek 1: / Řádek 1: @@
 ====== Asociační (kolokační) míry ======
-Asociační míry (association measures) jsou matematické postupy (vzorce) používané pro vyhledání[[pojmy:kolokace|kolokací]] v korpusu.
+Asociační míry (association measures) jsou matematické postupy (vzorce) používané pro vyhledání [[pojmy:kolokace|kolokací]] v korpusu.
-Velká většina asociačních měr je omezena pouze na dvoučlenné kolokace. Asociační míry mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované míry včetně čistě empirických bez vztahu ke statistické relevanci.
+Velká většina asociačních měr je omezena pouze na dvoučlenné kolokace ([[pojmy:bigram|bigramy]]). Asociační míry mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované míry včetně čistě empirických bez vztahu ke statistické relevanci.
 ===== Obecný princip =====
@@ Řádek 43: / Řádek 43: @@
 Hodnoty MI-score jsou převážně kladné (záporné hodnoty značí vzájemné odpuzování jednotek a jsou relativně řídké). Za relevantní bývá považována hranice MI = 7 (pro stomilionový korpus), kdy je oprávněná domněnka, že se jedná o systémovou kolokaci. Tato hodnota ovšem samozřejmě závisí na velikosti korpusu.
+FIXME
 ==== T-score ====
@@ Řádek 56: / Řádek 59: @@
 Na rozdíl od MI-score je T-score citlivé na frekvenci celé kolokace - výsledky tohoto testu tak pravidelně přeceňují kombinace slov velmi frekventovaných (což jsou většinou slova gramatická) na úkor méně frekventovaných lexikálních kombinací.
+FIXME
 ==== MIt score ====
@@ Řádek 63: / Řádek 69: @@
 Využívá přitom faktu, že hodnoty MI-score a T-score se pohybují zhruba ve stejném rozsahu. Za hodnotu MIt se považuje menší z hodnot MI-score a T-score. Jelikož je MI-score nespolehlivé při určování míry asociace u slov s nízkou frekvencí a T-score naopak přeceňuje kolokace tvořené slovy s vysokou frekvencí, slouží MIt jako korektiv, který bere v úvahu vždy tu z hodnot, o které můžeme předpokládat, že je v danou chvíli vhodnější.
 ==== Dice a logDice ====
@@ Řádek 75: / Řádek 82: @@
 LogDice představuje normalizovanou variantu Dice, která nabývá hodnot od mínus nekonečna do 14.
+FIXME
 ==== Log likelihood ====
@@ Řádek 80: / Řádek 88: @@
 $$LL(xy) = f(xy) \log(f(xy)) + (f(x) - f(xy)) \log (f(x) - f(xy)) + (f(y) - f(xy)) \log (f(y) - f(xy)) + N \log N $$
 $$ + (N + f(xy) - f(x) - f(y)) \log (N + f(xy) - f(x) - f(y)) - f(x) \log (f(x)) - f(y) \log (f(y)) - (N - f(x)) \log (N - f(x)) - (N - f(y)) \log (N - f(y))$$
+FIXME
 ==== Min. sensitivity (citlivost) ====
@@ Řádek 88: / Řádek 98: @@
 Jedná se tedy o menší z hodnot poměru frekvence bigramu k frekvenci jednoho z jeho konstituentů.
+FIXME
 ==== Chi2 ====
@@ Řádek 97: / Řádek 110: @@
 $$z(xy) = \frac{f(xy) - \frac{f(x) f(y)}{N}}{\sqrt{\frac{f(x) f(y)}{N}}}$$
+FIXME
 ===== Související odkazy =====
 <WRAP round box 49%>
 [[pojmy:frekvence|Frekvence]] • [[pojmy:kolokace|Kolokace]] • [[http://www.collocations.de/AM/index.html|www.collocations.de]]
 </WRAP>

Historie: • desambiguace • union • nastroje

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence