AplikaceAplikace
Nastavení

Menu: Kolokace

Formulář pro specifikaci analýzy kolokací

Jednou ze stěžejních vlastností rozhraní KonText je možnost identifikovat pomocí statistických metod kolokace k vyhledanému slovu. Kolokací se přitom rozumí smysluplné, ustálené, syntagmatické spojení dvou (nebo víc) slov v blízkém kontextu. Kolokace je tvořena základovým slovem (node, většinou se jedná o KWIC) a kontextovým slovem (kolokátem). Seznam kolokátů, s kterými se hledané slovo nebo slovní spojení pojí, je základem korpusové analýzy, protože umožňuje vysledovat, jaký kontext je pro hledaný jev typický.

Pro identifikaci kolokací se používají asociační míry, v současnosti se v rozhraní KonText využívá těchto 8 základních: t-score, MI, MI3, log likelihood, min. citlivost, logDice, MI.log_f a relativní frekvence. Každá z měr je citlivá na jiný typ slovního spojení a každá v některých případech selhává, je proto obecně doporučeníhodné míry kombinovat a porovnávat jejich výstupy. Výsledkem statistické analýzy pomocí asociačních měr je seznam kolokačních kandidátů, o jejichž skutečné kolokační platnosti musí rozhodnout až badatel.

Předpokládejme, že jsme v korpusu SYN2015 vytvořili konkordanci lemmatu dřevo. Po kliknutí na položku Kolokace → Vlastní (lze využít též klávesovou zkratku Shift + C) v menu se zobrazí zadávací formulář kolokační analýzy. V něm je možné specifikovat následující hodnoty hledání kolokací v rámci vytvořené konkordance:

  1. Atribut: volba pozičního atributu kolokátu (můžeme hledat lemmata v okolí lemmatu dřevo, nebo slovní tvary, popř. jakýkoli jiný z dostupných atributů)
  2. V kontextu: specifikace kontextového okna (v okolí KWICu), kde budeme kolokáty vyhledávat (záporná čísla označují pozice předcházející KWIC, kladná pozice následující za ním, srov. frekvenční distribuce)
  3. Minimální frekvence kolokátu v korpusu: stanovení minimální celkové frekvence jednotky, která může být do seznamu kolokátů zařazena (kolokátem lemmatu dřevo se tak v případě stanovení minimální frekvence 5 nemůžou stát jednotky, které se v celém korpusu vyskytují méně než pětkrát)
  4. Minimální frekvence kolokátu v kontextu: pokud jsme specifikovali kontextové okno hledání kolokátů od -3 do 3, pak volba minimální frekvence v rozsahu určuje, kolikrát se jednotka musí v okolí KWICu vyskytovat, aby byla zařazena do seznamu kolokátů (při výpočtu asociačních měr budou brány v potaz pouze jednotky, které se v okolí KWICu, v našem případě lemmatu dřevo, vyskytují stejně nebo vícekrát, než je zvolený limit)
  5. Zobrazit míry: jaké asociační míry budou počítány a vypsány pro každý kolokát, který splňuje podmínky specifikované výše
  6. Třídit podle: podle jaké z asociačních měr bude seznam setříděn (faktor podstatný zejména u dlouhých seznamů)

Výpis kolokátů

Výpis kolokátů lemmatu dřevo

Při setřídění výpisu podle logDice od njevyšší hodnoty se jako nejvýznamnější kolokační kandidáti ukazují tyto tvary: masivního, tvrdého, kus, kovu, tmavého, dubového

V seznamu najdeme pro každou jednotku jednak celkovou frekvenci souvýskytu vyhledaného jevu a jeho kolokátu (např. lemmatu dřevo a kolokátu tvrdého) a jednak hodnoty vybraných asociačních měr pro takovéto spojení. Při kliknutí na záhlaví tabulky je možné seznam přetřídit podle zvolené veličiny. Stejně jako ve výpisu frekvenční distribuce je i v seznamu kolokátů možné pomocí odkazů p/n vytvořit pozitivní nebo negativní filtr, který hledá kolokát v okolí původního KWICu.

  1. V seznamu kolokátů se zobrazují všechna slova, která odpovídají specifikacím kontextového okna a minimální frekvence v korpusu a v rozsahu, bez ohledu na to, zda se skutečně o kolokát jedná či ne. Asociační míry slouží pouze k setřídění všech jednotek splňujících zadaná kritéria – to, jestli dané slovo skutečně funguje v kolokaci s vyhledaným jevem (jestli s ním např. tvoří syntagma), je otázka dalšího zkoumání, která nemůže být rozhodnuta čistě na základě hodnoty asociační míry (ta funguje spíše jako pomůcka pro odfiltrování nezajímavých a statisticky nevýznamných kolokátů na konec seznamu)
  2. Každá asociační míra je citlivá na jiný druh kolokací; je proto vhodné kolokační seznam procházet opakovaně po setřídění dle různých asociačních měr