This is an old revision of the document!
Menu: Collocation
Jednou ze stěžejních vlastností rozhraní KonText je možnost identifikovat pomocí statistických metod kolokace k vyhledanému slovu. Kolokací se přitom rozumí smysluplné, ustálené, syntagmatické spojení dvou (nebo víc) slov v blízkém kontextu. Kolokace je tvořena základovým slovem (node, většinou se jedná o KWIC) a kontextovým slovem (kolokátem). Seznam kolokátů, s kterými se hledané slovo nebo slovní spojení pojí, je základem korpusové analýzy, protože umožňuje vysledovat, jaký konktext je pro hledaný jev typický.
Pro identifikaci kolokací se používají asociační míry, v současnosti se v rozhraní KonText využívá těchto 8 základních: t-score, MI, MI3, log likelihood, min. citlivost, logDice, MI.log_f, relativní frekvence. Každá z měr je citlivá na jiný typ slovního spojení a každá v některých případech selhává, je proto obecně doporučeníhodné míry kombinovat a porovnávat jejich výstupy. Výsledkem statistické analýzy pomocí asociačních měr je seznam kolokačních kandidátů, o jejichž skutečné kolokační platnosti musí rozhodnout až badatel.
Předpokládejme, že jsme v korpusu SYN2010 vytvořili konkordanci lemmatu dřevo. Po kliknutí na položku Kolokace v menu se zobrazí zadávací formulář kolokační analýzy. V něm je možné specifikovat následující hodnoty hledání kolokací v rámci vytvořené konkordance:
- Atribut: volba pozičního atributu kolokátu (můžeme hledat lemmata v okolí lemmatu dřevo, nebo slovní tvary, nebo jakýkoli jiný z dostupných atributů)
- In the range from - to: specification of the contextual span (v okolí KWIC)
- specifikace kontextového okna (v okolí KWICu), kde budeme kolokáty vyhledávat (záporná čísla označují pozice předcházející KWIC, kladná pozice následující za ním, srov. frekvenční distribuce)
- Minimální frekvence v korpusu: stanovení minimální celkové frekvence jednotky, která může být do seznamu kolokátů zařazena (kolokátem lemmatu dřevo se tak v případě stanovení minimální frekvence 5 nemůžou stát jednotky, které se v celém korpusu vyskytují méně než pětkrát)
- Minimální frekvence v daném rozsahu: pokud jsme specifikovali kontextové okno hledání kolokátů od -3 do 3, pak volba minimální frekvence v rozsahu určuje, kolikrát se jednotka musí v okolí KWICu vyskytovat, aby byla zařazena do seznamu kolokátů (při výpočtu asociačních měr budou brány v potaz pouze jednotky, které se v okolí KWICu, v našem případě lemmatu dřevo, vyskytují alespoň třikrát)
- Zobrazit funkce: jaké asociační míry budou počítány a vypsány pro každý kolokát, který splňuje podmínky specifikované výše
- Setřídit dle: podle jaké z asociačních měr bude seznam setříděn (podstatné zejména u dlouhých seznamů)
Výpis kolokátů
Pro lemma dřevo bylo na základě zadaných specifikací nalezeno celkem 2386 různých slovních tvarů (atribut word), které můžou fungovat jako jeho kolokáty. Při setřídění podle logDice se jako nejvýznamnější kolokační kandidáti ukazují tvary: tvrdého, bázi, kus, kusy, dubového…
V seznamu najdeme pro každou jednotku jednak celkovou frekvenci souvýskytu vyhledaného jevu a jeho kolokátu (např. lemmatu dřevo a kolokátu tvrdého) a jednak hodnoty vybraných asociačních měr pro takovéto spojení. Při kliknutí na záhlaví tabulky je možné seznam přetřídit podle zvolené veličiny. Stejně jako ve výpisu frekvenční distribuce je i v seznamu kolokátů možné pomocí odkazů p/n vytvořit pozitivní nebo negativní filtr, který hledá kolokát v okolí původního KWICu.
Na místě je dvojí upozornění:
- V seznamu kolokátů se zobrazují všechna slova, která odpovídají specifikacím kontextového okna a minimální frekvence v korpusu a v rozsahu, bez ohledu na to, zda se skutečně o kolokát jedná či ne. Asociační míry slouží pouze k setřídění všech jednotek splňujících zadaná kritéria – to, jestli dané slovo skutečně funguje v kolokaci s vyhledaným jevem (jestli s ním např. tvoří syntagma), je otázka dalšího zkoumání, která nemůže být rozhodnuta čistě na základě hodnoty asociační míry (ta funguje spíše jako pomůcka pro odfiltrování nezajímavých a statisticky nevýznamných kolokátů na konec seznamu)
- Každá asociační míra je citlivá na jiný druh kolokací; je proto vhodné kolokační seznam procházet opakovaně po setřídění dle různých asociačních měr