Toto je starší verze dokumentu!
Automatická anotace frazémů a ustálených kolokací
Jako součást korpusu SYN verze 4 byla zveřejněna pilotní verze automatické identifikace frazémů a ustálených kolokací nástrojem FRANTA (FRazémová ANotace a Textová Analýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem víceslovné jednotky) z předem daného slovníku (seznamu), který v současné době vychází především ze Slovníku české frazeologie a idiomatiky a obsahuje okolo 40 000 položek.
Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní:
- umožňuje u jednotlivých slovních tvarů požadovat konkrétní morfologickou interpretaci;
- umožňuje zadat za lexikální jednotku proměnné;
- umožňuje určit, zda je hledané slovní spojení souvislé či nikoliv;
- umožňuje změny slovosledu.
Kromě prosté identifikace víceslovných jednotek je tato procedura také součástí procesu automatické pravidlové disambiguace, při níž napomáhá v určování správné morfologické interpretace slovních tvarů, které jsou součástí rozpoznaných víceslovných jednotek.
Označení automaticky identifikovaných víceslovných jednotek v korpusu
Automaticky nalezené víceslovné jednotky jsou v rozhraní KonText označeny pomocí dvou pozičních atributů:1)
col_lemma (collocation lemma): lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu col_lemma
může – v případech velké variability např. u přirovnání – obsahovat také alternativy, zástupná slova či symboly:
- alternativy, např.
někomu_došla/dojde_trpělivost
- zástupná slova něco, nějaký, dělat atd., např.
v_nějakém_slova_smyslu
zahrnuje mj. v pravém/dobrém/jistém slova smyslu - symbol pro označení slovního druhu, např.
A_jako_kámen
zahrnuje mj. pevný/nehybný/tuhý jako kámen
col_type (collocation type): dvoupísmenná značka, jejíž první písmeno určuje druh víceslovné jednotky a druhé slouží k rozlišení hlavního (H
) a závislého (Z
) slova v ní. Část slovního spojení označená jako hlavní (H
) nemusí být syntakticky ani sémanticky dominantní, hlavní motivací pro toto rozlišení byla možnost korektního vyhodnocení frekvence daného spojení v korpusu: jako H
je totiž označena vždy právě jedna pozice slovního spojení (zpravidla se jedná o slovo poslední), zatímco všechny ostatní jsou označeny jako Z
(viz poslední sloupec následující tabulky). Toto řešení umožňuje např. jednoduše vypsat množinu všech víceslovných jednotek v korpusu spolu s frekvencemi pomocí funkce Seznam slov na atribut col_type
s dodatečným filtrem podle regulárního výrazu .H
a typem výstupu zadaným jako atribut col_lemma
.
1. pozice | význam | příklad víceslovného lemmatu | příklad jeho označení v korpusu |
---|---|---|---|
K | neslovesné kolokace | cesta_do_pekel | Dluhy jsou cestou[KZ] do[KZ] pekel[KH] . |
J | víceslovné spojky | a_právě_proto | A[JZ] právě[JZ] proto[JH] se tak nejspíš nestalo. |
M | přísloví, okřídlená rčení, citace apod. | čiň_čertu_dobře,_peklem_se_ti_odmění | Čiň[MZ] čertu[MZ] dobře[MZ] , peklem[MZ] se[MZ] ti[MZ] odmění[MH] . |
P | přirovnání | tma_jako_v_pekle | Uvnitř byla tma[PZ] jako[PZ] v[PZ] pekle[PH] . |
S | větné výrazy | rozpoutalo_se_hotové_peklo | V tu chvíli se[SZ] rozpoutalo[SZ] hotové[SZ] peklo[SH] . |
V | slovesné kolokace | mít_z_pekla_štěstí | Měl[VZ] jste skutečně z[VZ] pekla[VZ] štěstí[VH] . |
col_lemma
a col_type
prázdné.