Toto je starší verze dokumentu!
Automatické vyhledávání frazémů a ustálených kolokací
Jako součást korpusu SYN verze 4 byla zveřejněna pilotní verze automatické identifikace frazémů a ustálených kolokací v korpusu nástrojem FRANTA (FRazémová ANotace a Textová Analýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem víceslovné jednotky) z předem daného slovníku (seznamu), který v současné době vychází především ze Slovníku české frazeologie a idiomatiky a obsahuje okolo 40 000 položek.
Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní:
- umožňuje u jednotlivých slovních tvarů požadovat konkrétní morfologickou interpretaci;
- umožňuje zadat za lexikální jednotku proměnné;
- umožňuje určit, zda je hledané slovní spojení souvislé či nikoliv;
- umožňuje změny slovosledu.
Kromě prostého označování víceslovných jednotek je tato procedura také součástí procesu automatické pravidlové disambiguace, při níž napomáhá v určování správné morfologické interpretace slovních tvarů, které jsou součástí rozpoznaných víceslovných jednotek.
Označení automaticky identifikovaných víceslovných jednotek v korpusu
Automaticky nalezené víceslovné jednotky jsou v rozhraní KonText označeny pomocí dvou pozičních atributů:1)
col_lemma (collocation lemma): lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, col_lemma
může také obsahovat zástupná slova;
col_type (collocation type): dvoupísmenná značka, jejíž první písmeno určuje druh víceslovné jednotky a druhé slouží k rozlišení hlavního (H
) a závislého (Z
) slova v ní. Část slovního spojení označená jako hlavní (H
) nemusí být syntakticky ani sémanticky dominantní, hlavní motivací pro toto rozlišení byla možnost korektního vyhodnocení frekvence daného spojení v korpusu: jako H
je totiž označena vždy právě jedna pozice slovního spojení (zpravidla se jedná o slovo poslední), zatímco všechny ostatní jsou označeny jako Z
(viz poslední sloupec následující tabulky). Toto řešení umožňuje např. jednoduše vypsat množinu všech víceslovných jednotek označených v korpusu spolu s jejich frekvencemi pomocí funkce Seznam slov aplikované na atribut col_type
s dodatečným filtrem podle regulárního výrazu .H
a typem výstupu zadaným jako atribut col_lemma
.
1. pozice | význam | příklad víceslovného lemmatu | příklad jeho označení v korpusu |
---|---|---|---|
K | neslovesné kolokace | a_právě_proto | A[JZ] právě[JZ] proto[JH] se tak nejspíš nestalo. |
J | víceslovné spojky (word of conjuctions) | cesta_do_pekel | Dluhy jsou cestou[KZ] do[KZ] pekel[KH] . |
M | přísloví, okřídlená rčení, citace apod. (word of proverbs) | čiň_peklu_dobře,_peklem_se_ti_odmění | Čiň[MZ] čertu[MZ] dobře[MZ] , peklem[MZ] se[MZ] ti[MZ] odmění[MH] . |
P | přirovnání (word of similes) | tma_jako_v_pekle | Uvnitř byla tma[PZ] jako[PZ] v[PZ] pekle[PH] . |
S | větné výrazy (word of sentence expressions) | rozpoutalo_se_hotové_peklo | V tu chvíli se[SZ] rozpoutalo[SZ] hotové[SZ] peklo[SH] . |
V | slovesné kolokace (word of verbal collocations) | mít_z_pekla_štěstí | Měl[VZ] jste skutečně z[VZ] pekla[VZ] štěstí[VH] . |
Upozornění: Je potřeba počítat s tím, že tato automatická anotace není spolehlivá: některé víceslovné výrazy nemusejí být nalezeny (např. proto, že nejsou ve slovníku nebo nebyla detekována jejich nestandardní realizace), naopak může být jako frazeologismus označeno užití v doslovném významu (např. Kocour si líže rány, které mu způsobil sousedův pes.).