AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Automatické vyhledávání frazémů a ustálených kolokací

Jako součást korpusu SYN verze 4 byla zveřejněna pilotní verze automatické identifikace frazémů a ustálených kolokací v korpusu nástrojem FRANTA (FRazémová ANotace a Textová Analýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem víceslovné jednotky) z předem daného slovníku (seznamu), který v současné době vychází především ze Slovníku české frazeologie a idiomatiky a obsahuje okolo 40 000 položek.

Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní:

  • umožňuje u jednotlivých slovních tvarů požadovat konkrétní morfologickou interpretaci;
  • umožňuje zadat za lexikální jednotku proměnné;
  • umožňuje určit, zda je hledané slovní spojení souvislé či nikoliv;
  • umožňuje změny slovosledu.

Kromě prostého označování víceslovných jednotek je tato procedura také součástí procesu automatické pravidlové disambiguace, při níž napomáhá v určování správné morfologické interpretace slovních tvarů, které jsou součástí rozpoznaných víceslovných jednotek.

Označení automaticky identifikovaných víceslovných jednotek v korpusu

Automaticky nalezené víceslovné jednotky jsou v rozhraní KonText označeny pomocí dvou pozičních atributů:1)

col_lemma (collocation lemma): lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, col_lemma může také obsahovat zástupná slova;

col_type (collocation type): dvoupísmenná značka, jejíž první písmeno určuje druh víceslovné jednotky a druhé slouží k rozlišení hlavního (H) a závislého (Z) slova v ní. Část slovního spojení označená jako hlavní (H) nemusí být syntakticky ani sémanticky dominantní, hlavní motivací pro toto rozlišení byla možnost korektního vyhodnocení frekvence daného spojení v korpusu: jako H je totiž označena vždy právě jedna pozice slovního spojení (zpravidla se jedná o slovo poslední), zatímco všechny ostatní jsou označeny jako Z (viz poslední sloupec následující tabulky). Toto řešení umožňuje např. jednoduše vypsat množinu všech víceslovných jednotek označených v korpusu spolu s jejich frekvencemi pomocí funkce Seznam slov aplikované na atribut col_type s dodatečným filtrem podle regulárního výrazu .H a typem výstupu zadaným jako atribut col_lemma.

1. pozice význam příklad víceslovného lemmatu příklad jeho označení v korpusu
K neslovesné kolokace a_právě_proto A[JZ] právě[JZ] proto[JH] se tak nejspíš nestalo.
J víceslovné spojky (word of conjuctions) cesta_do_pekel Dluhy jsou cestou[KZ] do[KZ] pekel[KH].
M přísloví, okřídlená rčení, citace apod. (word of proverbs) čiň_peklu_dobře,_peklem_se_ti_odmění Čiň[MZ] čertu[MZ] dobře[MZ], peklem[MZ] se[MZ] ti[MZ] odmění[MH].
P přirovnání (word of similes) tma_jako_v_pekle Uvnitř byla tma[PZ] jako[PZ] v[PZ] pekle[PH].
S větné výrazy (word of sentence expressions) rozpoutalo_se_hotové_peklo V tu chvíli se[SZ] rozpoutalo[SZ] hotové[SZ] peklo[SH].
V slovesné kolokace (word of verbal collocations) mít_z_pekla_štěstí Měl[VZ] jste skutečně z[VZ] pekla[VZ] štěstí[VH].

Upozornění: Je potřeba počítat s tím, že tato automatická anotace není spolehlivá: některé víceslovné výrazy nemusejí být nalezeny (např. proto, že nejsou ve slovníku nebo nebyla detekována jejich nestandardní realizace), naopak může být jako frazeologismus označeno užití v doslovném významu (např. Kocour si líže rány, které mu způsobil sousedův pes.).

Klasifikace víceslovných jednotek
1)
U pozic, které nejsou součástí žádné označené víceslovné jednotky, jsou hodnoty atributů col_lemma a col_type prázdné.