AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Automatická anotace frazémů a ustálených kolokací

Jako součást korpusu SYN verze 4 byla zveřejněna pilotní verze automatické identifikace frazémů a ustálených kolokací nástrojem FRANTA (FRazémová ANotace a Textová Analýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem víceslovné jednotky) z předem daného slovníku (seznamu), který v současné době vychází především ze Slovníku české frazeologie a idiomatiky a obsahuje okolo 40 000 položek.

Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní:

  • umožňuje u jednotlivých slovních tvarů požadovat konkrétní morfologickou interpretaci;
  • umožňuje zadat za lexikální jednotku proměnné;
  • umožňuje určit, zda je hledané slovní spojení souvislé či nikoliv;
  • umožňuje změny slovosledu.

Kromě prosté identifikace víceslovných jednotek je tato procedura také součástí procesu automatické pravidlové disambiguace, při níž napomáhá v určování správné morfologické interpretace slovních tvarů, které jsou součástí rozpoznaných víceslovných jednotek.

Upozornění: Jde o pilotní verzi automatické identifikace frazémů, která má prozatím některé nedostatky. Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku vůbec není zahrnutá. Dále je potřeba počítat s tím, že automatická anotace výrazů ze slovníku nemůže být spolehlivá: některé nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. Kocour si líže rány, které mu způsobil sousedův pes.).

Označení automaticky identifikovaných víceslovných jednotek v korpusu

Automaticky nalezené víceslovné jednotky jsou v rozhraní KonText označeny pomocí dvou pozičních atributů:1)

col_lemma (collocation lemma): lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu col_lemma může – v případech velké variability např. u přirovnání – obsahovat také alternativy, zástupná slova či symboly:

  • alternativy, např. někomu_došla/dojde_trpělivost
  • zástupná slova něco, nějaký, dělat atd., např. v_nějakém_slova_smyslu zahrnuje mj. v pravém/dobrém/jistém slova smyslu
  • symbol pro označení slovního druhu, např. A_jako_kámen zahrnuje mj. pevný/nehybný/tuhý jako kámen

col_type (collocation type): dvoupísmenná značka, jejíž první písmeno určuje druh víceslovné jednotky a druhé slouží k rozlišení hlavního (H) a závislého (Z) slova v ní. Část slovního spojení označená jako hlavní (H) nemusí být syntakticky ani sémanticky dominantní, hlavní motivací pro toto rozlišení byla možnost korektního vyhodnocení frekvence daného spojení v korpusu: jako H je totiž označena vždy právě jedna pozice slovního spojení (zpravidla se jedná o slovo poslední), zatímco všechny ostatní jsou označeny jako Z (viz poslední sloupec následující tabulky). Toto řešení umožňuje např. jednoduše vypsat množinu všech víceslovných jednotek v korpusu spolu s frekvencemi pomocí funkce Seznam slov na atribut col_type s dodatečným filtrem podle regulárního výrazu .H a typem výstupu zadaným jako atribut col_lemma.

1. pozice význam příklad víceslovného lemmatu příklad jeho označení v korpusu
K neslovesné kolokace cesta_do_pekel Dluhy jsou cestou[KZ] do[KZ] pekel[KH].
J víceslovné spojky a_právě_proto A[JZ] právě[JZ] proto[JH] se tak nejspíš nestalo.
M přísloví, okřídlená rčení, citace apod. čiň_čertu_dobře,_peklem_se_ti_odmění Čiň[MZ] čertu[MZ] dobře[MZ], peklem[MZ] se[MZ] ti[MZ] odmění[MH].
P přirovnání tma_jako_v_pekle Uvnitř byla tma[PZ] jako[PZ] v[PZ] pekle[PH].
S větné výrazy rozpoutalo_se_hotové_peklo V tu chvíli se[SZ] rozpoutalo[SZ] hotové[SZ] peklo[SH].
V slovesné kolokace mít_z_pekla_štěstí Měl[VZ] jste skutečně z[VZ] pekla[VZ] štěstí[VH].
Klasifikace víceslovných jednotek
1)
U slov, která nejsou součástí žádné označené víceslovné jednotky, jsou hodnoty atributů col_lemma a col_type prázdné.