AplikaceAplikace
Nastavení

Automatická anotace frazémů a ustálených kolokací

Jako součást korpusu SYN (od verze 4) byla zveřejněna pilotní verze automatické identifikace frazémů a ustálených kolokací nástrojem FRANTA (FRazémová ANotace a Textová Analýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem víceslovné jednotky) z předem daného slovníku (seznamu), který v současné době vychází především ze Slovníku české frazeologie a idiomatiky a obsahuje okolo 40 000 položek.

Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní:

  • umožňuje u jednotlivých slovních tvarů požadovat konkrétní morfologickou interpretaci;
  • umožňuje zadat za lexikální jednotku proměnné;
  • umožňuje určit, zda je hledané slovní spojení souvislé či nikoliv;
  • umožňuje změny slovosledu.

Kromě prosté identifikace víceslovných jednotek je tato procedura také součástí procesu automatické pravidlové disambiguace, při níž napomáhá v určování správné morfologické interpretace slovních tvarů, které jsou součástí rozpoznaných víceslovných jednotek.

Automatická identifikace frazémů je zatím v pilotní verzi, která má prozatím některé nedostatky (viz podrobněji níže). Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že automatická anotace výrazů ze slovníku nemůže být spolehlivá: některé nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. Kocour si líže rány, které mu způsobil sousedův pes.).

Označení automaticky identifikovaných víceslovných jednotek v korpusu

Automaticky nalezené víceslovné jednotky jsou v rozhraní KonText označeny pomocí dvou pozičních atributů:1)

col_lemma (collocation lemma): lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu col_lemma může – v případech velké variability např. u přirovnání – obsahovat také alternativy, zástupná slova či symboly:

  • alternativy, např. někomu_došla/dojde_trpělivost
  • zástupná slova něco, nějaký, dělat atd., např. v_nějakém_slova_smyslu zahrnuje mj. v pravém/dobrém/jistém slova smyslu
  • symbol pro označení slovního druhu, např. A_jako_kámen zahrnuje mj. pevný/nehybný/tuhý jako kámen

col_type (collocation type): dvoupísmenná značka, jejíž první písmeno určuje druh víceslovné jednotky a druhé slouží k rozlišení hlavního (H) a závislého (Z) slova v ní. Část slovního spojení označená jako hlavní (H) nemusí být syntakticky ani sémanticky dominantní, hlavní motivací pro toto rozlišení byla možnost korektního vyhodnocení frekvence daného spojení v korpusu: jako H je totiž označena vždy právě jedna pozice slovního spojení (zpravidla se jedná o slovo poslední), zatímco všechny ostatní jsou označeny jako Z (viz poslední sloupec následující tabulky). Toto řešení umožňuje např. jednoduše vypsat množinu všech víceslovných jednotek v korpusu spolu s frekvencemi pomocí funkce Seznam slov na atribut col_type s dodatečným filtrem podle regulárního výrazu .H a typem výstupu zadaným jako atribut col_lemma.

1. pozice význam příklad víceslovného lemmatu příklad jeho označení v korpusu
K neslovesné kolokace cesta_do_pekel Dluhy jsou cestou[KZ] do[KZ] pekel[KH].
J víceslovné spojky a_právě_proto A[JZ] právě[JZ] proto[JH] se tak nejspíš nestalo.
M přísloví, okřídlená rčení, citace apod. čiň_čertu_dobře,_peklem_se_ti_odmění Čiň[MZ] čertu[MZ] dobře[MZ], peklem[MZ] se[MZ] ti[MZ] odmění[MH].
P přirovnání tma_jako_v_pekle Uvnitř byla tma[PZ] jako[PZ] v[PZ] pekle[PH].
S větné výrazy rozpoutalo_se_hotové_peklo V tu chvíli se[SZ] rozpoutalo[SZ] hotové[SZ] peklo[SH].
V slovesné kolokace mít_z_pekla_štěstí Měl[VZ] jste skutečně z[VZ] pekla[VZ] štěstí[VH].
Klasifikace víceslovných jednotek

Zástupná slova v kolokačním lemmatu col_lemma

Označení slovního druhu

Jedná se pouze o případy, kdy v užití daného slovního spojení v psaných textech je veliká variantnost některého slova (většinou v přirovnání), kdy nelze předem všechny tyto konkrétní varianty zahrnout do lemmatu ustáleného spojení.

  • A - nahrazuje libovolné adjektivum v kolokačním lemmatu (za konkrétní lemma adjektiva v daném výskytu přirovnání v korpusu)
  • N - nahrazuje libovolné substantivum v kolokačním lemmatu (za konkrétní lemma substantiva v daném výskytu přirovnání v korpusu)
  • V - nahrazuje libovolné sloveso v kolokačním lemmatu (za konkrétní lemma slovesa v daném výskytu přirovnání v korpusu)
Hodnota atributu col_lemma Příklad
col_lemma="A_jako_kámen" Svaly v obličeji jsem měl tuhé jako kámen.
col_lemma="N_jako_hrom" Tomu se říká návrat jako hrom!
col_lemma="N_do_nepohody" Živnostníci potřebují pracanty do nepohody.
col_lemma="V_jako_zařezaný" Policista to všecko poslouchal jako zařezaný.

Zástupné sloveso „dělat“

Hodnota atributu col_lemma Příklad
col_lemma="dělat_do_zblbnutí" Jeden obraz točíte do zblbnutí ze všech stran.

Zástupné slovo „něco“, „nějaký“ apod.

Hodnota atributu col_lemma Příklad
col_lemma="v_nějakém_slova_smyslu" Můžete milovat někoho, s kým jste prožili – v biblickém slova smyslu – jednu jedinou noc?
col_lemma="za_nějaké_převahy" … ten poslední v Sušici letos na jaře se hrál za výrazné převahy domácích

Varianty v kolokačním lemmatu

V některých případech se varianta kolokačního lemmatu vyjadřuje výskytem různých forem slova oddělených lomítkem.

Hodnota atributu col_lemma Příklad
col_lemma="někomu_došla/dojde_trpělivost" Najednou vzduch rozčísl hrůzostrašný řev babičky, které už zkrátka došla trpělivost.

Chybovost frazémové anotace

Automatické označování ustálených kolokací probíhá bez jakékoliv znalosti syntaktické struktury a valence, je proto u některých hesel (zejména u dvouslovných nesouvislých slovesných frazémů) riziko, že u těchto nesouvislých frazémů mohou nastat problémy s jeho identifikací. Při vyhledávání hesel mít figuru, mít frčku, mít náladu, mít právo apod. jsou označeny i falešné výskyty, např.:

  • Kdy jindy by se měly zúročit všechny snahy o dokonalou figuru, …
  • V březnu roku 1872 měl Myslbek v sádře hotovou jednu figuru a rozpracovanou protější.
  • … každý, kdo měl alespoň o jednu tu frčku navíc, …
  • Bulharský premiér Borisov měl pro dobrou náladu důvod.
  • Mám advokátní praxi zaměřenou na rodinné právo.
  • …nevěděli, koho mají na toto právo upozornit
  • … v demokratické společnosti každý právo na své právo

Pilotní verze frazémové anotace stále trpí některými nedostatky. Jedním z nich je např. to, že některé výskyty frazémů nebo ustálených kolokací nejsou automaticky označené. Důvodů může být několik.

  1. doposud nebyla ještě daná kolokace zpracovaná a zařazena do vyhledávání a označení v korpusu
  2. text je chybně morfologicky diasmbiguovaný, proto se daný výskyt kolokace neidentifikoval.
  3. příslušná kolokace nebyla zařazeno do programu identifikace, protože automaticky nelze spolehlivě určit, který výskyt daného řetězce slov v textu má hledaný přenesený význam.

Dalším rizikem automatické anotace je to, že označené výskyty nemusí být frazeologické.

Frazeologický význam se realizuje jeho výskytem ve frazému. Označování frazémů probíhá automaticky, proto v případě některých obecných slovních spojením je velké riziko, že automaticky, jenom podle výskytu daného řetězce slov v textu, nelze spolehlivě určit, zda se jedná o přenesený frazeologický význam.

Pozor tedy na frazeologický a doslovný význam slova. Frazém popisující např. náladu sportovního týmu po těžké porážce (col_lemma="lízat_si_rány") se v doslovném významu v psaných textech objevuje zřídka, ale přesto: Kocour si líže rány, které mu způsobil sousedův pes.

Oproti tomu ustálené slovní spojení (col_lemma="jít_na_porážku"Už ráno bylo zřejmé, že ODS jde na porážku.) se v textu častěji používá v doslovném významu: Nejvýkonnější dojnice jdou běžně na porážku už po dvou nebo třech obdobích březosti.

Další příklady vyhledávání frazémů

Příklady hledání frazémů najdete na zvláštní stránce.

1)
U slov, která nejsou součástí žádné označené víceslovné jednotky, jsou hodnoty atributů col_lemma a col_type prázdné.