Obsah
Automatická anotace frazémů a ustálených kolokací
Jako součást korpusu SYN (od verze 4) byla zveřejněna pilotní verze automatické identifikace frazémů a ustálených kolokací nástrojem FRANTA (FRazémová ANotace a Textová Analýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem víceslovné jednotky) z předem daného slovníku (seznamu), který v současné době vychází především ze Slovníku české frazeologie a idiomatiky a obsahuje okolo 40 000 položek.
Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní:
- umožňuje u jednotlivých slovních tvarů požadovat konkrétní morfologickou interpretaci;
- umožňuje zadat za lexikální jednotku proměnné;
- umožňuje určit, zda je hledané slovní spojení souvislé či nikoliv;
- umožňuje změny slovosledu.
Kromě prosté identifikace víceslovných jednotek je tato procedura také součástí procesu automatické pravidlové disambiguace, při níž napomáhá v určování správné morfologické interpretace slovních tvarů, které jsou součástí rozpoznaných víceslovných jednotek.
Automatická identifikace frazémů je zatím v pilotní verzi, která má prozatím některé nedostatky (viz podrobněji níže). Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že automatická anotace výrazů ze slovníku nemůže být spolehlivá: některé nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. Kocour si líže rány, které mu způsobil sousedův pes.).
Označení automaticky identifikovaných víceslovných jednotek v korpusu
Automaticky nalezené víceslovné jednotky jsou v rozhraní KonText označeny pomocí dvou pozičních atributů:1)
col_lemma (collocation lemma): lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu col_lemma
může – v případech velké variability např. u přirovnání – obsahovat také alternativy, zástupná slova či symboly:
- alternativy, např.
někomu_došla/dojde_trpělivost
- zástupná slova něco, nějaký, dělat atd., např.
v_nějakém_slova_smyslu
zahrnuje mj. v pravém/dobrém/jistém slova smyslu - symbol pro označení slovního druhu, např.
A_jako_kámen
zahrnuje mj. pevný/nehybný/tuhý jako kámen
col_type (collocation type): dvoupísmenná značka, jejíž první písmeno určuje druh víceslovné jednotky a druhé slouží k rozlišení hlavního (H
) a závislého (Z
) slova v ní. Část slovního spojení označená jako hlavní (H
) nemusí být syntakticky ani sémanticky dominantní, hlavní motivací pro toto rozlišení byla možnost korektního vyhodnocení frekvence daného spojení v korpusu: jako H
je totiž označena vždy právě jedna pozice slovního spojení (zpravidla se jedná o slovo poslední), zatímco všechny ostatní jsou označeny jako Z
(viz poslední sloupec následující tabulky). Toto řešení umožňuje např. jednoduše vypsat množinu všech víceslovných jednotek v korpusu spolu s frekvencemi pomocí funkce Seznam slov na atribut col_type
s dodatečným filtrem podle regulárního výrazu .H
a typem výstupu zadaným jako atribut col_lemma
.
1. pozice | význam | příklad víceslovného lemmatu | příklad jeho označení v korpusu |
---|---|---|---|
K | neslovesné kolokace | cesta_do_pekel | Dluhy jsou cestou[KZ] do[KZ] pekel[KH] . |
J | víceslovné spojky | a_právě_proto | A[JZ] právě[JZ] proto[JH] se tak nejspíš nestalo. |
M | přísloví, okřídlená rčení, citace apod. | čiň_čertu_dobře,_peklem_se_ti_odmění | Čiň[MZ] čertu[MZ] dobře[MZ] , peklem[MZ] se[MZ] ti[MZ] odmění[MH] . |
P | přirovnání | tma_jako_v_pekle | Uvnitř byla tma[PZ] jako[PZ] v[PZ] pekle[PH] . |
S | větné výrazy | rozpoutalo_se_hotové_peklo | V tu chvíli se[SZ] rozpoutalo[SZ] hotové[SZ] peklo[SH] . |
V | slovesné kolokace | mít_z_pekla_štěstí | Měl[VZ] jste skutečně z[VZ] pekla[VZ] štěstí[VH] . |
Zástupná slova v kolokačním lemmatu col_lemma
Označení slovního druhu
Jedná se pouze o případy, kdy v užití daného slovního spojení v psaných textech je veliká variantnost některého slova (většinou v přirovnání), kdy nelze předem všechny tyto konkrétní varianty zahrnout do lemmatu ustáleného spojení.
A
- nahrazuje libovolné adjektivum v kolokačním lemmatu (za konkrétní lemma adjektiva v daném výskytu přirovnání v korpusu)N
- nahrazuje libovolné substantivum v kolokačním lemmatu (za konkrétní lemma substantiva v daném výskytu přirovnání v korpusu)V
- nahrazuje libovolné sloveso v kolokačním lemmatu (za konkrétní lemma slovesa v daném výskytu přirovnání v korpusu)
Hodnota atributu col_lemma | Příklad |
---|---|
col_lemma="A_jako_kámen" | Svaly v obličeji jsem měl tuhé jako kámen. |
col_lemma="N_jako_hrom" | Tomu se říká návrat jako hrom! |
col_lemma="N_do_nepohody" | Živnostníci potřebují pracanty do nepohody. |
col_lemma="V_jako_zařezaný" | Policista to všecko poslouchal jako zařezaný. |
Zástupné sloveso „dělat“
Hodnota atributu col_lemma | Příklad |
---|---|
col_lemma="dělat_do_zblbnutí" | Jeden obraz točíte do zblbnutí ze všech stran. |
Zástupné slovo „něco“, „nějaký“ apod.
Hodnota atributu col_lemma | Příklad |
---|---|
col_lemma="v_nějakém_slova_smyslu" | Můžete milovat někoho, s kým jste prožili – v biblickém slova smyslu – jednu jedinou noc? |
col_lemma="za_nějaké_převahy" | … ten poslední v Sušici letos na jaře se hrál za výrazné převahy domácích |
Varianty v kolokačním lemmatu
V některých případech se varianta kolokačního lemmatu vyjadřuje výskytem různých forem slova oddělených lomítkem.
Hodnota atributu col_lemma | Příklad |
---|---|
col_lemma="někomu_došla/dojde_trpělivost" | Najednou vzduch rozčísl hrůzostrašný řev babičky, které už zkrátka došla trpělivost. |
Chybovost frazémové anotace
Automatické označování ustálených kolokací probíhá bez jakékoliv znalosti syntaktické struktury a valence, je proto u některých hesel (zejména u dvouslovných nesouvislých slovesných frazémů) riziko, že u těchto nesouvislých frazémů mohou nastat problémy s jeho identifikací. Při vyhledávání hesel mít figuru, mít frčku, mít náladu, mít právo apod. jsou označeny i falešné výskyty, např.:
- Kdy jindy by se měly zúročit všechny snahy o dokonalou figuru, …
- V březnu roku 1872 měl Myslbek v sádře hotovou jednu figuru a rozpracovanou protější.
- … každý, kdo měl alespoň o jednu tu frčku navíc, …
- Bulharský premiér Borisov měl pro dobrou náladu důvod.
- Mám advokátní praxi zaměřenou na rodinné právo.
- …nevěděli, koho mají na toto právo upozornit
- … v demokratické společnosti má každý právo na své právo
Pilotní verze frazémové anotace stále trpí některými nedostatky. Jedním z nich je např. to, že některé výskyty frazémů nebo ustálených kolokací nejsou automaticky označené. Důvodů může být několik.
- doposud nebyla ještě daná kolokace zpracovaná a zařazena do vyhledávání a označení v korpusu
- text je chybně morfologicky diasmbiguovaný, proto se daný výskyt kolokace neidentifikoval.
- příslušná kolokace nebyla zařazeno do programu identifikace, protože automaticky nelze spolehlivě určit, který výskyt daného řetězce slov v textu má hledaný přenesený význam.
Dalším rizikem automatické anotace je to, že označené výskyty nemusí být frazeologické.
Frazeologický význam se realizuje jeho výskytem ve frazému. Označování frazémů probíhá automaticky, proto v případě některých obecných slovních spojením je velké riziko, že automaticky, jenom podle výskytu daného řetězce slov v textu, nelze spolehlivě určit, zda se jedná o přenesený frazeologický význam.
Pozor tedy na frazeologický a doslovný význam slova. Frazém popisující např. náladu sportovního týmu po těžké porážce (col_lemma="lízat_si_rány"
) se v doslovném významu v psaných textech objevuje zřídka, ale přesto: Kocour si líže rány, které mu způsobil sousedův pes.
Oproti tomu ustálené slovní spojení (col_lemma="jít_na_porážku"
– Už ráno bylo zřejmé, že ODS jde na porážku.) se v textu častěji používá v doslovném významu: Nejvýkonnější dojnice jdou běžně na porážku už po dvou nebo třech obdobích březosti.
Další příklady vyhledávání frazémů
Příklady hledání frazémů najdete na zvláštní stránce.
col_lemma
a col_type
prázdné.