====== Automatická anotace frazémů a ustálených kolokací ======
Jako součást korpusu [[cnk:syn|SYN]] (od verze 4) byla zveřejněna pilotní verze automatické identifikace [[pojmy:frazem|frazémů]] a ustálených [[pojmy:kolokace|kolokací]] nástrojem **FRANTA** (FRazémová ANotace a Textová Analýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem //víceslovné jednotky//) z předem daného slovníku (seznamu), který v současné době vychází především ze //Slovníku české frazeologie a idiomatiky// a obsahuje okolo 40 000 položek.
Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní:
* umožňuje u jednotlivých slovních tvarů požadovat konkrétní morfologickou interpretaci;
* umožňuje zadat za lexikální jednotku proměnné;
* umožňuje určit, zda je hledané slovní spojení souvislé či nikoliv;
* umožňuje změny slovosledu.
Kromě prosté identifikace víceslovných jednotek je tato procedura také součástí procesu automatické pravidlové [[pojmy:desambiguace|disambiguace]], při níž napomáhá v určování správné morfologické interpretace slovních tvarů, které jsou součástí rozpoznaných víceslovných jednotek.
Automatická identifikace frazémů je zatím v pilotní verzi, která má prozatím některé **nedostatky** (viz podrobněji níže). Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že automatická anotace výrazů ze slovníku nemůže být spolehlivá: některé nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. //Kocour si líže rány, které mu způsobil sousedův pes.//).
===== Označení automaticky identifikovaných víceslovných jednotek v korpusu =====
Automaticky nalezené víceslovné jednotky jsou v rozhraní [[manualy:kontext:index|KonText]] označeny pomocí dvou [[pojmy:atributy_pozicni|pozičních atributů]]:((U slov, která nejsou součástí žádné označené víceslovné jednotky, jsou hodnoty atributů ''col_lemma'' a ''col_type'' prázdné.))
**col_lemma** (collocation lemma): [[pojmy:lemma|lemma]] víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu ''col_lemma'' může -- v případech velké variability např. u přirovnání -- obsahovat také alternativy, zástupná slova či symboly:
* alternativy, např. ''někomu_došla/dojde_trpělivost''
* zástupná slova //něco//, //nějaký//, //dělat// atd., např. ''v_nějakém_slova_smyslu'' zahrnuje mj. //v pravém/dobrém/jistém slova smyslu//
* symbol pro označení [[seznamy:tagy#pozice_1_-_slovni_druh|slovního druhu]], např. ''A_jako_kámen'' zahrnuje mj. //pevný/nehybný/tuhý jako kámen//
**col_type** (collocation type): dvoupísmenná značka, jejíž první písmeno určuje druh víceslovné jednotky a druhé slouží k rozlišení hlavního (''H'') a závislého (''Z'') slova v ní. Část slovního spojení označená jako hlavní (''H'') nemusí být syntakticky ani sémanticky dominantní, hlavní motivací pro toto rozlišení byla možnost korektního vyhodnocení frekvence daného spojení v korpusu: jako ''H'' je totiž označena vždy právě jedna [[pojmy:pozice|pozice]] slovního spojení (zpravidla se jedná o slovo poslední), zatímco všechny ostatní jsou označeny jako ''Z'' (viz poslední sloupec následující tabulky). Toto řešení umožňuje např. jednoduše vypsat množinu všech víceslovných jednotek v korpusu spolu s frekvencemi pomocí funkce [[manualy:kontext:novy_dotaz#seznam_slov|Seznam slov]] na atribut ''col_type'' s dodatečným filtrem podle [[pojmy:regularni_vyrazy|regulárního výrazu]] ''.H'' a typem výstupu zadaným jako atribut ''col_lemma''.
^ 1. pozice ^ význam ^ příklad víceslovného lemmatu ^ příklad jeho označení v korpusu ^
| K | neslovesné kolokace | cesta_do_pekel | Dluhy jsou cestou''[KZ]'' do''[KZ]'' pekel''[KH]''. |
| J | víceslovné spojky | a_právě_proto | A''[JZ]'' právě''[JZ]'' proto''[JH]'' se tak nejspíš nestalo. |
| M | přísloví, okřídlená rčení, citace apod. | čiň_čertu_dobře,_peklem_se_ti_odmění | Čiň''[MZ]'' čertu''[MZ]'' dobře''[MZ]'', peklem''[MZ]'' se''[MZ]'' ti''[MZ]'' odmění''[MH]''. |
| P | přirovnání | tma_jako_v_pekle | Uvnitř byla tma''[PZ]'' jako''[PZ]'' v''[PZ]'' pekle''[PH]''. |
| S | větné výrazy | rozpoutalo_se_hotové_peklo | V tu chvíli se''[SZ]'' rozpoutalo''[SZ]'' hotové''[SZ]'' peklo''[SH]''. |
| V | slovesné kolokace | mít_z_pekla_štěstí | Měl''[VZ]'' jste skutečně z''[VZ]'' pekla''[VZ]'' štěstí''[VH]''. |
[{{:seznamy:frazemy-strom.png?nolink&500|Klasifikace víceslovných jednotek}}]
===== Zástupná slova v kolokačním lemmatu col_lemma =====
==== Označení slovního druhu ====
Jedná se pouze o případy, kdy v užití daného slovního spojení v psaných textech je veliká variantnost některého slova (většinou v přirovnání), kdy nelze předem všechny tyto konkrétní varianty zahrnout do lemmatu ustáleného spojení.
* ''A'' - nahrazuje libovolné adjektivum v kolokačním [[pojmy:lemma|lemmatu]] (za konkrétní lemma adjektiva v daném výskytu přirovnání v korpusu)
* ''N'' - nahrazuje libovolné substantivum v kolokačním lemmatu (za konkrétní lemma substantiva v daném výskytu přirovnání v korpusu)
* ''V'' - nahrazuje libovolné sloveso v kolokačním lemmatu (za konkrétní lemma slovesa v daném výskytu přirovnání v korpusu)
^ Hodnota atributu col_lemma ^ Příklad ^
| ''col_lemma=%%"%%A_jako_kámen%%"%%'' | //Svaly v obličeji jsem měl tuhé jako kámen.// |
| ''col_lemma=%%"%%N_jako_hrom%%"%%'' | //Tomu se říká návrat jako hrom!// |
| ''col_lemma=%%"%%N_do_nepohody%%"%%'' | //Živnostníci potřebují pracanty do nepohody.// |
| ''col_lemma=%%"%%V_jako_zařezaný%%"%%'' | //Policista to všecko poslouchal jako zařezaný.// |
==== Zástupné sloveso „dělat“ ====
^ Hodnota atributu col_lemma ^ Příklad ^
| ''col_lemma=%%"%%dělat_do_zblbnutí%%"%%'' | //Jeden obraz točíte do zblbnutí ze všech stran.// |
==== Zástupné slovo „něco“, „nějaký“ apod. ====
^ Hodnota atributu col_lemma ^ Příklad ^
| ''col_lemma=%%"%%v_nějakém_slova_smyslu%%"%%'' | //Můžete milovat někoho, s kým jste prožili – v biblickém slova smyslu – jednu jedinou noc?// |
| ''col_lemma=%%"%%za_nějaké_převahy%%"%%'' | //... ten poslední v Sušici letos na jaře se hrál za výrazné převahy domácích// |
==== Varianty v kolokačním lemmatu ====
V některých případech se varianta kolokačního lemmatu vyjadřuje výskytem různých forem slova oddělených lomítkem.
^ Hodnota atributu col_lemma ^ Příklad ^
| ''col_lemma=%%"%%někomu_došla/dojde_trpělivost%%"%%'' | //Najednou vzduch rozčísl hrůzostrašný řev babičky, které už zkrátka došla trpělivost.// |
===== Chybovost frazémové anotace =====
Automatické označování ustálených kolokací probíhá bez jakékoliv znalosti syntaktické struktury a valence, je proto u některých hesel (zejména u dvouslovných nesouvislých slovesných frazémů) riziko, že u těchto nesouvislých frazémů mohou nastat problémy s jeho identifikací. Při vyhledávání hesel //mít figuru//, //mít frčku//, //mít náladu//, //mít právo// apod. jsou označeny i falešné výskyty, např.:
* //Kdy jindy by se měly zúročit všechny snahy o dokonalou figuru, ...//
* //V březnu roku 1872 měl Myslbek v sádře hotovou jednu figuru a rozpracovanou protější.//
* //... každý, kdo měl alespoň o jednu tu frčku navíc, ...//
* //Bulharský premiér Borisov měl pro dobrou náladu důvod.//
* //Mám advokátní praxi zaměřenou na rodinné právo.//
* //...nevěděli, koho mají na toto právo upozornit//
* //... v demokratické společnosti má každý právo na své právo//
Pilotní verze frazémové anotace stále trpí některými nedostatky. Jedním z nich je např. to, že některé výskyty frazémů nebo ustálených kolokací nejsou automaticky označené. Důvodů může být několik.
- doposud nebyla ještě daná kolokace zpracovaná a zařazena do vyhledávání a označení v korpusu
- text je chybně morfologicky diasmbiguovaný, proto se daný výskyt kolokace neidentifikoval.
- příslušná kolokace nebyla zařazeno do programu identifikace, protože automaticky nelze spolehlivě určit, který výskyt daného řetězce slov v textu má hledaný přenesený význam.
Dalším rizikem automatické anotace je to, že označené výskyty nemusí být frazeologické.
Frazeologický význam se realizuje jeho výskytem ve frazému. Označování frazémů probíhá automaticky, proto v případě některých obecných slovních spojením je velké riziko, že automaticky, jenom podle výskytu daného řetězce slov v textu, nelze spolehlivě určit, zda se jedná o přenesený frazeologický význam.
Pozor tedy na **frazeologický** a **doslovný** význam slova. Frazém popisující např. náladu sportovního týmu po těžké porážce (''col_lemma=%%"%%lízat_si_rány%%"%%'') se v doslovném významu v psaných textech objevuje zřídka, ale přesto: //Kocour si líže rány, které mu způsobil sousedův pes.//
Oproti tomu ustálené slovní spojení (''col_lemma=%%"%%jít_na_porážku%%"%%'' -- //Už ráno bylo zřejmé, že ODS jde na porážku.//) se v textu častěji používá v doslovném významu: //Nejvýkonnější dojnice jdou běžně na porážku už po dvou nebo třech obdobích březosti.//
====== Další příklady vyhledávání frazémů ======
Příklady hledání frazémů najdete na [[kurz:hledani_frazemy|zvláštní stránce]].