====== Automatická anotace frazémů a ustálených kolokací ====== Jako součást korpusu [[cnk:syn|SYN]] (od verze 4) byla zveřejněna pilotní verze automatické identifikace [[pojmy:frazem|frazémů]] a ustálených [[pojmy:kolokace|kolokací]] nástrojem **FRANTA** (FRazémová ANotace a Textová Analýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem //víceslovné jednotky//) z předem daného slovníku (seznamu), který v současné době vychází především ze //Slovníku české frazeologie a idiomatiky// a obsahuje okolo 40 000 položek. Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní: * umožňuje u jednotlivých slovních tvarů požadovat konkrétní morfologickou interpretaci; * umožňuje zadat za lexikální jednotku proměnné; * umožňuje určit, zda je hledané slovní spojení souvislé či nikoliv; * umožňuje změny slovosledu. Kromě prosté identifikace víceslovných jednotek je tato procedura také součástí procesu automatické pravidlové [[pojmy:desambiguace|disambiguace]], při níž napomáhá v určování správné morfologické interpretace slovních tvarů, které jsou součástí rozpoznaných víceslovných jednotek. Automatická identifikace frazémů je zatím v pilotní verzi, která má prozatím některé **nedostatky** (viz podrobněji níže). Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že automatická anotace výrazů ze slovníku nemůže být spolehlivá: některé nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. //Kocour si líže rány, které mu způsobil sousedův pes.//). ===== Označení automaticky identifikovaných víceslovných jednotek v korpusu ===== Automaticky nalezené víceslovné jednotky jsou v rozhraní [[manualy:kontext:index|KonText]] označeny pomocí dvou [[pojmy:atributy_pozicni|pozičních atributů]]:((U slov, která nejsou součástí žádné označené víceslovné jednotky, jsou hodnoty atributů ''col_lemma'' a ''col_type'' prázdné.)) **col_lemma** (collocation lemma): [[pojmy:lemma|lemma]] víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu ''col_lemma'' může -- v případech velké variability např. u přirovnání -- obsahovat také alternativy, zástupná slova či symboly: * alternativy, např. ''někomu_došla/dojde_trpělivost'' * zástupná slova //něco//, //nějaký//, //dělat// atd., např. ''v_nějakém_slova_smyslu'' zahrnuje mj. //v pravém/dobrém/jistém slova smyslu// * symbol pro označení [[seznamy:tagy#pozice_1_-_slovni_druh|slovního druhu]], např. ''A_jako_kámen'' zahrnuje mj. //pevný/nehybný/tuhý jako kámen// **col_type** (collocation type): dvoupísmenná značka, jejíž první písmeno určuje druh víceslovné jednotky a druhé slouží k rozlišení hlavního (''H'') a závislého (''Z'') slova v ní. Část slovního spojení označená jako hlavní (''H'') nemusí být syntakticky ani sémanticky dominantní, hlavní motivací pro toto rozlišení byla možnost korektního vyhodnocení frekvence daného spojení v korpusu: jako ''H'' je totiž označena vždy právě jedna [[pojmy:pozice|pozice]] slovního spojení (zpravidla se jedná o slovo poslední), zatímco všechny ostatní jsou označeny jako ''Z'' (viz poslední sloupec následující tabulky). Toto řešení umožňuje např. jednoduše vypsat množinu všech víceslovných jednotek v korpusu spolu s frekvencemi pomocí funkce [[manualy:kontext:novy_dotaz#seznam_slov|Seznam slov]] na atribut ''col_type'' s dodatečným filtrem podle [[pojmy:regularni_vyrazy|regulárního výrazu]] ''.H'' a typem výstupu zadaným jako atribut ''col_lemma''. ^ 1. pozice ^ význam ^ příklad víceslovného lemmatu ^ příklad jeho označení v korpusu ^ | K | neslovesné kolokace | cesta_do_pekel | Dluhy jsou cestou''[KZ]'' do''[KZ]'' pekel''[KH]''. | | J | víceslovné spojky | a_právě_proto | A''[JZ]'' právě''[JZ]'' proto''[JH]'' se tak nejspíš nestalo. | | M | přísloví, okřídlená rčení, citace apod. | čiň_čertu_dobře,_peklem_se_ti_odmění | Čiň''[MZ]'' čertu''[MZ]'' dobře''[MZ]'', peklem''[MZ]'' se''[MZ]'' ti''[MZ]'' odmění''[MH]''. | | P | přirovnání | tma_jako_v_pekle | Uvnitř byla tma''[PZ]'' jako''[PZ]'' v''[PZ]'' pekle''[PH]''. | | S | větné výrazy | rozpoutalo_se_hotové_peklo | V tu chvíli se''[SZ]'' rozpoutalo''[SZ]'' hotové''[SZ]'' peklo''[SH]''. | | V | slovesné kolokace | mít_z_pekla_štěstí | Měl''[VZ]'' jste skutečně z''[VZ]'' pekla''[VZ]'' štěstí''[VH]''. | [{{:seznamy:frazemy-strom.png?nolink&500|Klasifikace víceslovných jednotek}}] ===== Zástupná slova v kolokačním lemmatu col_lemma ===== ==== Označení slovního druhu ==== Jedná se pouze o případy, kdy v užití daného slovního spojení v psaných textech je veliká variantnost některého slova (většinou v přirovnání), kdy nelze předem všechny tyto konkrétní varianty zahrnout do lemmatu ustáleného spojení. * ''A'' - nahrazuje libovolné adjektivum v kolokačním [[pojmy:lemma|lemmatu]] (za konkrétní lemma adjektiva v daném výskytu přirovnání v korpusu) * ''N'' - nahrazuje libovolné substantivum v kolokačním lemmatu (za konkrétní lemma substantiva v daném výskytu přirovnání v korpusu) * ''V'' - nahrazuje libovolné sloveso v kolokačním lemmatu (za konkrétní lemma slovesa v daném výskytu přirovnání v korpusu) ^ Hodnota atributu col_lemma ^ Příklad ^ | ''col_lemma=%%"%%A_jako_kámen%%"%%'' | //Svaly v obličeji jsem měl tuhé jako kámen.// | | ''col_lemma=%%"%%N_jako_hrom%%"%%'' | //Tomu se říká návrat jako hrom!// | | ''col_lemma=%%"%%N_do_nepohody%%"%%'' | //Živnostníci potřebují pracanty do nepohody.// | | ''col_lemma=%%"%%V_jako_zařezaný%%"%%'' | //Policista to všecko poslouchal jako zařezaný.// | ==== Zástupné sloveso „dělat“ ==== ^ Hodnota atributu col_lemma ^ Příklad ^ | ''col_lemma=%%"%%dělat_do_zblbnutí%%"%%'' | //Jeden obraz točíte do zblbnutí ze všech stran.// | ==== Zástupné slovo „něco“, „nějaký“ apod. ==== ^ Hodnota atributu col_lemma ^ Příklad ^ | ''col_lemma=%%"%%v_nějakém_slova_smyslu%%"%%'' | //Můžete milovat někoho, s kým jste prožili – v biblickém slova smyslu – jednu jedinou noc?// | | ''col_lemma=%%"%%za_nějaké_převahy%%"%%'' | //... ten poslední v Sušici letos na jaře se hrál za výrazné převahy domácích// | ==== Varianty v kolokačním lemmatu ==== V některých případech se varianta kolokačního lemmatu vyjadřuje výskytem různých forem slova oddělených lomítkem. ^ Hodnota atributu col_lemma ^ Příklad ^ | ''col_lemma=%%"%%někomu_došla/dojde_trpělivost%%"%%'' | //Najednou vzduch rozčísl hrůzostrašný řev babičky, které už zkrátka došla trpělivost.// | ===== Chybovost frazémové anotace ===== Automatické označování ustálených kolokací probíhá bez jakékoliv znalosti syntaktické struktury a valence, je proto u některých hesel (zejména u dvouslovných nesouvislých slovesných frazémů) riziko, že u těchto nesouvislých frazémů mohou nastat problémy s jeho identifikací. Při vyhledávání hesel //mít figuru//, //mít frčku//, //mít náladu//, //mít právo// apod. jsou označeny i falešné výskyty, např.: * //Kdy jindy by se měly zúročit všechny snahy o dokonalou figuru, ...// * //V březnu roku 1872 měl Myslbek v sádře hotovou jednu figuru a rozpracovanou protější.// * //... každý, kdo měl alespoň o jednu tu frčku navíc, ...// * //Bulharský premiér Borisov měl pro dobrou náladu důvod.// * //Mám advokátní praxi zaměřenou na rodinné právo.// * //...nevěděli, koho mají na toto právo upozornit// * //... v demokratické společnosti každý právo na své právo// Pilotní verze frazémové anotace stále trpí některými nedostatky. Jedním z nich je např. to, že některé výskyty frazémů nebo ustálených kolokací nejsou automaticky označené. Důvodů může být několik. - doposud nebyla ještě daná kolokace zpracovaná a zařazena do vyhledávání a označení v korpusu - text je chybně morfologicky diasmbiguovaný, proto se daný výskyt kolokace neidentifikoval. - příslušná kolokace nebyla zařazeno do programu identifikace, protože automaticky nelze spolehlivě určit, který výskyt daného řetězce slov v textu má hledaný přenesený význam. Dalším rizikem automatické anotace je to, že označené výskyty nemusí být frazeologické. Frazeologický význam se realizuje jeho výskytem ve frazému. Označování frazémů probíhá automaticky, proto v případě některých obecných slovních spojením je velké riziko, že automaticky, jenom podle výskytu daného řetězce slov v textu, nelze spolehlivě určit, zda se jedná o přenesený frazeologický význam. Pozor tedy na **frazeologický** a **doslovný** význam slova. Frazém popisující např. náladu sportovního týmu po těžké porážce (''col_lemma=%%"%%lízat_si_rány%%"%%'') se v doslovném významu v psaných textech objevuje zřídka, ale přesto: //Kocour si líže rány, které mu způsobil sousedův pes.// Oproti tomu ustálené slovní spojení (''col_lemma=%%"%%jít_na_porážku%%"%%'' -- //Už ráno bylo zřejmé, že ODS jde na porážku.//) se v textu častěji používá v doslovném významu: //Nejvýkonnější dojnice jdou běžně na porážku už po dvou nebo třech obdobích březosti.// ====== Další příklady vyhledávání frazémů ====== Příklady hledání frazémů najdete na [[kurz:hledani_frazemy|zvláštní stránce]].