col_lemma
a col_type
prázdné.Jako součást korpusu SYN (od verze 4) byla zveřejněna pilotní verze automatické identifikace frazémů a ustálených kolokací nástrojem FRANTA (FRazémová ANotace a Textová Analýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem víceslovné jednotky) z předem daného slovníku (seznamu), který v současné době vychází především ze Slovníku české frazeologie a idiomatiky a obsahuje okolo 40 000 položek.
Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní:
Kromě prosté identifikace víceslovných jednotek je tato procedura také součástí procesu automatické pravidlové disambiguace, při níž napomáhá v určování správné morfologické interpretace slovních tvarů, které jsou součástí rozpoznaných víceslovných jednotek.
Automatická identifikace frazémů je zatím v pilotní verzi, která má prozatím některé nedostatky (viz podrobněji níže). Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že automatická anotace výrazů ze slovníku nemůže být spolehlivá: některé nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. Kocour si líže rány, které mu způsobil sousedův pes.).
Automaticky nalezené víceslovné jednotky jsou v rozhraní KonText označeny pomocí dvou pozičních atributů:1)
col_lemma (collocation lemma): lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu col_lemma
může – v případech velké variability např. u přirovnání – obsahovat také alternativy, zástupná slova či symboly:
někomu_došla/dojde_trpělivost
v_nějakém_slova_smyslu
zahrnuje mj. v pravém/dobrém/jistém slova smysluA_jako_kámen
zahrnuje mj. pevný/nehybný/tuhý jako kámen
col_type (collocation type): dvoupísmenná značka, jejíž první písmeno určuje druh víceslovné jednotky a druhé slouží k rozlišení hlavního (H
) a závislého (Z
) slova v ní. Část slovního spojení označená jako hlavní (H
) nemusí být syntakticky ani sémanticky dominantní, hlavní motivací pro toto rozlišení byla možnost korektního vyhodnocení frekvence daného spojení v korpusu: jako H
je totiž označena vždy právě jedna pozice slovního spojení (zpravidla se jedná o slovo poslední), zatímco všechny ostatní jsou označeny jako Z
(viz poslední sloupec následující tabulky). Toto řešení umožňuje např. jednoduše vypsat množinu všech víceslovných jednotek v korpusu spolu s frekvencemi pomocí funkce Seznam slov na atribut col_type
s dodatečným filtrem podle regulárního výrazu .H
a typem výstupu zadaným jako atribut col_lemma
.
1. pozice | význam | příklad víceslovného lemmatu | příklad jeho označení v korpusu |
---|---|---|---|
K | neslovesné kolokace | cesta_do_pekel | Dluhy jsou cestou[KZ] do[KZ] pekel[KH] . |
J | víceslovné spojky | a_právě_proto | A[JZ] právě[JZ] proto[JH] se tak nejspíš nestalo. |
M | přísloví, okřídlená rčení, citace apod. | čiň_čertu_dobře,_peklem_se_ti_odmění | Čiň[MZ] čertu[MZ] dobře[MZ] , peklem[MZ] se[MZ] ti[MZ] odmění[MH] . |
P | přirovnání | tma_jako_v_pekle | Uvnitř byla tma[PZ] jako[PZ] v[PZ] pekle[PH] . |
S | větné výrazy | rozpoutalo_se_hotové_peklo | V tu chvíli se[SZ] rozpoutalo[SZ] hotové[SZ] peklo[SH] . |
V | slovesné kolokace | mít_z_pekla_štěstí | Měl[VZ] jste skutečně z[VZ] pekla[VZ] štěstí[VH] . |
Jedná se pouze o případy, kdy v užití daného slovního spojení v psaných textech je veliká variantnost některého slova (většinou v přirovnání), kdy nelze předem všechny tyto konkrétní varianty zahrnout do lemmatu ustáleného spojení.
A
- nahrazuje libovolné adjektivum v kolokačním lemmatu (za konkrétní lemma adjektiva v daném výskytu přirovnání v korpusu)N
- nahrazuje libovolné substantivum v kolokačním lemmatu (za konkrétní lemma substantiva v daném výskytu přirovnání v korpusu)V
- nahrazuje libovolné sloveso v kolokačním lemmatu (za konkrétní lemma slovesa v daném výskytu přirovnání v korpusu)Hodnota atributu col_lemma | Příklad |
---|---|
col_lemma="A_jako_kámen" | Svaly v obličeji jsem měl tuhé jako kámen. |
col_lemma="N_jako_hrom" | Tomu se říká návrat jako hrom! |
col_lemma="N_do_nepohody" | Živnostníci potřebují pracanty do nepohody. |
col_lemma="V_jako_zařezaný" | Policista to všecko poslouchal jako zařezaný. |
Hodnota atributu col_lemma | Příklad |
---|---|
col_lemma="dělat_do_zblbnutí" | Jeden obraz točíte do zblbnutí ze všech stran. |
Hodnota atributu col_lemma | Příklad |
---|---|
col_lemma="v_nějakém_slova_smyslu" | Můžete milovat někoho, s kým jste prožili – v biblickém slova smyslu – jednu jedinou noc? |
col_lemma="za_nějaké_převahy" | … ten poslední v Sušici letos na jaře se hrál za výrazné převahy domácích |
V některých případech se varianta kolokačního lemmatu vyjadřuje výskytem různých forem slova oddělených lomítkem.
Hodnota atributu col_lemma | Příklad |
---|---|
col_lemma="někomu_došla/dojde_trpělivost" | Najednou vzduch rozčísl hrůzostrašný řev babičky, které už zkrátka došla trpělivost. |
Automatické označování ustálených kolokací probíhá bez jakékoliv znalosti syntaktické struktury a valence, je proto u některých hesel (zejména u dvouslovných nesouvislých slovesných frazémů) riziko, že u těchto nesouvislých frazémů mohou nastat problémy s jeho identifikací. Při vyhledávání hesel mít figuru, mít frčku, mít náladu, mít právo apod. jsou označeny i falešné výskyty, např.:
Pilotní verze frazémové anotace stále trpí některými nedostatky. Jedním z nich je např. to, že některé výskyty frazémů nebo ustálených kolokací nejsou automaticky označené. Důvodů může být několik.
Dalším rizikem automatické anotace je to, že označené výskyty nemusí být frazeologické.
Frazeologický význam se realizuje jeho výskytem ve frazému. Označování frazémů probíhá automaticky, proto v případě některých obecných slovních spojením je velké riziko, že automaticky, jenom podle výskytu daného řetězce slov v textu, nelze spolehlivě určit, zda se jedná o přenesený frazeologický význam.
Pozor tedy na frazeologický a doslovný význam slova. Frazém popisující např. náladu sportovního týmu po těžké porážce (col_lemma="lízat_si_rány"
) se v doslovném významu v psaných textech objevuje zřídka, ale přesto: Kocour si líže rány, které mu způsobil sousedův pes.
Oproti tomu ustálené slovní spojení (col_lemma="jít_na_porážku"
– Už ráno bylo zřejmé, že ODS jde na porážku.) se v textu častěji používá v doslovném významu: Nejvýkonnější dojnice jdou běžně na porážku už po dvou nebo třech obdobích březosti.
Příklady hledání frazémů najdete na zvláštní stránce.
col_lemma
a col_type
prázdné.