AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Automatická anotace frazémů a ustálených kolokací

Jako součást korpusu SYN verze 4 byla zveřejněna pilotní verze automatické identifikace frazémů a ustálených kolokací nástrojem FRANTA (FRazémová ANotace a Textová Analýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem víceslovné jednotky) z předem daného slovníku (seznamu), který v současné době vychází především ze Slovníku české frazeologie a idiomatiky a obsahuje okolo 40 000 položek.

Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní:

  • umožňuje u jednotlivých slovních tvarů požadovat konkrétní morfologickou interpretaci;
  • umožňuje zadat za lexikální jednotku proměnné;
  • umožňuje určit, zda je hledané slovní spojení souvislé či nikoliv;
  • umožňuje změny slovosledu.

Kromě prosté identifikace víceslovných jednotek je tato procedura také součástí procesu automatické pravidlové disambiguace, při níž napomáhá v určování správné morfologické interpretace slovních tvarů, které jsou součástí rozpoznaných víceslovných jednotek.

Automatická identifikace frazémů je zatím v pilotní verzi, která má prozatím některé nedostatky. Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že automatická anotace výrazů ze slovníku nemůže být spolehlivá: některé nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. Kocour si líže rány, které mu způsobil sousedův pes.).

Označení automaticky identifikovaných víceslovných jednotek v korpusu

Automaticky nalezené víceslovné jednotky jsou v rozhraní KonText označeny pomocí dvou pozičních atributů:1)

col_lemma (collocation lemma): lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu col_lemma může – v případech velké variability např. u přirovnání – obsahovat také alternativy, zástupná slova či symboly:

  • alternativy, např. někomu_došla/dojde_trpělivost
  • zástupná slova něco, nějaký, dělat atd., např. v_nějakém_slova_smyslu zahrnuje mj. v pravém/dobrém/jistém slova smyslu
  • symbol pro označení slovního druhu, např. A_jako_kámen zahrnuje mj. pevný/nehybný/tuhý jako kámen

col_type (collocation type): dvoupísmenná značka, jejíž první písmeno určuje druh víceslovné jednotky a druhé slouží k rozlišení hlavního (H) a závislého (Z) slova v ní. Část slovního spojení označená jako hlavní (H) nemusí být syntakticky ani sémanticky dominantní, hlavní motivací pro toto rozlišení byla možnost korektního vyhodnocení frekvence daného spojení v korpusu: jako H je totiž označena vždy právě jedna pozice slovního spojení (zpravidla se jedná o slovo poslední), zatímco všechny ostatní jsou označeny jako Z (viz poslední sloupec následující tabulky). Toto řešení umožňuje např. jednoduše vypsat množinu všech víceslovných jednotek v korpusu spolu s frekvencemi pomocí funkce Seznam slov na atribut col_type s dodatečným filtrem podle regulárního výrazu .H a typem výstupu zadaným jako atribut col_lemma.

1. pozice význam příklad víceslovného lemmatu příklad jeho označení v korpusu
K neslovesné kolokace cesta_do_pekel Dluhy jsou cestou[KZ] do[KZ] pekel[KH].
J víceslovné spojky a_právě_proto A[JZ] právě[JZ] proto[JH] se tak nejspíš nestalo.
M přísloví, okřídlená rčení, citace apod. čiň_čertu_dobře,_peklem_se_ti_odmění Čiň[MZ] čertu[MZ] dobře[MZ], peklem[MZ] se[MZ] ti[MZ] odmění[MH].
P přirovnání tma_jako_v_pekle Uvnitř byla tma[PZ] jako[PZ] v[PZ] pekle[PH].
S větné výrazy rozpoutalo_se_hotové_peklo V tu chvíli se[SZ] rozpoutalo[SZ] hotové[SZ] peklo[SH].
V slovesné kolokace mít_z_pekla_štěstí Měl[VZ] jste skutečně z[VZ] pekla[VZ] štěstí[VH].
Klasifikace víceslovných jednotek

Zástupná slova v kolokačním lemmatu col_lemma

Označení slovního druhu

Jedná se pouze o případy, kdy v užití daného slovního spojení v psaných textech je veliká variantnost některého slova (většinou v přirovnání), kdy nelze předem všechny tyto konkrétní varianty zahrnout do lemmatu ustáleného spojení.

  • A - nahrazuje libovolné adjektivum v kolokačním lemmatu (za konkrétní lemma adjektiva v daném výskytu přirovnání v korpusu)
  • N - nahrazuje libovolné substantivum v kolokačním lemmatu (za konkrétní lemma substantiva v daném výskytu přirovnání v korpusu)
  • V - nahrazuje libovolné sloveso v kolokačním lemmatu (za konkrétní lemma slovesa v daném výskytu přirovnání v korpusu)
Hodnota atributu col_lemma Příklad
col_lemma="A_jako_kámen" Svaly v obličeji jsem měl tuhé jako kámen.
col_lemma="N_jako_hrom" Tomu se říká návrat jako hrom!
col_lemma="N_do_nepohody" Živnostníci potřebují pracanty do nepohody.
col_lemma="V_jako_zařezaný" Policista to všecko poslouchal jako zařezaný.

Zástupné sloveso „dělat“

Hodnota atributu col_lemma Příklad
col_lemma="dělat_do_zblbnutí" Jeden obraz točíte do zblbnutí ze všech stran.

Zástupné slovo „něco“, „nějaký“ apod.

Hodnota atributu col_lemma Příklad
col_lemma="v_nějakém_slova_smyslu" Můžete milovat někoho, s kým jste prožili – v biblickém slova smyslu – jednu jedinou noc?
col_lemma="za_nějaké_převahy" … ten poslední v Sušici letos na jaře se hrál za výrazné převahy domácích

Varianty v kolokačním lemmatu

V některých případech se varianta kolokačního lemmatu vyjadřuje výskytem různých forem slova oddělených lomítkem.

Hodnota atributu col_lemma Příklad
col_lemma="někomu_došla/dojde_trpělivost" Najednou vzduch rozčísl hrůzostrašný řev babičky, které už zkrátka došla trpělivost.
1)
U slov, která nejsou součástí žádné označené víceslovné jednotky, jsou hodnoty atributů col_lemma a col_type prázdné.