AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Označení frazémů a ustálených slovních kolokací v korpusových textech

Základní pojmy

Frazém

Frazém nelze zpravidla vymezit jedinou vlastností, například nejrozšířenější pojetí jako ustáleného spojení slov, jehož význam je neodvoditelný z významu jeho složek, nevyhovuje všem typům. K praktické identifikaci frazému slouží definice frazému jako jedinečného spojení minimálně dvou prvků, z nichž některý (popřípadě žádný) nefunguje stejným způsobem v jiném spojení (resp. více spojeních), popřípadě se vyskytuje pouze ve výrazu jediném (resp. několika málo).1)

Formálně je frazém ustálená diskrétní jednotka (na většině úrovní komponentů) tvořená zřetelnou kombinací aspoň dvou komponentů. Zároveň je takováto jednotka i kombinací v různém smyslu anomální, nepravidelnou. Jedním z důsledků ustálenosti frazému je zpravidla i nemožnost vkládat mezi jeho komponenty nějaký externí prvek kontextu.

Frazém je ustálené spojení slov se samostatným významem, kde přinejmenším jeden z komponentů je omezen právě na toto spojení v daném významu. Idiom je ustálené spojení slov osobité pro jistý jazyk. Kritériem vymezení frazému a idiomu je ustálenost.

Program automatického vyhledávání frazémů v korpusových datech

FRANTA (FRazémová ANotace a Textová Analýza) je program pro automatické vyhledávání frazémů a ustálených slovních spojení na základě Slovníku české frazeologie a idiomatiky (SČFI) v korpusových datech. Automaticky nalezená slovní spojení jsou v datech označena a lze je vyhledávat pomocí korpusového manažeru podle dalšího parametru – kolokačního lemmatu: col_lemma (collocation lemma), spolu s parametrem pro označením druhu ustáleného slovního spojení: col_type (collocation type).

Slovník české frazeologie a idiomatiky

Slovník české frazeologie a idiomatiky (SČFI) má dnes čtyři svazky: Přirovnání (1983), Výrazy neslovesné (1988), Výrazy slovesné (1994) a Výrazy větné (2009). Celý slovník má jednotnou koncepci, je kladen důraz na anomální sématickou nebo formální povahu komponentů frazému a jeho ustálenost.

SČFI obsahuje: frazémy, idiomy a ustálená slovní spojení: složené spojkové výrazy (a právě proto, i přesto že), víceslovné částice (děj se co děj, nebo tak něco), složené předložkové výrazy (na pokladě, tváří v tvář), přísloví (všechno zlé je k něčemu dobré), přirovnání (jako by někomu z oka vypadl, mít hlad jako vlk), kvazifrazémy (trpět chorobou, obstát v konkurenci), větné výrazy (slovo dalo slovo, blýská se na lepší časy)

Program automatického vyhledávání kolokací (na základě SČFI) pracuje na jednoznačném morfologicky otagovaném textu. Samotná procedura identifikace ustálených kolokací v korpusových datech je součástí složitého procesu automatické morfologické disambiguace, proto je slovům, která jsou součástí hledaného ustáleného řetězce slov, většinou již přiřazena správná morfologická interpretace. Seznamy frazémů jsou uvedeny v tabulce, kterou program vyhledávání využívá.

Program vyhledávání nesouvislých frazémů umožňuje zadat morfologickou informaci pro jednotlivá slova, proměnnou za lexikální jednotku a určit změnu slovosledu. Je určeno, zda se jedná o souvislé nebo nesouvislé spojení slov, tj. jsou označena místa ve větě, kde se mohou nacházet libovolná slova, která nejsou součástí frazému, a naopak je určeno, že se na dané pozici nemůže vyskytovat určité slovo (určeno dle slovního druhu).

Při zadávání příslušného hesla ustáleného spojení slov do programu je nutný podrobný lingvistický rozbor (na základě vyhledávání v korpusu) s určením specifických podmínek, nutných pro dané výskyty řetězců slov, aby nám aplikace automatického vyhledávání umožnila nalézt různé varianty základního hesla daného ustáleného spojení.

Automaticky nalezená frazémová slovní spojení jsou označena a lze je vyhledávat v korpusovém vyhledávači Kontext podle dalších atributů col_lemma a col_type s tímto významem:

col_lemma - lemma víceslovné jednotky (collocation lemma)

řetězec ve tvaru slovníkového hesla v základním tvaru (nominativ singular, infinitiv apod.), malými písmeny (kromě názvů), slova jsou oddělená podtržítkem

col_type - typ víceslovné jednotky (collocation type)

dvoupísmenný tag: [JKPMSV][HZ], na 1. pozici tagu je označen druh víceslovné jednotky a 2. pozice slouží pouze pro vyhodnocení frekvence dané kolokace v textu.

col_type se skládá ze dvou písmen - první pozice označuje druh ustálené kolokace a druhá pozice slouží k označení hlavního nebo vedlejšího slova ve slovním spojení - Označení konkrétního slova kolokace jako H (hlavní slovo) nemá žádný syntaktický význam - pouze je dodrženo pravidlo, že písmenem H na druhé pozici v col_type je označeno právě jedno slovo v označené kolokaci (jedná se zpravidla o poslední slovo ve slovním spojení), je zavedeno pouze kvůli správnému zobrazení daného výskytu ve vyhledávači a možnému počítání frekvencí daných výskytů označených kolokací.

1. pozice:
J víceslovné spojky (word of conjuctions)
K neslovesné kolokace (word of nonverbal collocations)
V slovesné kolokace (word of verbal collocations)
P přirovnání (word of similes)
M přísloví, citace apod. (word of proverbs)
S větné výrazy (word of sentence expressions)
2. pozice: (pouze pro počítání frekvencí označených kolokací)
H hlavní uzel kolokace
Z ostatní uzel kolokace

Slova, která nejsou součástí žádné označené kolokace, mají parametry col_lemma a col_type prázdné.

Klasifikace ustálených spojení

Tabulky programu Franta obsahují celkem 39 705 různých lemmat kolokací, z toho je 18 998 různých slovesných lemmat kolokací (označení col_type V), 5 179 různých lemmat větných výrazů (označení col_type S), 5 833 různých lemmat přirovnání (označení col_type P), 1 414 různých lemmat přísloví (označení col_type M), celkem 8 249 různých neslovesných lemmat kolokací (označení col_type K) zahrnuje 2 628 různých neslovesných neohebných lemmat kolokací (víceslovné částice, víceslovná adverbiále, ustálená předložková nominální slovní spojení) a 5 621 různých neslovesných ohebných lemmat kolokací (ustálená nominální slovní spojení). Nejméně zpracované je označení složených spojkových výrazů, dosud se označuje pouze 35 různých lemmat kolokací (označení col_type J)

TABULKA popis

1. pozice
col_type
2. pozice
col_type
význam col_lemma příklad
J Z/H* slovo/hlavní slovo
spojkového výrazu
a_právě_proto A-JZ právě-JZ proto-JH se tak nejspíš nestalo.
K Z/H* slovo/hlavní slovo
neslovesné kolokace
cesta_do_pekel Dluhy jsou cestou-KZ do-KZ pekel-KH.
V Z/H* slovo/hlavní slovo
slovesné kolokace
mít_z_pekla_štěstí Měl-VZ jste skutečně z-VZ pekla-VZ štěstí-VH.
P Z/H* slovo/hlavní slovo
přirovnání
tma_jako_v_pekle Uvnitř byla tma-PZ jako-PZ v-PZ pekle-PH.
M Z/H* slovo/hlavní slovo
přísloví
čiň_peklu_dobře,_peklem_se_ti_odmění Čiň-MZ čertu-MZ dobře-MZ, peklem-MZ se-MZ ti-MZ odmění-MH.
S Z/H* slovo/hlavní slovo
větného výrazu
rozpoutalo_se_hotové_peklo V tu chvíli se-SZ rozpoutalo-SZ hotové-SZ peklo-SH.

* označení hlavního slova dané kolokace je pouze z technických důvodů pro vyhodnocení frekvence

Jednoduchým dotazem nalezneme všechny označené kolokace (každý označený výskyt víceslovného slovního spojení se zobrazí pouze jednou):

[col_type=".H"]

Naopak dotazem [col_type="..*"] - nalezne všechna slova, která jsou součástí nějaké označené kolokace, v korpusu SYN2015 jich je celkem 3 889 930, tedy 3,2 % ze všech pozic

Zástupná slova v kolokačním lemmatu col_lemma

1. Označení slovního druhu

Jedná se pouze o případy, kdy v užití daného slovního spojení v psaných textech je veliká variantnost některého slova (většinou v přirovnání), kdy nelze předem všechny tyto konkrétní varianty zahrnout do lemmatu ustáleného spojení.

A - nahrazuje libovolné adjektivum v kolokačním lemmatu (za konkrétní lemma adjektiva v daném výskytu přirovnání v korpusu)
N - nahrazuje libovolné substantivum v kolokačním lemmatu (za konkrétní lemma substantiva v daném výskytu přirovnání v korpusu)
V - nahrazuje libovolné sloveso v kolokačním lemmatu (za konkrétní lemma slovesa v daném výskytu přirovnání v korpusu)

Příklady:
col_lemma="A_jako_kámen"
Svaly v obličeji jsem měl tuhé jako kámen.

col_lemma="N_jako_hrom"
Tomu se říká návrat jako hrom!
col_lemma="N_do_nepohody"
Živnostníci potřebují pracanty do nepohody.

col_lemma="V_jako_zařezaný"
Policista to všecko poslouchal jako zařezaný.

2. Zástupné sloveso dělat

col_lemma="dělat_do_zblbnutí"
Jeden obraz točíte do zblbnutí ze všech stran.

3. Zástupné slovo něco, nějaký apod.

col_lemma="v_nějakém_slova_smyslu"
Můžete milovat někoho, s kým jste prožili – v biblickém slova smyslu – jednu jedinou noc?

col_lemma="za_nějaké_převahy"
… ten poslední v Sušici letos na jaře se hrál za výrazné převahy domácích

V některých případech se varianta kolokačního lemmatu vyjadřuje výskytem různých forem slova oddělených lomítkem:

col_lemma="někomu_došla/dojde_trpělivost"
Najednou vzduch rozčísl hrůzostrašný řev babičky, které už zkrátka došla trpělivost.

Jak tomu přijít na kloub

Proč některé výskyty frazémů nebo ustálených kolokací nejsou automaticky označené?

A) doposud nebyla ještě daná kolokace zpracovaná a zařazena do vyhledávání a označení v korpusu

B) Text je chybně morfologicky diasmbiguovaný, proto se daný výskyt kolokace neidentifikoval.

C) příslušná kolokace nebyla zařazeno do programu identifikace, protože automaticky nelze spolehlivě určit, který výskyt daného řetězce slov v textu má hledaný přenesený význam.

Jaké je riziko, že označené výskyty nejsou frazeologické? (chyby v automatickém označení frazémů)

Frazeologický význam se realizuje jeho výskytem ve frazému. Označování frazémů probíhá automaticky, proto v případě některých obecných slovních spojením je velké riziko, že automaticky, jenom podle výskytu daného řetězce slov v textu, nelze spolehlivě určit, zda se jedná o přenesený frazeologický význam.

Pozor tedy na frazeologický a doslovný význam slova:
frazeologizmus popisující např. náladu sportovního týmu po těžké porážce - col_lemma=„lízat_si_rány“
Po odjezdu policistů si pomlácení baseballisté před klubem lízali rány, …

Případů výskytu tohoto spojení v doslovném významu je v psaných textech opravdu málo:
Kocour si líže rány, které mu způsobil sousedův pes.

Oproti tomu ustálené slovní spojení:
col_lemma=„jít_na_porážku“
Už ráno bylo zřejmé, že ODS jde na porážku.

se v textu častěji používá v doslovném významu:
Nejvýkonnější dojnice jdou běžně na porážku už po dvou nebo třech obdobích březosti.

Chybovost automatického označování frazémů.

Automatické označování ustálených kolokací probíhá bez jakékoliv znalosti syntaktické struktury a valence, je proto u některých hesel (zejména u dvouslovných nesouvislých slovesných frazémů) riziko, že u těchto nesouvislých frazémů mohou nastat problémy s jeho identifikací. Při vyhledávání hesel mít figuru, mít frčku, mít náladu, mít právo apod. jsou označeny i falešné výskyty, např.:

Kdy jindy by se měly zúročit všechny snahy o dokonalou figuru, …
V březnu roku 1872 měl Myslbek v sádře hotovou jednu figuru a rozpracovanou protější.
… každý, kdo měl alespoň o jednu tu frčku navíc, …
Bulharský premiér Borisov měl pro dobrou náladu důvod.
Mám advokátní praxi zaměřenou na rodinné právo.
…nevěděli, koho mají na toto právo upozornit
… v demokratické společnosti každý právo na své právo

Případné mezení při vyhledávání těchto frazémů, že mezi slovy frazému se nenachází předložka, by zamezilo označení frazeologických výskytů ve větách:

… koneckonců na svůj obraz nějaké právo, jenom to nikoho nezajímá.
Nemám na tohle všechno právo. .

Příklady vyhledávání frazémů
Problémy vyhledávání obtížných typů a jevů

1.Vyhledání konkrétního ustáleného slovního spojení (dle kolokačního lemmatu)

Příklad 1: Najít všechny výskyty konkrétního frazému (například obsahujícího substantivum označující část těla nebo jiného ustáleného spojení slov), například: přijít věci na kloub

V „neofrazémovaném“ korpusu bychom zadali asi tyto dotazy:

[lemma="přijít"] [word=".*"]{0,5} [lemma="na"][lemma="kloub"]
[lemma="na"][lemma="kloub"][word=".*"]{0,5}[lemma="přijít"]

V „ofrazémovaném“ korpusu nalezneme všechny výskyty tohoto frazému dotazem:
[col_lemma="přijít_na_kloub" & col_type=".*H"]

Chceme-li nalézt všechny rozšíření nebo varianty tohoto frazému, můžeme zadat dotaz: [col_lemma=".*na_kloub" & col_type=".*H"]

Ke stejnému výsledku dojdeme také v syntakticky označkovaném korpusu SYN2015, kdy zadáme dotaz: [lemma="kloub" & prep="na" & e_lemma="přijít"] a vypíšeme si/uděláme statistiku nalezených frazémů

2.Vyhledání všech výskytů daného slova v automaticky označených frazémech (dle formy)

Příklad 2: Najít všechny výskyty homonymního slova tváří v označených ustálených kolokacích

[word="tváří" & col_type=".*[HZ]"]

3. Přirovnání s konkrétním tvarem slova (vyhledávání dle formy a slovního druhu)

Příklad 3: Najděte v korpusu všechna přirovnání, v kterých je slovo-forma „myslí“ jednou jako sloveso, podruhé jako substantivum.

[word="myslí" & tag="V.*" & col_lemma="..*"]
[word="myslí" & tag="N.*" & col_lemma="..*"]

4. Slovesná fráze s konkrétním substantivem (vyhledávání dle lemmatu a typu kolokace)

Příklad 4: Vyhledejte všechny slovesné frazémy se slovem „slina“.

[lemma="slina" & col_type="V[HZ]"]

5. Nominální fráze s konkrétním adjektivem (vyhledávání dle lemmatu a tagu)

Příklad 5: Nalezněte ustálené spojení se substantivem, které je rozvito zleva adjektivem „černý“ (varianta s rozvitím adjektivem „bílý“ se většinou nevyskytuje)
(černá komedie, černá skládka, černá Afrika)

[lemma="černý" & col_type="KZ"]

Porovnáme-li výsledek s dotazem [lemma="bílý" & col_type="KZ"], resp. [lemma="bílý" & col_lemma="bíl.*" & col_type="KZ"], získáme některá spojení s odlišnými substantivy

6. Vyhledání všech frazeologických užití daného paradigmatu (vyhledání podle lemmatu)

Příklad 6: Vyhledejte všechny frazémy se slovesem „lámat“ (kdy sloveso lámat je součástí frazému)

[lemma="lámat" & col_type=".*[ZH]"]

7. Vyhledávání podle slovnědruhového vzoru
Zajímavá jsou i slovnědruhová složení některých frazémů.

Příklad 7: Najděte v korpusu přísloví, které obsahuje spojení:
[číslovka] [substantivum]

[tag="Cl.*" & col_type="M.*"][tag="NN.*" & col_type="M.*"]

Příklad 8: Případy, kdy v některém z frazémů je porušeno gramatické pravidlo, že předložka nepředchází před slovesem, nalezneme zadáním dotazu:

[tag="R.*" & col_type="..*"][tag="V.*" & col_type="..*"]

V korpusu SYN2015 se zobrazí 36 výskytů adverbiálního spojení „od nevidím do nevidím“.

1)
Filipec, Čermák, 1985, s. 166