AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Jak tomu přijít na kloub

Proč některé výskyty frazémů nebo ustálených kolokací nejsou automaticky označené?

A) doposud nebyla ještě daná kolokace zpracovaná a zařazena do vyhledávání a označení v korpusu

B) Text je chybně morfologicky diasmbiguovaný, proto se daný výskyt kolokace neidentifikoval.

C) příslušná kolokace nebyla zařazeno do programu identifikace, protože automaticky nelze spolehlivě určit, který výskyt daného řetězce slov v textu má hledaný přenesený význam.

Jaké je riziko, že označené výskyty nejsou frazeologické? (chyby v automatickém označení frazémů)

Frazeologický význam se realizuje jeho výskytem ve frazému. Označování frazémů probíhá automaticky, proto v případě některých obecných slovních spojením je velké riziko, že automaticky, jenom podle výskytu daného řetězce slov v textu, nelze spolehlivě určit, zda se jedná o přenesený frazeologický význam.

Pozor tedy na frazeologický a doslovný význam slova:
frazeologizmus popisující např. náladu sportovního týmu po těžké porážce - col_lemma=„lízat_si_rány“
Po odjezdu policistů si pomlácení baseballisté před klubem lízali rány, …

Případů výskytu tohoto spojení v doslovném významu je v psaných textech opravdu málo:
Kocour si líže rány, které mu způsobil sousedův pes.

Oproti tomu ustálené slovní spojení:
col_lemma=„jít_na_porážku“
Už ráno bylo zřejmé, že ODS jde na porážku.

se v textu častěji používá v doslovném významu:
Nejvýkonnější dojnice jdou běžně na porážku už po dvou nebo třech obdobích březosti.

Chybovost automatického označování frazémů.

Automatické označování ustálených kolokací probíhá bez jakékoliv znalosti syntaktické struktury a valence, je proto u některých hesel (zejména u dvouslovných nesouvislých slovesných frazémů) riziko, že u těchto nesouvislých frazémů mohou nastat problémy s jeho identifikací. Při vyhledávání hesel mít figuru, mít frčku, mít náladu, mít právo apod. jsou označeny i falešné výskyty, např.:

Kdy jindy by se měly zúročit všechny snahy o dokonalou figuru, …
V březnu roku 1872 měl Myslbek v sádře hotovou jednu figuru a rozpracovanou protější.
… každý, kdo měl alespoň o jednu tu frčku navíc, …
Bulharský premiér Borisov měl pro dobrou náladu důvod.
Mám advokátní praxi zaměřenou na rodinné právo.
…nevěděli, koho mají na toto právo upozornit
… v demokratické společnosti každý právo na své právo

Případné mezení při vyhledávání těchto frazémů, že mezi slovy frazému se nenachází předložka, by zamezilo označení frazeologických výskytů ve větách:

… koneckonců na svůj obraz nějaké právo, jenom to nikoho nezajímá.
Nemám na tohle všechno právo. .

Příklady vyhledávání frazémů
Problémy vyhledávání obtížných typů a jevů

Příklad 1. Vyhledání konkrétního ustáleného slovního spojení (podle kolokačního lemmatu)

Najděte všechny výskyty konkrétního frazému (například obsahujícího substantivum označující část těla nebo jiného ustáleného spojení slov), například: přijít věci na kloub

V „neofrazémovaném“ korpusu bychom zadali asi tyto dotazy:

[lemma="přijít"] [word=".*"]{0,5} [lemma="na"][lemma="kloub"]
[lemma="na"][lemma="kloub"][word=".*"]{0,5}[lemma="přijít"]

V „ofrazémovaném“ korpusu nalezneme všechny výskyty tohoto frazému dotazem:
[col_lemma="přijít_na_kloub" & col_type=".*H"]

Chceme-li nalézt všechny rozšíření nebo varianty tohoto frazému, můžeme zadat dotaz: [col_lemma=".*na_kloub" & col_type=".*H"]

Ke stejnému výsledku dojdeme také v syntakticky označkovaném korpusu SYN2015, kdy zadáme dotaz: [lemma="kloub" & prep="na" & e_lemma="přijít"] a vypíšeme si/uděláme statistiku nalezených frazémů

Příklad 2. Vyhledání všech výskytů daného slova v automaticky označených frazémech (podle formy)

Najděte všechny výskyty homonymního slova tváří v označených ustálených kolokacích

[word="tváří" & col_type=".*[HZ]"]

Příklad 3. Přirovnání s konkrétním tvarem slova (vyhledávání podle formy a slovního druhu)

Najděte v korpusu všechna přirovnání, v kterých je slovo-forma myslí jednou jako sloveso, podruhé jako substantivum.

[word="myslí" & tag="V.*" & col_lemma="..*"]
[word="myslí" & tag="N.*" & col_lemma="..*"]

Příklad 4. Slovesná fráze s konkrétním substantivem (vyhledávání podle lemmatu a typu kolokace)

Vyhledejte všechny slovesné frazémy se slovem slina.

[lemma="slina" & col_type="V[HZ]"]

Příklad 5. Nominální fráze s konkrétním adjektivem (vyhledávání podle lemmatu a tagu)

Nalezněte ustálené spojení se substantivem, které je rozvito zleva adjektivem černý (varianta s rozvitím adjektivem bílý se většinou nevyskytuje)
(černá komedie, černá skládka, černá Afrika)

[lemma="černý" & col_type="KZ"]

Porovnáme-li výsledek s dotazem [lemma="bílý" & col_type="KZ"], resp. [lemma="bílý" & col_lemma="bíl.*" & col_type="KZ"], získáme některá spojení s odlišnými substantivy

Příklad 6. Vyhledání všech frazeologických užití daného paradigmatu (vyhledání podle lemmatu)

Vyhledejte všechny frazémy, jejichž součástí je sloveso lámat.

[lemma="lámat" & col_type=".*[ZH]"]

Příklady 7 a 8. Vyhledávání podle slovnědruhového vzoru

Zajímavá jsou i slovnědruhová složení některých frazémů. Najděte v korpusu přísloví, které obsahuje spojení:
[číslovka] [substantivum]

[tag="Cl.*" & col_type="M.*"][tag="NN.*" & col_type="M.*"]

Případy, kdy v některém z frazémů je porušeno gramatické pravidlo, že předložka nepředchází před slovesem, nalezneme zadáním dotazu:

[tag="R.*" & col_type="..*"][tag="V.*" & col_type="..*"]

V korpusu SYN2015 se zobrazí 36 výskytů adverbiálního spojení „od nevidím do nevidím“.