AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Jak tomu přijít na kloub

Proč některé výskyty frazémů nebo ustálených kolokací nejsou automaticky označené?

A) doposud nebyla ještě daná kolokace zpracovaná a zařazena do vyhledávání a označení v korpusu

B) Text je chybně morfologicky diasmbiguovaný, proto se daný výskyt kolokace neidentifikoval.

C) příslušná kolokace nebyla zařazeno do programu identifikace, protože automaticky nelze spolehlivě určit, který výskyt daného řetězce slov v textu má hledaný přenesený význam.

Jaké je riziko, že označené výskyty nejsou frazeologické? (chyby v automatickém označení frazémů)

Frazeologický význam se realizuje jeho výskytem ve frazému. Označování frazémů probíhá automaticky, proto v případě některých obecných slovních spojením je velké riziko, že automaticky, jenom podle výskytu daného řetězce slov v textu, nelze spolehlivě určit, zda se jedná o přenesený frazeologický význam.

Pozor tedy na frazeologický a doslovný význam slova:
frazeologizmus popisující např. náladu sportovního týmu po těžké porážce - col_lemma=„lízat_si_rány“
Po odjezdu policistů si pomlácení baseballisté před klubem lízali rány, …

Případů výskytu tohoto spojení v doslovném významu je v psaných textech opravdu málo:
Kocour si líže rány, které mu způsobil sousedův pes.

Oproti tomu ustálené slovní spojení:
col_lemma=„jít_na_porážku“
Už ráno bylo zřejmé, že ODS jde na porážku.

se v textu častěji používá v doslovném významu:
Nejvýkonnější dojnice jdou běžně na porážku už po dvou nebo třech obdobích březosti.

Chybovost automatického označování frazémů.

Automatické označování ustálených kolokací probíhá bez jakékoliv znalosti syntaktické struktury a valence, je proto u některých hesel (zejména u dvouslovných nesouvislých slovesných frazémů) riziko, že u těchto nesouvislých frazémů mohou nastat problémy s jeho identifikací. Při vyhledávání hesel mít figuru, mít frčku, mít náladu, mít právo apod. jsou označeny i falešné výskyty, např.:

Kdy jindy by se měly zúročit všechny snahy o dokonalou figuru, …
V březnu roku 1872 měl Myslbek v sádře hotovou jednu figuru a rozpracovanou protější.
… každý, kdo měl alespoň o jednu tu frčku navíc, …
Bulharský premiér Borisov měl pro dobrou náladu důvod.
Mám advokátní praxi zaměřenou na rodinné právo.
…nevěděli, koho mají na toto právo upozornit
… v demokratické společnosti každý právo na své právo

Případné mezení při vyhledávání těchto frazémů, že mezi slovy frazému se nenachází předložka, by zamezilo označení frazeologických výskytů ve větách:

… koneckonců na svůj obraz nějaké právo, jenom to nikoho nezajímá.
Nemám na tohle všechno právo. .

Příklady vyhledávání frazémů
Problémy vyhledávání obtížných typů a jevů

1.Vyhledání konkrétního ustáleného slovního spojení (dle kolokačního lemmatu)

Příklad 1: Najít všechny výskyty konkrétního frazému (například obsahujícího substantivum označující část těla nebo jiného ustáleného spojení slov), například: přijít věci na kloub

V „neofrazémovaném“ korpusu bychom zadali asi tyto dotazy:

[lemma="přijít"] [word=".*"]{0,5} [lemma="na"][lemma="kloub"]
[lemma="na"][lemma="kloub"][word=".*"]{0,5}[lemma="přijít"]

V „ofrazémovaném“ korpusu nalezneme všechny výskyty tohoto frazému dotazem:
[col_lemma="přijít_na_kloub" & col_type=".*H"]

Chceme-li nalézt všechny rozšíření nebo varianty tohoto frazému, můžeme zadat dotaz: [col_lemma=".*na_kloub" & col_type=".*H"]

Ke stejnému výsledku dojdeme také v syntakticky označkovaném korpusu SYN2015, kdy zadáme dotaz: [lemma="kloub" & prep="na" & e_lemma="přijít"] a vypíšeme si/uděláme statistiku nalezených frazémů

2.Vyhledání všech výskytů daného slova v automaticky označených frazémech (dle formy)

Příklad 2: Najít všechny výskyty homonymního slova tváří v označených ustálených kolokacích

[word="tváří" & col_type=".*[HZ]"]

3. Přirovnání s konkrétním tvarem slova (vyhledávání dle formy a slovního druhu)

Příklad 3: Najděte v korpusu všechna přirovnání, v kterých je slovo-forma „myslí“ jednou jako sloveso, podruhé jako substantivum.

[word="myslí" & tag="V.*" & col_lemma="..*"]
[word="myslí" & tag="N.*" & col_lemma="..*"]

4. Slovesná fráze s konkrétním substantivem (vyhledávání dle lemmatu a typu kolokace)

Příklad 4: Vyhledejte všechny slovesné frazémy se slovem „slina“.

[lemma="slina" & col_type="V[HZ]"]

5. Nominální fráze s konkrétním adjektivem (vyhledávání dle lemmatu a tagu)

Příklad 5: Nalezněte ustálené spojení se substantivem, které je rozvito zleva adjektivem „černý“ (varianta s rozvitím adjektivem „bílý“ se většinou nevyskytuje)
(černá komedie, černá skládka, černá Afrika)

[lemma="černý" & col_type="KZ"]

Porovnáme-li výsledek s dotazem [lemma="bílý" & col_type="KZ"], resp. [lemma="bílý" & col_lemma="bíl.*" & col_type="KZ"], získáme některá spojení s odlišnými substantivy

6. Vyhledání všech frazeologických užití daného paradigmatu (vyhledání podle lemmatu)

Příklad 6: Vyhledejte všechny frazémy se slovesem „lámat“ (kdy sloveso lámat je součástí frazému)

[lemma="lámat" & col_type=".*[ZH]"]

7. Vyhledávání podle slovnědruhového vzoru
Zajímavá jsou i slovnědruhová složení některých frazémů.

Příklad 7: Najděte v korpusu přísloví, které obsahuje spojení:
[číslovka] [substantivum]

[tag="Cl.*" & col_type="M.*"][tag="NN.*" & col_type="M.*"]

Příklad 8: Případy, kdy v některém z frazémů je porušeno gramatické pravidlo, že předložka nepředchází před slovesem, nalezneme zadáním dotazu:

[tag="R.*" & col_type="..*"][tag="V.*" & col_type="..*"]

V korpusu SYN2015 se zobrazí 36 výskytů adverbiálního spojení „od nevidím do nevidím“.