Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
kurz:hledani_frazemy [2018/08/13 13:32] – michalskrabal | kurz:hledani_frazemy [2021/02/09 13:56] (aktuální) – jankrivan |
---|
| ====== Příklady vyhledávání frazémů pomocí frazémové anotace ====== |
| |
<fs large>**Jak tomu přijít na kloub**</fs> | Níže uvádíme několik příkladů využití [[seznamy:frazemy|frazémové anotace]] při vyhledávání. Vzhledem k tomu, že frazémová anotace není dostupná ve všech korpusech, pro demonstraci jsme použili zvláštní verzi frazeologicky označkovaného korpusu SYN2015. K uživatelskému vyhledávání lze využít korpusy řady [[cnk:syn|SYN]], které frazémovou anotaci zahrnují od verze 4. |
| |
**Proč některé výskyty frazémů nebo ustálených kolokací nejsou automaticky označené?** | |
| |
A) doposud nebyla ještě daná kolokace zpracovaná a zařazena do vyhledávání a označení v korpusu | |
| |
B) Text je chybně morfologicky diasmbiguovaný, proto se daný výskyt kolokace neidentifikoval. | |
| |
C) příslušná kolokace nebyla zařazeno do programu identifikace, protože automaticky nelze spolehlivě určit, který výskyt daného řetězce slov v textu má hledaný přenesený význam. | |
| |
**Jaké je riziko, že označené výskyty nejsou frazeologické?** (chyby v automatickém označení frazémů) | |
| |
Frazeologický význam se realizuje jeho výskytem ve frazému. Označování frazémů probíhá automaticky, proto v případě některých obecných slovních spojením je velké riziko, že automaticky, jenom podle výskytu daného řetězce slov v textu, nelze spolehlivě určit, zda se jedná o přenesený frazeologický význam. | |
| |
Pozor tedy na **frazeologický** a **doslovný** význam slova:\\ | |
frazeologizmus popisující např. náladu sportovního týmu po těžké porážce | |
- col_lemma="lízat_si_rány"\\ | |
//Po odjezdu policistů <fc #ff0000>si</fc> pomlácení baseballisté před klubem <fc #ff0000>lízali rány</fc>, ...// | |
| |
Případů výskytu tohoto spojení v doslovném významu je v psaných textech opravdu málo:\\ | |
//Kocour <fc #ff0000>si líže rány</fc>, které mu způsobil sousedův pes.// | |
| |
Oproti tomu ustálené slovní spojení:\\ | |
col_lemma="jít_na_porážku"\\ | |
//Už ráno bylo zřejmé, že ODS <fc #ff0000>jde na porážku</fc>.// | |
| |
se v textu častěji používá v doslovném významu:\\ | |
//Nejvýkonnější dojnice <fc #ff0000>jdou</fc> běžně <fc #ff0000>na porážku</fc> už po dvou nebo třech obdobích březosti.// | |
| |
**Chybovost automatického označování frazémů.** | |
| |
Automatické označování ustálených kolokací probíhá bez jakékoliv znalosti syntaktické struktury a valence, je proto u některých hesel (zejména u dvouslovných nesouvislých slovesných frazémů) riziko, že u těchto nesouvislých frazémů mohou nastat problémy s jeho identifikací. Při vyhledávání hesel //mít figuru//, //mít frčku//, //mít náladu//, //mít právo// apod. jsou označeny i falešné výskyty, např.: | |
| |
//Kdy jindy by se <fc #ff0000>měly</fc> zúročit všechny snahy o dokonalou <fc #ff0000>figuru</fc>, ...//\\ | |
//V březnu roku 1872 <fc #ff0000>měl</fc> Myslbek v sádře hotovou jednu <fc #ff0000>figuru</fc> a rozpracovanou protější.//\\ | |
//... každý, kdo <fc #ff0000>měl</fc> alespoň o jednu tu <fc #ff0000>frčku</fc> navíc, ...//\\ | |
//Bulharský premiér Borisov <fc #ff0000>měl</fc> pro dobrou <fc #ff0000>náladu</fc> důvod.//\\ | |
//<fc #ff0000>Mám</fc> advokátní praxi zaměřenou na rodinné <fc #ff0000>právo</fc>.//\\ | |
//...nevěděli, koho <fc #ff0000>mají</fc> na toto <fc #ff0000>právo</fc> upozornit//\\ | |
//... v demokratické společnosti <fc #ff0000>má</fc> každý <fc #ff0000>právo</fc> na své <fc #ff0000>právo</fc>// | |
| |
Případné mezení při vyhledávání těchto frazémů, že mezi slovy frazému se nenachází předložka, by zamezilo označení frazeologických výskytů ve větách: | |
| |
//... koneckonců <fc #ff0000>má</fc> na svůj obraz nějaké <fc #ff0000>právo</fc>, jenom to nikoho nezajímá.//\\ | |
//<fc #ff0000>Nemám</fc> na tohle všechno <fc #ff0000>právo</fc>.// | |
. | |
| |
| |
| |
| |
<fs large>**Příklady vyhledávání frazémů**</fs>\\ | |
Problémy vyhledávání obtížných typů a jevů | |
| |
**1.Vyhledání konkrétního ustáleného slovního spojení** (dle kolokačního lemmatu) | ===== Hledání podle kolokačního lemmatu ===== |
| |
Příklad 1: Najít všechny výskyty konkrétního frazému (například obsahujícího substantivum označující část těla nebo jiného ustáleného spojení slov), například: //přijít věci na kloub// | Úkol: Najděte všechny výskyty konkrétního [[pojmy:frazem|frazému]] (např. obsahujícího substantivum označující část těla: //přijít věci na kloub//). |
| |
V "neofrazémovaném" korpusu bychom zadali asi tyto dotazy: | V "neofrazémovaném" korpusu bychom zadali asi tyto dotazy: |
| |
[lemma=%%"přijít"%%] [word=%%".*"%%]{0,5} [lemma=%%"na"%%][lemma=%%"kloub"%%]\\ | ''[lemma=%%"přijít"%%] [word=%%".*"%%]{0,5} [lemma=%%"na"%%][lemma=%%"kloub"%%]''\\ |
[lemma=%%"na"%%][lemma=%%"kloub"%%][word=%%".*"%%]{0,5}[lemma=%%"přijít"%%] | ''[lemma=%%"na"%%][lemma=%%"kloub"%%][word=%%".*"%%]{0,5}[lemma=%%"přijít"%%]''. |
| |
| |
V "ofrazémovaném" korpusu nalezneme všechny výskyty tohoto frazému dotazem:\\ | Ve frazeologicky označkovaném korpusu nalezneme všechny výskyty tohoto frazému dotazem\\ |
''[col_lemma=%%"přijít_na_kloub"%% & col_type=%%".*H"%%]'' | ''[col_lemma=%%"přijít_na_kloub"%% & col_type=%%".*H"%%]''. |
| |
| |
Chceme-li nalézt všechny rozšíření nebo varianty tohoto frazému, můžeme zadat dotaz: [col_lemma=%%".*na_kloub"%% & col_type=%%".*H"%%] | Chceme-li nalézt všechna rozšíření nebo varianty tohoto frazému, můžeme zadat dotaz ''[col_lemma=%%".*na_kloub"%% & col_type=%%".*H"%%]''. |
| |
{{:seznamy:na_kloub.png?|}} | {{:seznamy:na_kloub.png?|}} |
| |
Ke stejnému výsledku dojdeme také v syntakticky označkovaném korpusu SYN2015, kdy zadáme dotaz: [lemma=%%"kloub"%% & prep=%%"na"%% & e_lemma=%%"přijít"%%] a vypíšeme si/uděláme statistiku nalezených frazémů | Ke stejnému výsledku dojdeme také v syntakticky označkovaném korpusu SYN2015, zadáme-li dotaz ''[lemma=%%"kloub"%% & prep=%%"na"%% & e_lemma=%%"přijít"%%]'' a uděláme si [[manualy:kontext:frekvence|frekvenční statistiku]] nalezených frazémů. |
| |
**2.Vyhledání všech výskytů daného slova v automaticky označených frazémech** (dle formy) | ===== Hledání podle části frazému ===== |
| |
Příklad 2: Najít všechny výskyty homonymního slova //tváří// v označených ustálených kolokacích | Úkol: Najděte všechny výskyty homonymního slova //tváří// v označených ustálených kolokacích. |
| |
''[word=%%"tváří"%% & col_type=%%".*[HZ]"%%]'' | Řešení: ''[word=%%"tváří"%% & col_type=%%".*[HZ]"%%]'' |
| |
{{:seznamy:dotaz_2.png?|}} | {{:seznamy:dotaz_2.png?|}} |
| |
| |
**3. Přirovnání s konkrétním tvarem slova** (vyhledávání dle formy a slovního druhu) | ===== Hledání přirovnání s konkrétním tvarem slova ===== |
| |
Příklad 3: | |
Najděte v korpusu všechna přirovnání, v kterých je slovo-forma "//myslí//" jednou jako sloveso, podruhé jako substantivum. | |
| |
| Úkol: Najděte v korpusu všechna přirovnání, v kterých vystupuje slovní forma //myslí// jednou jako sloveso, podruhé jako substantivum. |
| |
| Řešení: \\ |
''[word=%%"myslí"%% & tag=%%"V.*"%% & col_lemma=%%"..*"%%]''\\ | ''[word=%%"myslí"%% & tag=%%"V.*"%% & col_lemma=%%"..*"%%]''\\ |
''[word=%%"myslí"%% & tag=%%"N.*"%% & col_lemma=%%"..*"%%]''\\ | ''[word=%%"myslí"%% & tag=%%"N.*"%% & col_lemma=%%"..*"%%]''\\ |
{{:seznamy:dotaz3-1.png|}} {{:seznamy:dotaz3-2.png|}} | {{:seznamy:dotaz3-1.png|}} {{:seznamy:dotaz3-2.png|}} |
| |
**4. Slovesná fráze s konkrétním substantivem** (vyhledávání dle lemmatu a typu kolokace) | ===== Hledání slovesné fráze s konkrétním substantivem ===== |
| |
Příklad 4: | Úkol: Vyhledejte všechny slovesné frazémy obsahující slovo //slina//. |
Vyhledejte všechny slovesné frazémy se slovem "//slina//". | |
| |
''[lemma=%%"slina"%% & col_type=%%"V[HZ]"%%]'' | Řešení: ''[lemma=%%"slina"%% & col_type=%%"V[HZ]"%%]'' |
| |
{{:seznamy:dotaz4.png|}} | {{:seznamy:dotaz4.png|}} |
| |
**5. Nominální fráze s konkrétním adjektivem** (vyhledávání dle lemmatu a tagu) | ===== Hledání nominální fráze s konkrétním adjektivem ===== |
| |
Příklad 5: | Úkol: Nalezněte ustálené spojení se substantivem, které je rozvito zleva adjektivem //černý//. |
Nalezněte ustálené spojení se substantivem, které je rozvito zleva adjektivem "černý" (varianta s rozvitím adjektivem "bílý" se většinou nevyskytuje)\\ | |
(//černá komedie//, //černá skládka//, //černá Afrika//) | |
| |
''[lemma=%%"černý"%% & col_type=%%"KZ"%%]'' | Řešení: ''[lemma=%%"černý"%% & col_type=%%"KZ"%%]'' |
| |
Porovnáme-li výsledek s dotazem | {{:seznamy:dotaz5.png|}} |
[lemma=%%"bílý"%% & col_type=%%"KZ"%%], resp. [lemma=%%"bílý"%% & col_lemma=%%"bíl.*"%% & col_type=%%"KZ"%%], získáme některá spojení s odlišnými substantivy | |
| |
{{:seznamy:dotaz5.png|}} {{:seznamy:dotaz5-2.png|}} | Porovnáme-li výsledky s dotazem ''[lemma=%%"bílý"%% & col_type=%%"KZ"%%]'', resp. ''[lemma=%%"bílý"%% & col_lemma=%%"bíl.*"%% & col_type=%%"KZ"%%]'', získáme některá spojení s odlišnými substantivy. |
| |
| {{:seznamy:dotaz5-2.png|}} |
| |
**6. Vyhledání všech frazeologických užití daného paradigmatu** (vyhledání podle lemmatu) | |
| |
Příklad 6: | ===== Hledání všech frazeologických užití daného paradigmatu ===== |
Vyhledejte všechny frazémy se slovesem "//lámat//" (kdy sloveso //lámat// je součástí frazému) | |
| |
''[lemma=%%"lámat"%% & col_type=%%".*[ZH]"%%]'' | |
| Úkol: Vyhledejte všechny frazémy, jejichž součástí je sloveso //lámat//. |
| |
| Řešení: ''[lemma=%%"lámat"%% & col_type=%%".*[ZH]"%%]'' |
| |
{{:seznamy:dotaz6.png|}} | {{:seznamy:dotaz6.png|}} |
| |
**7. Vyhledávání podle slovnědruhového vzoru**\\ | ===== Hledání podle slovnědruhového vzoru ===== |
Zajímavá jsou i slovnědruhová složení některých frazémů. | |
| |
Příklad 7: Najděte v korpusu přísloví, které obsahuje spojení:\\ | Úkol: Najděte v korpusu přísloví, které obsahuje spojení číslovky a substantiva. |
[číslovka] [substantivum] | |
| |
''[tag=%%"Cl.*"%% & col_type=%%"M.*"%%][tag=%%"NN.*"%% & col_type=%%"M.*"%%]'' | Řešení: ''[tag=%%"Cl.*"%% & col_type=%%"M.*"%%][tag=%%"NN.*"%% & col_type=%%"M.*"%%]'' |
| |
{{:seznamy:dotaz7.png|}} | {{:seznamy:dotaz7.png|}} |
| |
Příklad 8: Případy, kdy v některém z frazémů je porušeno gramatické pravidlo, že předložka nepředchází před slovesem, nalezneme zadáním dotazu: | Úkol: Vyhledejte případy, kdy je v některém z frazémů porušeno gramatické pravidlo, že předložka nepředchází před slovesem. |
| |
''[tag=%%"R.*"%% & col_type=%%"..*"%%][tag=%%"V.*"%% & col_type=%%"..*"%%]'' | Řešení: ''[tag=%%"R.*"%% & col_type=%%"..*"%%][tag=%%"V.*"%% & col_type=%%"..*"%%]'' |
| |
V korpusu SYN2015 se zobrazí 36 výskytů adverbiálního spojení "//<fc #ff0000>od nevidím do nevidím</fc>//". | Zobrazí se 36 výskytů adverbiálního spojení //<fc #ff0000>od nevidím do nevidím</fc>//. |
| |