AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
kurz:hledani_frazemy [2018/08/13 13:48] michalskrabalkurz:hledani_frazemy [2021/02/09 13:56] (aktuální) jankrivan
Řádek 1: Řádek 1:
 +====== Příklady vyhledávání frazémů pomocí frazémové anotace ======
  
-<fs large>**Jak tomu přijít na kloub**</fs> +že uvádíme několik íkladů využití [[seznamy:frazemy|frazémové anotace]] i vyhledáváníVzhledem k tomu, že frazémová anotace není dostupná ve všech korpusech, pro demonstraci jsme použili zvláštní verzi frazeologicky označkovaného korpusu SYN2015ivatelskému vyhledávání lze využít korpusy řady [[cnk:syn|SYN]]které frazémovou anotaci zahrnují od verze 4.
-  +
-**Proč některé výskyty frazémů nebo ustálených kolokací nejsou automaticky označené?** +
- +
-A) doposud nebyla ještě daná kolokace zpracovaná a zařazena do vyhledávání a označení v korpusu +
- +
-B) Text je chybně morfologicky diasmbiguovaný, proto se daný výskyt kolokace neidentifikoval. +
- +
-C) příslušná kolokace nebyla zařazeno do programu identifikace, protože automaticky nelze spolehlivě určit, který výskyt daného řetězce slov v textu má hledaný enesený význam. +
- +
-**Jaké je riziko, že označené výskyty nejsou frazeologické?** (chyby v automatickém označení frazémů+
- +
-Frazeologický význam se realizuje jeho výskytem ve frazému. Označování frazémů probíhá automaticky, proto v případě některých obecných slovních spojením je velké riziko, že automaticky, jenom podle výskytu daného řetězce slov v textu, nelze spolehlivě určit, zda se jedná o přenesený frazeologický význam. +
- +
-Pozor tedy na **frazeologický** a **doslovný** význam slova:\\ +
-frazeologizmus popisující např. náladu sportovního týmu po těžké porážce +
-- col_lemma="lízat_si_rány"\\ +
-//Po odjezdu policistů <fc #ff0000>si</fc> pomlácení baseballisté ed klubem <fc #ff0000>lízali rány</fc>, ...// +
- +
-Případů výskytu tohoto spojení v doslovném významu je v psaných textech opravdu málo:\\ +
-//Kocour <fc #ff0000>si líže rány</fc>, které mu způsobil sousedův pes.// +
- +
-Oproti tomu ustálené slovní spojení:\\ +
-col_lemma="jít_na_porážku"\\ +
-//Už ráno bylo zřejmé, že ODS <fc #ff0000>jde na porážku</fc>.// +
- +
-se textu častěji používá v doslovném významu:\\ +
-//Nejvýkonnější dojnice <fc #ff0000>jdou</fc> běžně <fc #ff0000>na porážku</fc> už po dvou nebo třech obdobích březosti.// +
- +
-**Chybovost automatického označování frazémů.** +
- +
-Automatické označování ustálených kolokací probíhá  bez jakékoliv znalosti syntaktické struktury a valence, je proto některých hesel (zejména u dvouslovných nesouvislých slovesných frazémů) riziko, že  u těchto nesouvislých frazémů mohou nastat problémy s jeho identifikací. Při vyhledávání hesel //mít figuru//, //mít frčku//, //mít náladu//, //mít právo// apod. jsou označeny i falešné výskyty, např.: +
- +
-//Kdy jindy by se <fc #ff0000>měly</fc> zúročit všechny snahy o dokonalou  <fc #ff0000>figuru</fc>, ...//\\ +
-//V březnu roku 1872 <fc #ff0000>měl</fc> Myslbek v sádře hotovou jednu  <fc #ff0000>figuru</fc> a rozpracovanou protější.//\\ +
-//... každý, kdo <fc #ff0000>měl</fc> alespoň o jednu tu <fc #ff0000>frčku</fc> navíc, ...//\\ +
-//Bulharský premiér Borisov <fc #ff0000>měl</fc> pro dobrou <fc #ff0000>náladu</fc> důvod.//\\ +
-//<fc #ff0000>Mám</fc> advokátní praxi zaměřenou na rodinné <fc #ff0000>právo</fc>.//\\ +
-//...nevěděli, koho <fc #ff0000>mají</fc>  na toto <fc #ff0000>právo</fc> upozornit//\\ +
-//... v demokratické společnosti  <fc #ff0000>má</fc> každý <fc #ff0000>právo</fc>  na své <fc #ff0000>právo</fc>//  +
- +
-Případné mezení při vyhledávání těchto frazémů, že mezi slovy frazému se nenachází předložka, by zamezilo označení frazeologických výskytů ve větách: +
- +
-//... koneckonců <fc #ff0000>má</fc> na svůj obraz nějaké <fc #ff0000>právo</fc>jenom to nikoho nezajímá.//\\ +
-//<fc #ff0000>Nemám</fc> na tohle všechno <fc #ff0000>právo</fc>.// +
-+
- +
- +
- +
- +
-<fs large>**Příklady vyhledávání frazémů**</fs>\\ +
-Problémy vyhledávání obtížných typů a jevů+
  
-**Příklad 1. Vyhledání konkrétního ustáleného slovního spojení** (podle kolokačního lemmatu)+===== Hledání podle kolokačního lemmatu =====
  
-Najděte všechny výskyty konkrétního frazému (například obsahujícího substantivum označující část těla nebo jiného ustáleného spojení slov), například: //přijít věci na kloub//+Úkol: Najděte všechny výskyty konkrétního [[pojmy:frazem|frazému]] (napřobsahujícího substantivum označující část těla: //přijít věci na kloub//).
  
 V "neofrazémovaném" korpusu bychom zadali asi tyto dotazy: V "neofrazémovaném" korpusu bychom zadali asi tyto dotazy:
  
-[lemma=%%"přijít"%%] [word=%%".*"%%]{0,5} [lemma=%%"na"%%][lemma=%%"kloub"%%]\\ +''[lemma=%%"přijít"%%] [word=%%".*"%%]{0,5} [lemma=%%"na"%%][lemma=%%"kloub"%%]''\\ 
-[lemma=%%"na"%%][lemma=%%"kloub"%%][word=%%".*"%%]{0,5}[lemma=%%"přijít"%%]+''[lemma=%%"na"%%][lemma=%%"kloub"%%][word=%%".*"%%]{0,5}[lemma=%%"přijít"%%]''.
    
  
-V "ofrazémovaném" korpusu nalezneme všechny výskyty tohoto frazému dotazem:\\ +Ve frazeologicky označkovaném korpusu nalezneme všechny výskyty tohoto frazému dotazem\\ 
-''[col_lemma=%%"přijít_na_kloub"%% & col_type=%%".*H"%%]''+''[col_lemma=%%"přijít_na_kloub"%% & col_type=%%".*H"%%]''.
  
  
-Chceme-li nalézt všechny rozšíření nebo varianty tohoto frazému, můžeme zadat dotaz[col_lemma=%%".*na_kloub"%% & col_type=%%".*H"%%]+Chceme-li nalézt všechna rozšíření nebo varianty tohoto frazému, můžeme zadat dotaz ''[col_lemma=%%".*na_kloub"%% & col_type=%%".*H"%%]''.
  
 {{:seznamy:na_kloub.png?|}} {{:seznamy:na_kloub.png?|}}
  
-Ke stejnému výsledku dojdeme také v syntakticky označkovaném korpusu SYN2015, kdy zadáme dotaz[lemma=%%"kloub"%% & prep=%%"na"%% & e_lemma=%%"přijít"%%] a vypíšeme si/uděláme statistiku nalezených frazémů+Ke stejnému výsledku dojdeme také v syntakticky označkovaném korpusu SYN2015, zadáme-li dotaz ''[lemma=%%"kloub"%% & prep=%%"na"%% & e_lemma=%%"přijít"%%]'' a uděláme si [[manualy:kontext:frekvence|frekvenční statistiku]] nalezených frazémů.
  
-**Příklad 2. Vyhledání všech výskytů daného slova v automaticky označených frazémech** (podle formy)+===== Hledání podle části frazému =====
  
-Najděte všechny výskyty homonymního slova //tváří// v označených ustálených kolokacích+Úkol: Najděte všechny výskyty homonymního slova //tváří// v označených ustálených kolokacích.
  
-''[word=%%"tváří"%% & col_type=%%".*[HZ]"%%]''+Řešení: ''[word=%%"tváří"%% & col_type=%%".*[HZ]"%%]''
  
 {{:seznamy:dotaz_2.png?|}} {{:seznamy:dotaz_2.png?|}}
  
  
-**Příklad 3. Přirovnání s konkrétním tvarem slova** (vyhledávání podle formy a slovního druhu)+===== Hledání přirovnání s konkrétním tvarem slova =====
  
-Najděte v korpusu všechna přirovnání, v kterých je slovo-forma //myslí// jednou jako sloveso, podruhé jako substantivum. 
  
 +Úkol: Najděte v korpusu všechna přirovnání, v kterých vystupuje slovní forma //myslí// jednou jako sloveso, podruhé jako substantivum.
 +
 +Řešení: \\
 ''[word=%%"myslí"%% & tag=%%"V.*"%% & col_lemma=%%"..*"%%]''\\ ''[word=%%"myslí"%% & tag=%%"V.*"%% & col_lemma=%%"..*"%%]''\\
 ''[word=%%"myslí"%% & tag=%%"N.*"%% & col_lemma=%%"..*"%%]''\\ ''[word=%%"myslí"%% & tag=%%"N.*"%% & col_lemma=%%"..*"%%]''\\
Řádek 91: Řádek 43:
 {{:seznamy:dotaz3-1.png|}}  {{:seznamy:dotaz3-2.png|}} {{:seznamy:dotaz3-1.png|}}  {{:seznamy:dotaz3-2.png|}}
  
-**Příklad 4. Slovesná fráze s konkrétním substantivem** (vyhledávání podle lemmatu a typu kolokace)+===== Hledání slovesné fráze s konkrétním substantivem =====
  
-Vyhledejte všechny slovesné frazémy se slovem //slina//.+Úkol: Vyhledejte všechny slovesné frazémy obsahující slovo //slina//.
  
-''[lemma=%%"slina"%% & col_type=%%"V[HZ]"%%]''+Řešení: ''[lemma=%%"slina"%% & col_type=%%"V[HZ]"%%]''
  
 {{:seznamy:dotaz4.png|}} {{:seznamy:dotaz4.png|}}
  
-**Příklad 5. Nominální fráze s konkrétním adjektivem** (vyhledávání podle lemmatu a tagu)+===== Hledání nominální fráze s konkrétním adjektivem =====
  
-Nalezněte ustálené spojení se substantivem, které je rozvito zleva adjektivem //černý// (varianta s rozvitím adjektivem //bílý// se většinou nevyskytuje)\\ +Úkol: Nalezněte ustálené spojení se substantivem, které je rozvito zleva adjektivem //černý//.
-(//černá komedie//, //černá skládka//, //černá Afrika//)+
  
-''[lemma=%%"černý"%% & col_type=%%"KZ"%%]''+Řešení: ''[lemma=%%"černý"%% & col_type=%%"KZ"%%]''
  
-Porovnáme-li výsledek s dotazem +{{:seznamy:dotaz5.png|}}
-[lemma=%%"bílý"%% & col_type=%%"KZ"%%], resp[lemma=%%"bílý"%% & col_lemma=%%"bíl.*"%% & col_type=%%"KZ"%%], získáme některá spojení s odlišnými substantivy+
  
-{{:seznamy:dotaz5.png|}} {{:seznamy:dotaz5-2.png|}}+Porovnáme-li výsledky s dotazem ''[lemma=%%"bílý"%% & col_type=%%"KZ"%%]'', resp. ''[lemma=%%"bílý"%% & col_lemma=%%"bíl.*"%% & col_type=%%"KZ"%%]'', získáme některá spojení s odlišnými substantivy.
  
 +{{:seznamy:dotaz5-2.png|}}
  
-**Příklad 6. Vyhledání všech frazeologických užití daného paradigmatu** (vyhledání podle lemmatu) 
  
-Vyhledejte echny frazémy, jejichž součástí je sloveso //lámat//.+===== Hledání ech frazeologických užití daného paradigmatu =====
  
-''[lemma=%%"lámat"%% & col_type=%%".*[ZH]"%%]''+ 
 +Úkol: Vyhledejte všechny frazémy, jejichž součástí je sloveso //lámat//
 + 
 +Řešení: ''[lemma=%%"lámat"%% & col_type=%%".*[ZH]"%%]''
  
 {{:seznamy:dotaz6.png|}} {{:seznamy:dotaz6.png|}}
  
-**Příklady 7 a 8. Vyhledávání podle slovnědruhového vzoru**\\+===== Hledání podle slovnědruhového vzoru ===== 
  
-Zajímavá jsou i slovnědruhová složení některých frazémů. Najděte v korpusu přísloví, které obsahuje spojení:\\  +Úkol: Najděte v korpusu přísloví, které obsahuje spojení číslovky a substantiva.
-[číslovka]  [substantivum]+
  
-''[tag=%%"Cl.*"%% & col_type=%%"M.*"%%][tag=%%"NN.*"%% & col_type=%%"M.*"%%]''+Řešení: ''[tag=%%"Cl.*"%% & col_type=%%"M.*"%%][tag=%%"NN.*"%% & col_type=%%"M.*"%%]''
  
 {{:seznamy:dotaz7.png|}} {{:seznamy:dotaz7.png|}}
  
-Případy, kdy v některém z frazémů je porušeno gramatické pravidlo, že předložka nepředchází před slovesem, nalezneme zadáním dotazu:+Úkol: Vyhledejte případy, kdy je v některém z frazémů porušeno gramatické pravidlo, že předložka nepředchází před slovesem.
  
-''[tag=%%"R.*"%% & col_type=%%"..*"%%][tag=%%"V.*"%% & col_type=%%"..*"%%]''+Řešení: ''[tag=%%"R.*"%% & col_type=%%"..*"%%][tag=%%"V.*"%% & col_type=%%"..*"%%]''
  
-V korpusu SYN2015 se zobrazí 36 výskytů adverbiálního spojení "//<fc #ff0000>od nevidím do nevidím</fc>//".+Zobrazí se 36 výskytů adverbiálního spojení //<fc #ff0000>od nevidím do nevidím</fc>//.