AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
seznamy:frazemy [2018/08/13 13:54] Václav Cvrčekseznamy:frazemy [2021/02/09 13:57] (aktuální) Jan Křivan
Řádek 1: Řádek 1:
 ====== Automatická anotace frazémů a ustálených kolokací ====== ====== Automatická anotace frazémů a ustálených kolokací ======
  
-Jako součást korpusu [[cnk:syn:verze4|SYN verze 4]] byla zveřejněna pilotní verze automatické identifikace [[pojmy:frazem|frazémů]] a ustálených [[pojmy:kolokace|kolokací]] nástrojem **FRANTA** (<fc #ff0000>FR</fc>azémová <fc #ff0000>AN</fc>otace a <fc #ff0000>T</fc>extová <fc #ff0000>A</fc>nalýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem //víceslovné jednotky//) z předem daného slovníku (seznamu), který v současné době vychází především ze //[[seznamy:if:frazemy_SCFI|Slovníku české frazeologie a idiomatiky]]// a obsahuje okolo 40 000 položek.+Jako součást korpusu [[cnk:syn|SYN]] (od verze 4) byla zveřejněna pilotní verze automatické identifikace [[pojmy:frazem|frazémů]] a ustálených [[pojmy:kolokace|kolokací]] nástrojem **FRANTA** (<fc #ff0000>FR</fc>azémová <fc #ff0000>AN</fc>otace a <fc #ff0000>T</fc>extová <fc #ff0000>A</fc>nalýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem //víceslovné jednotky//) z předem daného slovníku (seznamu), který v současné době vychází především ze //Slovníku české frazeologie a idiomatiky// a obsahuje okolo 40 000 položek.
  
 Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní: Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní:
Řádek 13: Řádek 13:
  
 <WRAP round important 70%> <WRAP round important 70%>
-Automatická identifikace frazémů je zatím v pilotní verzi, která má prozatím některé **nedostatky**. Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že automatická anotace výrazů ze slovníku nemůže být spolehlivá: některé nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. //Kocour si líže rány, které mu způsobil sousedův pes.//).+Automatická identifikace frazémů je zatím v pilotní verzi, která má prozatím některé **nedostatky** (viz podrobněji níže). Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že automatická anotace výrazů ze slovníku nemůže být spolehlivá: některé nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. //Kocour si líže rány, které mu způsobil sousedův pes.//).
 </WRAP> </WRAP>
  
Řádek 78: Řádek 78:
 ===== Chybovost frazémové anotace ===== ===== Chybovost frazémové anotace =====
  
-  +Automatické označování ustálených kolokací probíhá  bez jakékoliv znalosti syntaktické struktury a valence, je proto u kterých hesel (zejména u dvouslovných nesouvislých slovesných frazémů) riziko, že  u těchto nesouvislých frazémů mohou nastat problémy s jeho identifikací. Při vyhledávání hesel //mít figuru//, //mít frčku//, //mít náladu//, //mít právo// apod. jsou označeny i falešné výskyty, např.:
-**Proč některé výskyty frazémů nebo ustálených kolokací nejsou automaticky označené?**+
  
-A) doposud nebyla ještě daná kolokace zpracovaná a zařazena do vyhledávání označení korpusu+  * //Kdy jindy by se <fc #ff0000>měly</fc> zúročit všechny snahy o dokonalou  <fc #ff0000>figuru</fc>, ...// 
 +  * //V březnu roku 1872 <fc #ff0000>měl</fc> Myslbek v sádře hotovou jednu  <fc #ff0000>figuru</fc> rozpracovanou protější.// 
 +  * //... každý, kdo <fc #ff0000>měl</fc> alespoň o jednu tu <fc #ff0000>frčku</fc> navíc, ...// 
 +  * //Bulharský premiér Borisov <fc #ff0000>měl</fc> pro dobrou <fc #ff0000>náladu</fc> důvod.// 
 +  * //<fc #ff0000>Mám</fc> advokátní praxi zaměřenou na rodinné <fc #ff0000>právo</fc>.// 
 +  * //...nevěděli, koho <fc #ff0000>mají</fc>  na toto <fc #ff0000>právo</fc> upozornit// 
 +  * //... demokratické společnosti  <fc #ff0000>má</fc> každý <fc #ff0000>právo</fc>  na své <fc #ff0000>právo</fc>//
  
-B) Text je chybně morfologicky diasmbiguovaný, proto se daný výskyt kolokace neidentifikoval. 
  
-C) příslušná kolokace nebyla zařazeno do programu identifikaceprotože automaticky nelze spolehlivě určit, který výskyt daného řetězce slov v textu má hledaný přenesený význam.+Pilotní verze frazémové anotace stále trpí některými nedostatky. Jedním z nich je např. to, že některé výskyty frazémů nebo ustálených kolokací nejsou automaticky označené. Důvodů může být několik.
  
-**Jaké je riziko, že označené výskyty nejsou frazeologické?** (chyby v automatickém označení frazémů)+  - doposud nebyla ještě daná kolokace zpracovaná a zařazena do vyhledávání a označení v korpusu 
 +  - text je chybně morfologicky diasmbiguovaný, proto se daný výskyt kolokace neidentifikoval. 
 +  - příslušná kolokace nebyla zařazeno do programu identifikace, protože automaticky nelze spolehlivě určit, který výskyt daného řetězce slov v textu má hledaný přenesený význam. 
 + 
 +Dalším rizikem automatické anotace je to, že označené výskyty nemusí být frazeologické.
  
 Frazeologický význam se realizuje jeho výskytem ve frazému. Označování frazémů probíhá automaticky, proto v případě některých obecných slovních spojením je velké riziko, že automaticky, jenom podle výskytu daného řetězce slov v textu, nelze spolehlivě určit, zda se jedná o přenesený frazeologický význam. Frazeologický význam se realizuje jeho výskytem ve frazému. Označování frazémů probíhá automaticky, proto v případě některých obecných slovních spojením je velké riziko, že automaticky, jenom podle výskytu daného řetězce slov v textu, nelze spolehlivě určit, zda se jedná o přenesený frazeologický význam.
  
-Pozor tedy na **frazeologický** a **doslovný** význam slova:\\ +Pozor tedy na **frazeologický** a **doslovný** význam slova. Frazém popisující např. náladu sportovního týmu po těžké porážce (''col_lemma=%%"%%lízat_si_rány%%"%%'') se v doslovném významu v psaných textech objevuje zřídka, ale přesto: //Kocour <fc #ff0000>si líže rány</fc>, které mu způsobil sousedův pes.//
-frazeologizmus popisující např. náladu sportovního týmu po těžké porážce +
-col_lemma="lízat_si_rány"\\ +
-//Po odjezdu policistů <fc #ff0000>si</fc> pomlácení baseballisté před klubem <fc #ff0000>lízali rány</fc>, ...// +
- +
-Případů výskytu tohoto spojení v doslovném významu je v psaných textech opravdu málo:\\ +
-//Kocour <fc #ff0000>si líže rány</fc>, které mu způsobil sousedův pes.// +
- +
-Oproti tomu ustálené slovní spojení:\\ +
-col_lemma="jít_na_porážku"\\ +
-//Už ráno bylo zřejmé, že ODS <fc #ff0000>jde na porážku</fc>.// +
- +
-se v textu častěji používá v doslovném významu:\\ +
-//Nejvýkonnější dojnice <fc #ff0000>jdou</fc> běžně <fc #ff0000>na porážku</fc> už po dvou nebo třech obdobích březosti.// +
- +
-**Chybovost automatického označování frazémů.** +
- +
-Automatické označování ustálených kolokací probíhá  bez jakékoliv znalosti syntaktické struktury a valence, je proto u některých hesel (zejména u dvouslovných nesouvislých slovesných frazémů) riziko, že  u těchto nesouvislých frazémů mohou nastat problémy s jeho identifikací. Při vyhledávání hesel //mít figuru//, //mít frčku//, //mít náladu//, //mít právo// apod. jsou označeny i falešné výskyty, např.: +
- +
-//Kdy jindy by se <fc #ff0000>měly</fc> zúročit všechny snahy o dokonalou  <fc #ff0000>figuru</fc>, ...//\\ +
-//V březnu roku 1872 <fc #ff0000>měl</fc> Myslbek v sádře hotovou jednu  <fc #ff0000>figuru</fc> a rozpracovanou protější.//\\ +
-//... každý, kdo <fc #ff0000>měl</fc> alespoň o jednu tu <fc #ff0000>frčku</fc> navíc, ...//\\ +
-//Bulharský premiér Borisov <fc #ff0000>měl</fc> pro dobrou <fc #ff0000>náladu</fc> důvod.//\\ +
-//<fc #ff0000>Mám</fc> advokátní praxi zaměřenou na rodinné <fc #ff0000>právo</fc>.//\\ +
-//...nevěděli, koho <fc #ff0000>mají</fc>  na toto <fc #ff0000>právo</fc> upozornit//\\ +
-//... v demokratické společnosti  <fc #ff0000>má</fc> každý <fc #ff0000>právo</fc>  na své <fc #ff0000>právo</fc>// +
  
-Případné mezení při vyhledávání těchto frazémů, že mezi slovy frazému se nenachází předložka, by zamezilo označení frazeologických výskytů ve tách:+Oproti tomu ustálené slovní spojení (''col_lemma=%%"%%jít_na_porážku%%"%%'' -- //Už ráno bylo zřejmé, že ODS <fc #ff0000>jde na porážku</fc>.//) se textu častěji používá v doslovném významu//Nejvýkonnější dojnice <fc #ff0000>jdou</fc> běžně <fc #ff0000>na porážku</fc> už po dvou nebo třech obdobích březosti.//
  
-//... koneckonců <fc #ff0000>má</fc> na svůj obraz nějaké <fc #ff0000>právo</fc>, jenom to nikoho nezajímá.//\\ +====== Další příklady vyhledávání frazémů ======
-//<fc #ff0000>Nemám</fc> na tohle všechno <fc #ff0000>právo</fc>.// +
-.+
  
 +Příklady hledání frazémů najdete na [[kurz:hledani_frazemy|zvláštní stránce]].