AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
seznamy:frazemy [2016/10/19 13:13] – [Označení automaticky identifikovaných víceslovných jednotek v korpusu] milenahnatkovaseznamy:frazemy [2021/02/09 13:57] (aktuální) jankrivan
Řádek 1: Řádek 1:
 ====== Automatická anotace frazémů a ustálených kolokací ====== ====== Automatická anotace frazémů a ustálených kolokací ======
  
-Jako součást korpusu [[cnk:syn:verze4|SYN verze 4]] byla zveřejněna pilotní verze automatické identifikace [[pojmy:frazem|frazémů]] a ustálených [[pojmy:kolokace|kolokací]] nástrojem **FRANTA** (<fc #ff0000>FR</fc>azémová <fc #ff0000>AN</fc>otace a <fc #ff0000>T</fc>extová <fc #ff0000>A</fc>nalýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem //víceslovné jednotky//) z předem daného slovníku (seznamu), který v současné době vychází především ze //[[seznamy:if:frazemy_SCFI|Slovníku české frazeologie a idiomatiky]]// a obsahuje okolo 40 000 položek.+Jako součást korpusu [[cnk:syn|SYN]] (od verze 4) byla zveřejněna pilotní verze automatické identifikace [[pojmy:frazem|frazémů]] a ustálených [[pojmy:kolokace|kolokací]] nástrojem **FRANTA** (<fc #ff0000>FR</fc>azémová <fc #ff0000>AN</fc>otace a <fc #ff0000>T</fc>extová <fc #ff0000>A</fc>nalýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem //víceslovné jednotky//) z předem daného slovníku (seznamu), který v současné době vychází především ze //Slovníku české frazeologie a idiomatiky// a obsahuje okolo 40 000 položek.
  
 Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní: Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní:
Řádek 12: Řádek 12:
 Kromě prosté identifikace víceslovných jednotek je tato procedura také součástí procesu automatické pravidlové [[pojmy:desambiguace|disambiguace]], při níž napomáhá v určování správné morfologické interpretace slovních tvarů, které jsou součástí rozpoznaných víceslovných jednotek. Kromě prosté identifikace víceslovných jednotek je tato procedura také součástí procesu automatické pravidlové [[pojmy:desambiguace|disambiguace]], při níž napomáhá v určování správné morfologické interpretace slovních tvarů, které jsou součástí rozpoznaných víceslovných jednotek.
  
-====== Označení automaticky identifikovaných víceslovných jednotek v korpusu ======+<WRAP round important 70%> 
 +Automatická identifikace frazémů je zatím v pilotní verzi, která má prozatím některé **nedostatky** (viz podrobněji níže). Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že automatická anotace výrazů ze slovníku nemůže být spolehlivá: některé nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. //Kocour si líže rány, které mu způsobil sousedův pes.//). 
 +</WRAP> 
 + 
 + 
 +===== Označení automaticky identifikovaných víceslovných jednotek v korpusu =====
  
 Automaticky nalezené víceslovné jednotky jsou v rozhraní [[manualy:kontext:index|KonText]] označeny pomocí dvou [[pojmy:atributy_pozicni|pozičních atributů]]:((U slov, která nejsou součástí žádné označené víceslovné jednotky, jsou hodnoty atributů ''col_lemma'' a ''col_type'' prázdné.)) Automaticky nalezené víceslovné jednotky jsou v rozhraní [[manualy:kontext:index|KonText]] označeny pomocí dvou [[pojmy:atributy_pozicni|pozičních atributů]]:((U slov, která nejsou součástí žádné označené víceslovné jednotky, jsou hodnoty atributů ''col_lemma'' a ''col_type'' prázdné.))
  
-**col_lemma** (collocation lemma): lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu ''col_lemma'' může -- v případech velké variability např. u přirovnání -- obsahovat také alternativy, zástupná slova či symboly:+**col_lemma** (collocation lemma): [[pojmy:lemma|lemma]] víceslovné jednotky v podobě slovníkového hesla v základním tvaru (nominativ singuláru, infinitiv apod.); jednotlivé slovní tvary jsou v něm odděleny podtržítkem, konkrétní hodnota atributu ''col_lemma'' může -- v případech velké variability např. u přirovnání -- obsahovat také alternativy, zástupná slova či symboly:
  
   * alternativy, např. ''někomu_došla/dojde_trpělivost''   * alternativy, např. ''někomu_došla/dojde_trpělivost''
Řádek 32: Řádek 37:
 | S | větné výrazy | rozpoutalo_se_hotové_peklo | V tu chvíli se''[SZ]'' rozpoutalo''[SZ]'' hotové''[SZ]'' peklo''[SH]''. | | S | větné výrazy | rozpoutalo_se_hotové_peklo | V tu chvíli se''[SZ]'' rozpoutalo''[SZ]'' hotové''[SZ]'' peklo''[SH]''. |
 | V | slovesné kolokace | mít_z_pekla_štěstí | Měl''[VZ]'' jste skutečně z''[VZ]'' pekla''[VZ]'' štěstí''[VH]''. | | V | slovesné kolokace | mít_z_pekla_štěstí | Měl''[VZ]'' jste skutečně z''[VZ]'' pekla''[VZ]'' štěstí''[VH]''. |
- 
-**Upozornění**: Je potřeba počítat s tím, že tato automatická anotace není spolehlivá: některé víceslovné výrazy nemusejí být vůbec nalezeny (buď protože nejsou ve slovníku, nebo protože nebyla detekována jejich nestandardní realizace), také může být naopak jako frazém označeno užití v doslovném významu (např. //Kocour si líže rány, které mu způsobil sousedův pes.//). 
  
 [{{:seznamy:frazemy-strom.png?nolink&500|Klasifikace víceslovných jednotek}}] [{{:seznamy:frazemy-strom.png?nolink&500|Klasifikace víceslovných jednotek}}]
  
 +
 +===== Zástupná slova v kolokačním lemmatu col_lemma =====
 +
 +==== Označení slovního druhu ====
 +
 +Jedná se pouze o případy, kdy v užití daného slovního spojení v psaných textech je veliká variantnost některého slova (většinou v přirovnání), kdy nelze předem všechny tyto konkrétní varianty zahrnout do lemmatu ustáleného spojení.
 +
 +  * ''A'' - nahrazuje libovolné adjektivum  v kolokačním [[pojmy:lemma|lemmatu]] (za konkrétní lemma adjektiva v daném  výskytu přirovnání v korpusu)
 +  * ''N'' - nahrazuje libovolné substantivum  v kolokačním lemmatu (za konkrétní lemma substantiva v daném  výskytu přirovnání v korpusu)
 +  * ''V'' - nahrazuje libovolné sloveso v kolokačním lemmatu (za konkrétní lemma slovesa v daném  výskytu přirovnání v korpusu)
 +
 +^ Hodnota atributu col_lemma ^ Příklad ^
 +| ''col_lemma=%%"%%<fc #ff0000>A</fc>_jako_kámen%%"%%''    | //Svaly v obličeji jsem měl <fc #ff0000>tuhé</fc> jako  kámen.// |
 +| ''col_lemma=%%"%%<fc #ff0000>N</fc>_jako_hrom%%"%%''     | //Tomu se říká <fc #ff0000>návrat</fc> jako  hrom!// |
 +| ''col_lemma=%%"%%<fc #ff0000>N</fc>_do_nepohody%%"%%''   | //Živnostníci potřebují <fc #ff0000>pracanty</fc> do  nepohody.// |
 +| ''col_lemma=%%"%%<fc #ff0000>V</fc>_jako_zařezaný%%"%%'' | //Policista to všecko <fc #ff0000>poslouchal</fc> jako  zařezaný.// |
 +
 +==== Zástupné sloveso „dělat“ ====
 +
 +^ Hodnota atributu col_lemma ^ Příklad ^
 +| ''col_lemma=%%"%%<fc #ff0000>dělat</fc>_do_zblbnutí%%"%%'' | //Jeden obraz <fc #ff0000>točíte</fc> do zblbnutí ze všech stran.// |
 +
 +==== Zástupné slovo „něco“, „nějaký“ apod. ====
 +
 +^ Hodnota atributu col_lemma ^ Příklad ^
 +| ''col_lemma=%%"%%v_<fc #ff0000>nějakém</fc>_slova_smyslu%%"%%'' | //Můžete milovat někoho, s kým jste prožili – v <fc #ff0000>biblickém</fc> slova smyslu – jednu jedinou noc?// |
 +| ''col_lemma=%%"%%za_<fc #ff0000>nějaké</fc>_převahy%%"%%'' | //... ten poslední v Sušici letos na jaře se hrál za <fc #ff0000>výrazné</fc> převahy domácích// |
 +
 +==== Varianty v kolokačním lemmatu ====
 +
 +V některých případech se varianta kolokačního lemmatu vyjadřuje výskytem různých forem slova oddělených lomítkem.
 +
 +^ Hodnota atributu col_lemma ^ Příklad ^
 +| ''col_lemma=%%"%%někomu_došla/dojde_trpělivost%%"%%'' | //Najednou vzduch rozčísl hrůzostrašný řev babičky, které už zkrátka došla trpělivost.// |
 +
 +
 +===== Chybovost frazémové anotace =====
 +
 +Automatické označování ustálených kolokací probíhá  bez jakékoliv znalosti syntaktické struktury a valence, je proto u některých hesel (zejména u dvouslovných nesouvislých slovesných frazémů) riziko, že  u těchto nesouvislých frazémů mohou nastat problémy s jeho identifikací. Při vyhledávání hesel //mít figuru//, //mít frčku//, //mít náladu//, //mít právo// apod. jsou označeny i falešné výskyty, např.:
 +
 +  * //Kdy jindy by se <fc #ff0000>měly</fc> zúročit všechny snahy o dokonalou  <fc #ff0000>figuru</fc>, ...//
 +  * //V březnu roku 1872 <fc #ff0000>měl</fc> Myslbek v sádře hotovou jednu  <fc #ff0000>figuru</fc> a rozpracovanou protější.//
 +  * //... každý, kdo <fc #ff0000>měl</fc> alespoň o jednu tu <fc #ff0000>frčku</fc> navíc, ...//
 +  * //Bulharský premiér Borisov <fc #ff0000>měl</fc> pro dobrou <fc #ff0000>náladu</fc> důvod.//
 +  * //<fc #ff0000>Mám</fc> advokátní praxi zaměřenou na rodinné <fc #ff0000>právo</fc>.//
 +  * //...nevěděli, koho <fc #ff0000>mají</fc>  na toto <fc #ff0000>právo</fc> upozornit//
 +  * //... v demokratické společnosti  <fc #ff0000>má</fc> každý <fc #ff0000>právo</fc>  na své <fc #ff0000>právo</fc>//
 +
 +
 +Pilotní verze frazémové anotace stále trpí některými nedostatky. Jedním z nich je např. to, že některé výskyty frazémů nebo ustálených kolokací nejsou automaticky označené. Důvodů může být několik.
 +
 +  - doposud nebyla ještě daná kolokace zpracovaná a zařazena do vyhledávání a označení v korpusu
 +  - text je chybně morfologicky diasmbiguovaný, proto se daný výskyt kolokace neidentifikoval.
 +  - příslušná kolokace nebyla zařazeno do programu identifikace, protože automaticky nelze spolehlivě určit, který výskyt daného řetězce slov v textu má hledaný přenesený význam.
 +
 +Dalším rizikem automatické anotace je to, že označené výskyty nemusí být frazeologické.
 +
 +Frazeologický význam se realizuje jeho výskytem ve frazému. Označování frazémů probíhá automaticky, proto v případě některých obecných slovních spojením je velké riziko, že automaticky, jenom podle výskytu daného řetězce slov v textu, nelze spolehlivě určit, zda se jedná o přenesený frazeologický význam.
 +
 +Pozor tedy na **frazeologický** a **doslovný** význam slova. Frazém popisující např. náladu sportovního týmu po těžké porážce (''col_lemma=%%"%%lízat_si_rány%%"%%'') se v doslovném významu v psaných textech objevuje zřídka, ale přesto: //Kocour <fc #ff0000>si líže rány</fc>, které mu způsobil sousedův pes.//
 +
 +Oproti tomu ustálené slovní spojení (''col_lemma=%%"%%jít_na_porážku%%"%%'' -- //Už ráno bylo zřejmé, že ODS <fc #ff0000>jde na porážku</fc>.//) se v textu častěji používá v doslovném významu: //Nejvýkonnější dojnice <fc #ff0000>jdou</fc> běžně <fc #ff0000>na porážku</fc> už po dvou nebo třech obdobích březosti.//
 +
 +====== Další příklady vyhledávání frazémů ======
 +
 +Příklady hledání frazémů najdete na [[kurz:hledani_frazemy|zvláštní stránce]].