Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
seznamy:frazemy [2018/08/13 14:05] – [Chybovost frazémové anotace] vaclavcvrcek | seznamy:frazemy [2021/02/09 13:57] (aktuální) – jankrivan |
---|
====== Automatická anotace frazémů a ustálených kolokací ====== | ====== Automatická anotace frazémů a ustálených kolokací ====== |
| |
Jako součást korpusu [[cnk:syn:verze4|SYN verze 4]] byla zveřejněna pilotní verze automatické identifikace [[pojmy:frazem|frazémů]] a ustálených [[pojmy:kolokace|kolokací]] nástrojem **FRANTA** (<fc #ff0000>FR</fc>azémová <fc #ff0000>AN</fc>otace a <fc #ff0000>T</fc>extová <fc #ff0000>A</fc>nalýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem //víceslovné jednotky//) z předem daného slovníku (seznamu), který v současné době vychází především ze //[[seznamy:if:frazemy_SCFI|Slovníku české frazeologie a idiomatiky]]// a obsahuje okolo 40 000 položek. | Jako součást korpusu [[cnk:syn|SYN]] (od verze 4) byla zveřejněna pilotní verze automatické identifikace [[pojmy:frazem|frazémů]] a ustálených [[pojmy:kolokace|kolokací]] nástrojem **FRANTA** (<fc #ff0000>FR</fc>azémová <fc #ff0000>AN</fc>otace a <fc #ff0000>T</fc>extová <fc #ff0000>A</fc>nalýza). Program pracuje tak, že v korpusu vyhledává a označuje frazémy a ustálené kolokace (dále budeme používat zastřešující pojem //víceslovné jednotky//) z předem daného slovníku (seznamu), který v současné době vychází především ze //Slovníku české frazeologie a idiomatiky// a obsahuje okolo 40 000 položek. |
| |
Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní: | Vzhledem k velké variabilitě realizace víceslovných jednotek v korpusu je způsob jejich vyhledávání do značné míry flexibilní: |
| |
<WRAP round important 70%> | <WRAP round important 70%> |
Automatická identifikace frazémů je zatím v pilotní verzi, která má prozatím některé **nedostatky**. Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že automatická anotace výrazů ze slovníku nemůže být spolehlivá: některé nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. //Kocour si líže rány, které mu způsobil sousedův pes.//). | Automatická identifikace frazémů je zatím v pilotní verzi, která má prozatím některé **nedostatky** (viz podrobněji níže). Především si nečiní nárok na úplnost, řada výrazů tedy ve slovníku není zahrnutá. Dále je potřeba počítat s tím, že automatická anotace výrazů ze slovníku nemůže být spolehlivá: některé nemusejí být vůbec nalezeny (například proto, že nebyla detekována jejich nestandardní realizace), nebo může být naopak jako frazém označeno užití v doslovném významu (např. //Kocour si líže rány, které mu způsobil sousedův pes.//). |
</WRAP> | </WRAP> |
| |
Oproti tomu ustálené slovní spojení (''col_lemma=%%"%%jít_na_porážku%%"%%'' -- //Už ráno bylo zřejmé, že ODS <fc #ff0000>jde na porážku</fc>.//) se v textu častěji používá v doslovném významu: //Nejvýkonnější dojnice <fc #ff0000>jdou</fc> běžně <fc #ff0000>na porážku</fc> už po dvou nebo třech obdobích březosti.// | Oproti tomu ustálené slovní spojení (''col_lemma=%%"%%jít_na_porážku%%"%%'' -- //Už ráno bylo zřejmé, že ODS <fc #ff0000>jde na porážku</fc>.//) se v textu častěji používá v doslovném významu: //Nejvýkonnější dojnice <fc #ff0000>jdou</fc> běžně <fc #ff0000>na porážku</fc> už po dvou nebo třech obdobích březosti.// |
| |
| ====== Další příklady vyhledávání frazémů ====== |
| |
| Příklady hledání frazémů najdete na [[kurz:hledani_frazemy|zvláštní stránce]]. |