Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:desambiguace [2013/06/10 16:46] – vaclavcvrcek | pojmy:desambiguace [2021/01/14 12:11] (aktuální) – jankrivan |
---|
Desambiguace (někdy též disambiguace, z lat. //dis-// vyjadřuje zápor, //ambo// oba, česky zjednoznačnění) je část (většinou automatického) procesu [[pojmy:anotace|anotace]] jazykových dat, které vstupují do korpusu. | Desambiguace (někdy též disambiguace, z lat. //dis-// vyjadřuje zápor, //ambo// oba, česky zjednoznačnění) je část (většinou automatického) procesu [[pojmy:anotace|anotace]] jazykových dat, které vstupují do korpusu. |
| |
Zjednoznačněním se většinou myslí odstranění homonymie, čili jednoznačná interpretace slovního tvaru či skupiny slovních tvarů nebo věty na základě kontextu či mimojazykové situace. Desambiguace se obecně týká všech jazykových rovin, nejčastěji se ovšem v korpusech češtiny uplatňuje na rovině [[pojmy:morfologicka_analyza|morfologické]] (zahrnující [[pojmy:lemma#lemmatizace|lemmatizaci]] a přiřazení náležitých morfologických údajů slovnímu tvaru na základě kontextu. | Zjednoznačněním se většinou myslí odstranění homonymie, čili jednoznačná interpretace slovního tvaru či skupiny slovních tvarů nebo věty na základě kontextu či mimojazykové situace. Desambiguace se obecně týká všech jazykových rovin, nejčastěji se ovšem v korpusech češtiny uplatňuje na rovině [[pojmy:morfologicka_analyza|morfologické]] (zahrnující [[pojmy:lemma#lemmatizace|lemmatizaci]] a přiřazení náležitých morfologických údajů slovnímu tvaru na základě kontextu). |
| |
Např. ve větě //Větry vanou od západu.// se při morfologické interpretaci věty nejprve přiřadí [[pojmy:morfologicka_analyza|morfologickou analýzou]] tvaru //vanou// dvě [[pojmy:lemma|lemmata]] a dvě morfologické interpretace: | Např. ve větě //Větry vanou od západu.// se při morfologické interpretaci věty nejprve přiřadí [[pojmy:morfologicka_analyza|morfologickou analýzou]] tvaru //vanou// dvě [[pojmy:lemma|lemmata]] a dvě morfologické interpretace: |
- lemma=//vana//, subst. fem. sg. instr. | - lemma = //vana//, subst. fem. sg. instr. |
- lemma=//vát//, 3. os. pl. préz, | - lemma = //vát//, 3. os. pl. préz, |
a poté se při desambiguaci vybere náležitá 2. interpretace. | a poté se při desambiguaci vybere náležitá 2. interpretace. |
| |
**Morfologická desambiguace** je buď ruční či poloautomatická, nebo plně automatická. Automatická morfologická desambiguace se obecně provádí třemi způsoby: a) stochastická (statistická) desambiguace realizovaná na základě ↑strojového učení (např. metodou skrytého markovského modelu), b) desambiguace založená na lingvistických pravidlech, která buď vytváří lingvista, nebo se automaticky vyvozují z textů, c) desambiguace hybridní, která spojuje výhody přístupů a) a b). Automatickou morfologickou desambiguaci provádí program zvaný [[pojmy:tagger|tagger]] v užším smyslu. | **Morfologická desambiguace** je buď ruční či poloautomatická, nebo plně automatická. Automatická morfologická desambiguace se obecně provádí třemi způsoby: a) stochastická (statistická) desambiguace realizovaná na základě strojového učení (např. metodou skrytého markovského modelu), b) desambiguace založená na lingvistických pravidlech, která buď vytváří lingvista, nebo se automaticky vyvozují z textů, c) desambiguace hybridní, která spojuje výhody přístupů a) a b). Automatickou morfologickou desambiguaci provádí program zvaný **tagger** v užším smyslu. |
| |
**Desambiguace syntaktická** je součástí syntaktické analýzy, kdy se provádí desambiguace víceznačných syntaktických struktur. Např. v syntakticky víceznačné větě //František hrál v altánu šachy se svým ruským přítelem.// stanoví syntaktická desambiguace, že nominální skupina //se svým ruským přítelem// rozvíjí sloveso //hrát// jako jeho adverbiále, a nikoli např. substantivum //altánu// či //šachy// jako jejich přívlastek. | **Desambiguace syntaktická** je součástí syntaktické analýzy, kdy se provádí desambiguace víceznačných syntaktických struktur. Např. v syntakticky víceznačné větě //František hrál v altánu šachy se svým ruským přítelem.// stanoví syntaktická desambiguace, že nominální skupina //se svým ruským přítelem// rozvíjí sloveso //hrát// jako jeho příslovečné určení, a nikoli např. substantivum //altánu// či //šachy// jako jejich přívlastek. |
| |
| Podrobný postup celého procesu **automatické anotace** včetně údajů o míře úspěšnosti je popsán na příkladu korpusu [[cnk:SYN2020|SYN2020]] na stránce [[cnk:SYN2020:automaticka_anotace|automatická anotace korpusu SYN2020]]. |
| |
--- //V. Petkevič, V. Cvrček// | --- //V. Petkevič, V. Cvrček// |
| |
| ==== Související odkazy ==== |
| |
| <WRAP round box 49%> |
| [[pojmy:anotace|Anotace]] • [[pojmy:morfologicka_analyza|Morfologická analýza]] • [[pojmy:tag|Tag]] • [[pojmy:lemma|Lemma]] • [[pojmy:atributy_pozicni|Poziční atributy]] • [[cnk:SYN2020:automaticka_anotace|Automatická anotace SYN2020]] |
| </WRAP> |