====== Desambiguace ====== Desambiguace (někdy též disambiguace, z lat. //dis-// vyjadřuje zápor, //ambo// oba, česky zjednoznačnění) je část (většinou automatického) procesu [[pojmy:anotace|anotace]] jazykových dat, které vstupují do korpusu. Zjednoznačněním se většinou myslí odstranění homonymie, čili jednoznačná interpretace slovního tvaru či skupiny slovních tvarů nebo věty na základě kontextu či mimojazykové situace. Desambiguace se obecně týká všech jazykových rovin, nejčastěji se ovšem v korpusech češtiny uplatňuje na rovině [[pojmy:morfologicka_analyza|morfologické]] (zahrnující [[pojmy:lemma#lemmatizace|lemmatizaci]] a přiřazení náležitých morfologických údajů slovnímu tvaru na základě kontextu). Např. ve větě //Větry vanou od západu.// se při morfologické interpretaci věty nejprve přiřadí [[pojmy:morfologicka_analyza|morfologickou analýzou]] tvaru //vanou// dvě [[pojmy:lemma|lemmata]] a dvě morfologické interpretace: - lemma = //vana//, subst. fem. sg. instr. - lemma = //vát//, 3. os. pl. préz, a poté se při desambiguaci vybere náležitá 2. interpretace. **Morfologická desambiguace** je buď ruční či poloautomatická, nebo plně automatická. Automatická morfologická desambiguace se obecně provádí třemi způsoby: a) stochastická (statistická) desambiguace realizovaná na základě strojového učení (např. metodou skrytého markovského modelu), b) desambiguace založená na lingvistických pravidlech, která buď vytváří lingvista, nebo se automaticky vyvozují z textů, c) desambiguace hybridní, která spojuje výhody přístupů a) a b). Automatickou morfologickou desambiguaci provádí program zvaný **tagger** v užším smyslu. **Desambiguace syntaktická** je součástí syntaktické analýzy, kdy se provádí desambiguace víceznačných syntaktických struktur. Např. v syntakticky víceznačné větě //František hrál v altánu šachy se svým ruským přítelem.// stanoví syntaktická desambiguace, že nominální skupina //se svým ruským přítelem// rozvíjí sloveso //hrát// jako jeho příslovečné určení, a nikoli např. substantivum //altánu// či //šachy// jako jejich přívlastek. Podrobný postup celého procesu **automatické anotace** včetně údajů o míře úspěšnosti je popsán na příkladu korpusu [[cnk:SYN2020|SYN2020]] na stránce [[cnk:SYN2020:automaticka_anotace|automatická anotace korpusu SYN2020]]. --- //V. Petkevič, V. Cvrček// ==== Související odkazy ==== [[pojmy:anotace|Anotace]] • [[pojmy:morfologicka_analyza|Morfologická analýza]] • [[pojmy:tag|Tag]] • [[pojmy:lemma|Lemma]] • [[pojmy:atributy_pozicni|Poziční atributy]] • [[cnk:SYN2020:automaticka_anotace|Automatická anotace SYN2020]]