Desambiguace
Desambiguace (někdy též disambiguace, z lat. dis- vyjadřuje zápor, ambo oba, česky zjednoznačnění) je část (většinou automatického) procesu anotace jazykových dat, které vstupují do korpusu.
Zjednoznačněním se většinou myslí odstranění homonymie, čili jednoznačná interpretace slovního tvaru či skupiny slovních tvarů nebo věty na základě kontextu či mimojazykové situace. Desambiguace se obecně týká všech jazykových rovin, nejčastěji se ovšem v korpusech češtiny uplatňuje na rovině morfologické (zahrnující lemmatizaci a přiřazení náležitých morfologických údajů slovnímu tvaru na základě kontextu).
Např. ve větě Větry vanou od západu. se při morfologické interpretaci věty nejprve přiřadí morfologickou analýzou tvaru vanou dvě lemmata a dvě morfologické interpretace:
- lemma = vana, subst. fem. sg. instr.
- lemma = vát, 3. os. pl. préz,
a poté se při desambiguaci vybere náležitá 2. interpretace.
Morfologická desambiguace je buď ruční či poloautomatická, nebo plně automatická. Automatická morfologická desambiguace se obecně provádí třemi způsoby: a) stochastická (statistická) desambiguace realizovaná na základě strojového učení (např. metodou skrytého markovského modelu), b) desambiguace založená na lingvistických pravidlech, která buď vytváří lingvista, nebo se automaticky vyvozují z textů, c) desambiguace hybridní, která spojuje výhody přístupů a) a b). Automatickou morfologickou desambiguaci provádí program zvaný tagger v užším smyslu.
Desambiguace syntaktická je součástí syntaktické analýzy, kdy se provádí desambiguace víceznačných syntaktických struktur. Např. v syntakticky víceznačné větě František hrál v altánu šachy se svým ruským přítelem. stanoví syntaktická desambiguace, že nominální skupina se svým ruským přítelem rozvíjí sloveso hrát jako jeho příslovečné určení, a nikoli např. substantivum altánu či šachy jako jejich přívlastek.
Podrobný postup celého procesu automatické anotace včetně údajů o míře úspěšnosti je popsán na příkladu korpusu SYN2020 na stránce automatická anotace korpusu SYN2020.
— V. Petkevič, V. Cvrček