Nastavení

Anotace

Proces, při němž se ručně či automaticky připojují interpretační lingvistické, strukturní údaje a/nebo metatextové údaje k textovým datům korpusu. Lingvistickými údaji jsou například morfologické značky (tagy) přiřazované jednotlivým slovním tvarům, značky syntaktické, přiřazované slovním tvarům či jejich skupinám, nebo údaje sémantické, popř. další.

Při morfologické anotaci se danému slovnímu tvaru typicky přiřadí jeho lemma a hodnoty morfologických kategorií vč. slovního druhu (procesem morfologické analýzy, lemmatizace a morfologické disambiguace).

Rozsáhlé korpusy (větší než 1-2 mil. slov) se vždy anotují automaticky. Podrobný postup celého procesu automatické anotace včetně údajů o míře úspěšnosti je popsán na příkladu korpusu SYN2020 na stránce automatická anotace korpusu SYN2020.

Vedle anotace, která se vztahuje k jednotlivým pozicím (slovům) v korpusu (viz poziční atributy), existuje také anotace textů jako celků, které do korpusu vstupují. Tato anotace je pak přístupná k prohledávání ve formě strukturních atributů.

V. Petkevič, V. Cvrček, J. Křivan

Související odkazy