Nastavení

Toto je starší verze dokumentu!


Morfologická analýza

V rámci procesu automatického zpracovávání korpusu se morfologickou analýzou rozumí ta část, při níž se každému slovnímu tvaru v (korpusovém) textu přiřadí všechna jeho lemmata a všechny morfologické údaje včetně slovního druhu v podobě značky (tagu). Je-li tvar slovnědruhově a/nebo morfologicky homonymní, přiřadí mu morfologická analýza takových údajů více než jeden.

Například morfologická analýza věty Sním je místo něho. přiřadí jednotlivým slovním tvarům tyto údaje (v prvním sloupci je analyzovaný tvar, ve druhém lemma, ve třetím značka):

Sním sníst VB-S---1----P--
snít VB-S---1----I--
je být VB-S---3----I--
on PPNS4----------
oni PPMP4----------
oni PPIP4----------
oni PPFP4----------
oni PPNP4----------
místo místo NNNS1----------
místo RR--2----------
něho něha NNFS5--------
on P5MS2--3-------
on P5MS4--3-------
on PPIS2--3-------
on PPNS2--3-------
. . Z:-------------

Symboly ve značce mají tento význam:
1. pozice: slovní druh: V – sloveso, P – zájmeno, N – substantivum, R – předložka, Z – interpunkce
2. pozice: poddruh slovního druhu: B – prézens, P – osobní zájmeno, N – apelativum, 5 - tvar os. zájmena po předložce, : - interpunkce
3. pozice: jmenný rod: M – maskulinum životné, I – maskulinum neživotné. F – femininum, N – neutrum
4. pozice: číslo: S – singulár, P – plurál
5. pozice: pád: 1 – nominativ, 2 – genitiv, 4 – akuzativ, 5 – vokativ
6.-7. pozice: zde nevyužito
8. pozice: osoba: 1 – první, 3 – třetí
9.-12. pozice: zde nevyužito (hodnoty nahrazeny „-“) 13. pozice: vid: P – dokonavý, I – nedokonavý
14.-15. pozice: zde nevyužito

Morfologická analýza se provádí počítačovým programem, zvaným morfologický analyzátor, a je součástí morfologické anotace, jejíž součástí je lemmatizace a morfologická desambiguace, operující obvykle na výsledku morfologické analýzy. Výsledkem správné lemmatizace a morfologické desambiguace následující po morfologické analýze uvedené věty jsou interpretace označené tučně.

Podrobný postup celého procesu automatické anotace včetně údajů o míře úspěšnosti je popsán na příkladu korpusu SYN2020 na stránce automatická anotace korpusu SYN2020.

V. Petkevič, V. Cvrček

Související odkazy