Toto je starší verze dokumentu!
Morfologická analýza
V rámci procesu automatického zpracovávání korpusu se morfologickou analýzou rozumí ta část, při níž se každému slovnímu tvaru v (korpusovém) textu přiřadí všechna jeho lemmata a všechny morfologické údaje včetně slovního druhu v podobě značky (tagu). Je-li tvar slovnědruhově a/nebo morfologicky homonymní, přiřadí mu morfologická analýza takových údajů více než jeden.
Například morfologická analýza věty Sním je místo něho. přiřadí jednotlivým slovním tvarům tyto údaje (v prvním sloupci je analyzovaný tvar, ve druhém lemma, ve třetím značka):
Sním | sníst | VpS--1d |
snít | VpS--1n |
|
je | být | VpS--3n |
ono | PPSN4-- |
|
oni | PPPM4-- |
|
ony | PPPI4-- |
|
ony | PPPF4-- |
|
ona | PPPN4-- |
|
místo | místo | NNSN1-- |
místo | R---2-- |
|
něho | něha | NNSF5-- |
on | PPSM2-- |
|
on | PPSM4-- |
|
on | PPSI2-- |
|
ono | PPSN2-- |
|
. | . | Z------ |
Symboly ve značce mají tento význam:
- pozice: slovní druh: V – sloveso, P – zájmeno, N – substantivum, R – předložka, Z – interpunkce
- pozice: poddruh slovního druhu: p – prézens, P – osobní zájmeno, N – apelativum
- pozice: číslo: S – singulár, P – plurál
- pozice: jmenný rod: M – maskulinum životné, I – maskulinum neživotné. F – femininum, N – neutrum
- pozice: pád: 1 – nominativ, 2 – genitiv, 4 – akuzativ, 5 – vokativ
- pozice: osoba: 1 – první, 3 – třetí
- pozice: vid: d – dokonavý, n – nedokonavý
Morfologická analýza se provádí počítačovým programem, zvaným morfologický analyzátor, a je součástí morfologické anotace, jejíž součástí je lemmatizace a morfologická desambiguace, operující obvykle na výsledku morfologické analýzy. Výsledkem správné lemmatizace a morfologické desambiguace následující po morfologické analýze uvedené věty jsou interpretace označené tučně.
Podrobný postup celého procesu automatické anotace včetně údajů o míře úspěšnosti je popsán na příkladu korpusu SYN2020 na stránce automatická anotace korpusu SYN2020.
— V. Petkevič, V. Cvrček