AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Morfologická analýza

V rámci procesu automatického zpracovávání korpusu se morfologickou analýzou rozumí ta část, při níž se každému slovnímu tvaru v (korpusovém) textu přiřadí všechna jeho lemmata a všechny morfologické údaje včetně slovního druhu v podobě značky (tagu). Je-li tvar slovnědruhově a/nebo morfologicky homonymní, přiřadí mu morfologická analýza takových údajů více než jeden.

Například morfologická analýza věty Sním je místo něho. přiřadí jednotlivým slovním tvarům tyto údaje (v prvním sloupci je analyzovaný tvar, ve druhém lemma, ve třetím značka):

Sním sníst VpS--1d
snít VpS--1n
je být VpS--3n
ono PPSN4--
oni PPPM4--
ony PPPI4--
ony PPPF4--
ona PPPN4--
místo místo NNSN1--
místo R---2--
něho něha NNSF5--
on PPSM2--
on PPSM4--
on PPSI2--
ono PPSN2--
. . Z------

Symboly ve značce mají tento význam:

  1. pozice: slovní druh: V – sloveso, P – zájmeno, N – substantivum, R – předložka, Z – interpunkce
  2. pozice: poddruh slovního druhu: p – prézens, P – osobní zájmeno, N – apelativum
  3. pozice: číslo: S – singulár, P – plurál
  4. pozice: jmenný rod: M – maskulinum životné, I – maskulinum neživotné. F – femininum, N – neutrum
  5. pozice: pád: 1 – nominativ, 2 – genitiv, 4 – akuzativ, 5 – vokativ
  6. pozice: osoba: 1 – první, 3 – třetí
  7. pozice: vid: d – dokonavý, n – nedokonavý

Morfologická analýza se provádí počítačovým programem, zvaným morfologický analyzátor, a je součástí morfologické anotace, jejíž součástí je lemmatizace a morfologická desambiguace, operující obvykle na výsledku morfologické analýzy. Výsledkem správné lemmatizace a morfologické desambiguace následující po morfologické analýze uvedené věty jsou interpretace označené tučně.

Podrobný postup celého procesu automatické anotace včetně údajů o míře úspěšnosti je popsán na příkladu korpusu SYN2020 na stránce automatická anotace korpusu SYN2020.

V. Petkevič, V. Cvrček

Související odkazy