AplikaceAplikace
Nastavení

Morfologická analýza

V rámci procesu automatického zpracovávání korpusu se morfologickou analýzou rozumí ta část, při níž se každému slovnímu tvaru v (korpusovém) textu přiřadí všechna jeho lemmata a všechny morfologické údaje včetně slovního druhu v podobě značky (tagu). Je-li tvar slovnědruhově a/nebo morfologicky homonymní, přiřadí mu morfologická analýza takových údajů více než jeden.

Například morfologická analýza věty Sním je místo něho. přiřadí jednotlivým slovním tvarům tyto údaje (v prvním sloupci je analyzovaný tvar, ve druhém lemma, ve třetím značka):

Sním sníst VB-S---1----P--
snít VB-S---1----I--
je být VB-S---3----I--
on PPNS4----------
oni PPMP4----------
oni PPIP4----------
oni PPFP4----------
oni PPNP4----------
místo místo Db-------------
místo NNNS1----------
místo NNNS4----------
místo NNNS5----------
místo RR--2----------
něho něha NNFS5----------
on P5MS2--3-------
on P5MS4--3-------
on P5IS2--3-------
on P5NS2--3-------
. . Z:-------------

Symboly ve značce mají tento význam:
1. pozice: slovní druh: V – sloveso, P – zájmeno, N – substantivum, D – příslovce, R – předložka, Z – interpunkce
2. pozice: poddruh slovního druhu: B – prézens, P – osobní zájmeno, N – apelativum, 5 - tvar os. zájmena po předložce, : - interpunkce, b - příslovce (nestupňovatelné)
3. pozice: jmenný rod: M – maskulinum životné, I – maskulinum neživotné. F – femininum, N – neutrum
4. pozice: číslo: S – singulár, P – plurál
5. pozice: pád: 1 – nominativ, 2 – genitiv, 4 – akuzativ, 5 – vokativ
6.-7. pozice: zde nevyužito
8. pozice: osoba: 1 – první, 3 – třetí
9.-12. pozice: zde nevyužito (hodnoty nahrazeny „-“)
13. pozice: vid: P – dokonavý, I – nedokonavý
14.-15. pozice: zde nevyužito

Morfologická analýza se provádí počítačovým programem, zvaným morfologický analyzátor, a je součástí morfologické anotace; na morfologickou analýzu obvykle navazuje lemmatizace a morfologická desambiguace. Výsledkem správné lemmatizace a morfologické desambiguace následující po morfologické analýze uvedené věty jsou interpretace označené tučně.

V korpusech ČNK se pro české texty používá tzv. „pražská“ morfologická analýza navržená na ÚFAL MFF UK pro Pražský závislostní korpus, s některými odlišnostmi specifickými pro ČNK. Verze 13ud paralelního korpusu InterCorp je morfologicky (a syntakticky) anotována alternativním způsobem podle zásad mezinárodního projektu Universal Dependencies.

Podrobný postup celého procesu automatické anotace včetně údajů o míře úspěšnosti je popsán na příkladu korpusu SYN2020 na stránce automatická anotace korpusu SYN2020.

V. Petkevič, V. Cvrček, T. Jelínek, J. Křivan

Související odkazy