Morfologická analýza
V rámci procesu automatického zpracovávání korpusu se morfologickou analýzou rozumí ta část, při níž se každému slovnímu tvaru v (korpusovém) textu přiřadí všechna jeho lemmata a všechny morfologické údaje včetně slovního druhu v podobě značky (tagu). Je-li tvar slovnědruhově a/nebo morfologicky homonymní, přiřadí mu morfologická analýza takových údajů více než jeden.
Například morfologická analýza věty Sním je místo něho. přiřadí jednotlivým slovním tvarům tyto údaje (v prvním sloupci je analyzovaný tvar, ve druhém lemma, ve třetím značka):
Sním | sníst | VB-S---1----P-- |
snít | VB-S---1----I-- |
|
je | být | VB-S---3----I-- |
on | PPNS4---------- |
|
oni | PPMP4---------- |
|
oni | PPIP4---------- |
|
oni | PPFP4---------- |
|
oni | PPNP4---------- |
|
místo | místo | Db------------- |
místo | NNNS1---------- |
|
místo | NNNS4---------- |
|
místo | NNNS5---------- |
|
místo | RR--2---------- |
|
něho | něha | NNFS5---------- |
on | P5MS2--3------- |
|
on | P5MS4--3------- |
|
on | P5IS2--3------- |
|
on | P5NS2--3------- |
|
. | . | Z:------------- |
Symboly ve značce mají tento význam:
1. pozice: slovní druh: V – sloveso, P – zájmeno, N – substantivum, D – příslovce, R – předložka, Z – interpunkce
2. pozice: poddruh slovního druhu: B – prézens, P – osobní zájmeno, N – apelativum, 5 - tvar os. zájmena po předložce, : - interpunkce, b - příslovce (nestupňovatelné)
3. pozice: jmenný rod: M – maskulinum životné, I – maskulinum neživotné. F – femininum, N – neutrum
4. pozice: číslo: S – singulár, P – plurál
5. pozice: pád: 1 – nominativ, 2 – genitiv, 4 – akuzativ, 5 – vokativ
6.-7. pozice: zde nevyužito
8. pozice: osoba: 1 – první, 3 – třetí
9.-12. pozice: zde nevyužito (hodnoty nahrazeny „-“)
13. pozice: vid: P – dokonavý, I – nedokonavý
14.-15. pozice: zde nevyužito
Morfologická analýza se provádí počítačovým programem, zvaným morfologický analyzátor, a je součástí morfologické anotace; na morfologickou analýzu obvykle navazuje lemmatizace a morfologická desambiguace. Výsledkem správné lemmatizace a morfologické desambiguace následující po morfologické analýze uvedené věty jsou interpretace označené tučně.
V korpusech ČNK se pro české texty používá tzv. „pražská“ morfologická analýza navržená na ÚFAL MFF UK pro Pražský závislostní korpus, s některými odlišnostmi specifickými pro ČNK. Verze 13ud paralelního korpusu InterCorp je morfologicky (a syntakticky) anotována alternativním způsobem podle zásad mezinárodního projektu Universal Dependencies.
Podrobný postup celého procesu automatické anotace včetně údajů o míře úspěšnosti je popsán na příkladu korpusu SYN2020 na stránce automatická anotace korpusu SYN2020.
— V. Petkevič, V. Cvrček, T. Jelínek, J. Křivan