====== Morfologická analýza ======
V rámci procesu automatického zpracovávání korpusu se morfologickou analýzou rozumí ta část, při níž se každému slovnímu tvaru v (korpusovém) textu přiřadí všechna jeho [[pojmy:lemma|lemmata]] a všechny morfologické údaje včetně slovního druhu v podobě značky ([[pojmy:tag|tagu]]). Je-li tvar slovnědruhově a/nebo morfologicky homonymní, přiřadí mu morfologická analýza takových údajů více než jeden.
Například morfologická analýza věty //Sním je místo něho.// přiřadí jednotlivým slovním tvarům tyto údaje (v prvním sloupci je analyzovaný tvar, ve druhém lemma, ve třetím značka):
|Sním | **sníst** | **''VB-S---1----P--''** |
|::: | snít | ''VB-S---1----I--'' |
|je | být | ''VB-S---3----I--'' |
|::: | on | ''PPNS4----------'' |
|::: | oni | ''PPMP4----------'' |
|::: | **oni** | **''PPIP4----------''** |
|::: | oni | ''PPFP4----------'' |
|::: | oni | ''PPNP4----------'' |
|místo | místo | ''Db-------------'' |
|::: | místo | ''NNNS1----------'' |
|::: | místo | ''NNNS4----------'' |
|::: | místo | ''NNNS5----------'' |
|::: | **místo** | **''RR--2----------''** |
|něho | něha | ''NNFS5----------'' |
|::: | **on** | **''P5MS2--3-------''** |
|::: | on | ''P5MS4--3-------'' |
|::: | on | ''P5IS2--3-------'' |
|::: | on | ''P5NS2--3-------'' |
|. | . | ''Z:-------------'' |
Symboly ve značce mají tento význam:\\
1. pozice: **slovní druh**: V – sloveso, P – zájmeno, N – substantivum, D – příslovce, R – předložka, Z – interpunkce\\
2. pozice: **poddruh slovního druhu**: B – prézens, P – osobní zájmeno, N – apelativum, 5 - tvar os. zájmena po předložce, : - interpunkce, b - příslovce (nestupňovatelné)\\
3. pozice: **jmenný rod**: M – maskulinum životné, I – maskulinum neživotné. F – femininum, N – neutrum\\
4. pozice: **číslo**: S – singulár, P – plurál\\
5. pozice: **pád**: 1 – nominativ, 2 – genitiv, 4 – akuzativ, 5 – vokativ\\
6.-7. pozice: zde nevyužito\\
8. pozice: **osoba**: 1 – první, 3 – třetí\\
9.-12. pozice: zde nevyužito (hodnoty nahrazeny "-")\\
13. pozice: **vid**: P – dokonavý, I – nedokonavý\\
14.-15. pozice: zde nevyužito\\
Morfologická analýza se provádí počítačovým programem, zvaným //morfologický analyzátor//, a je součástí morfologické anotace; na morfologickou analýzu obvykle navazuje lemmatizace a morfologická [[pojmy:desambiguace|desambiguace]]. Výsledkem správné [[pojmy:lemma#lemmatizace|lemmatizace]] a morfologické desambiguace následující po morfologické analýze uvedené věty jsou interpretace označené **tučně**.
V korpusech ČNK se pro české texty používá tzv. "pražská" morfologická analýza navržená na ÚFAL MFF UK pro Pražský závislostní korpus, s některými odlišnostmi specifickými pro ČNK. Verze [[cnk:intercorp:verze13ud|13ud]] paralelního korpusu [[cnk:intercorp|InterCorp]] je morfologicky (a syntakticky) anotována alternativním způsobem podle zásad mezinárodního projektu [[pojmy:ud|Universal Dependencies]].
Podrobný postup celého procesu automatické anotace včetně údajů o míře úspěšnosti je popsán na příkladu korpusu [[cnk:SYN2020|SYN2020]] na stránce [[cnk:SYN2020:automaticka_anotace|automatická anotace korpusu SYN2020]].
--- //V. Petkevič, V. Cvrček, T. Jelínek, J. Křivan//
==== Související odkazy ====
[[pojmy:desambiguace|Desambiguace]] • [[pojmy:lemma|Lemmatizace]] • [[pojmy:tag|Tagování]] • [[pojmy:anotace|Anotace]] • [[cnk:SYN2020:automaticka_anotace|Automatická anotace SYN2020]]