====== Morfologická analýza ====== V rámci procesu automatického zpracovávání korpusu se morfologickou analýzou rozumí ta část, při níž se každému slovnímu tvaru v (korpusovém) textu přiřadí všechna jeho [[pojmy:lemma|lemmata]] a všechny morfologické údaje včetně slovního druhu v podobě značky ([[pojmy:tag|tagu]]). Je-li tvar slovnědruhově a/nebo morfologicky homonymní, přiřadí mu morfologická analýza takových údajů více než jeden. Například morfologická analýza věty //Sním je místo něho.// přiřadí jednotlivým slovním tvarům tyto údaje (v prvním sloupci je analyzovaný tvar, ve druhém lemma, ve třetím značka): |Sním | **sníst** | **''VB-S---1----P--''** | |::: | snít | ''VB-S---1----I--'' | |je | být | ''VB-S---3----I--'' | |::: | on | ''PPNS4----------'' | |::: | oni | ''PPMP4----------'' | |::: | **oni** | **''PPIP4----------''** | |::: | oni | ''PPFP4----------'' | |::: | oni | ''PPNP4----------'' | |místo | místo | ''Db-------------'' | |::: | místo | ''NNNS1----------'' | |::: | místo | ''NNNS4----------'' | |::: | místo | ''NNNS5----------'' | |::: | **místo** | **''RR--2----------''** | |něho | něha | ''NNFS5----------'' | |::: | **on** | **''P5MS2--3-------''** | |::: | on | ''P5MS4--3-------'' | |::: | on | ''P5IS2--3-------'' | |::: | on | ''P5NS2--3-------'' | |. | . | ''Z:-------------'' | Symboly ve značce mají tento význam:\\ 1. pozice: **slovní druh**: V – sloveso, P – zájmeno, N – substantivum, D – příslovce, R – předložka, Z – interpunkce\\ 2. pozice: **poddruh slovního druhu**: B – prézens, P – osobní zájmeno, N – apelativum, 5 - tvar os. zájmena po předložce, : - interpunkce, b - příslovce (nestupňovatelné)\\ 3. pozice: **jmenný rod**: M – maskulinum životné, I – maskulinum neživotné. F – femininum, N – neutrum\\ 4. pozice: **číslo**: S – singulár, P – plurál\\ 5. pozice: **pád**: 1 – nominativ, 2 – genitiv, 4 – akuzativ, 5 – vokativ\\ 6.-7. pozice: zde nevyužito\\ 8. pozice: **osoba**: 1 – první, 3 – třetí\\ 9.-12. pozice: zde nevyužito (hodnoty nahrazeny "-")\\ 13. pozice: **vid**: P – dokonavý, I – nedokonavý\\ 14.-15. pozice: zde nevyužito\\ Morfologická analýza se provádí počítačovým programem, zvaným //morfologický analyzátor//, a je součástí morfologické anotace; na morfologickou analýzu obvykle navazuje lemmatizace a morfologická [[pojmy:desambiguace|desambiguace]]. Výsledkem správné [[pojmy:lemma#lemmatizace|lemmatizace]] a morfologické desambiguace následující po morfologické analýze uvedené věty jsou interpretace označené **tučně**. V korpusech ČNK se pro české texty používá tzv. "pražská" morfologická analýza navržená na ÚFAL MFF UK pro Pražský závislostní korpus, s některými odlišnostmi specifickými pro ČNK. Verze [[cnk:intercorp:verze13ud|13ud]] paralelního korpusu [[cnk:intercorp|InterCorp]] je morfologicky (a syntakticky) anotována alternativním způsobem podle zásad mezinárodního projektu [[pojmy:ud|Universal Dependencies]]. Podrobný postup celého procesu automatické anotace včetně údajů o míře úspěšnosti je popsán na příkladu korpusu [[cnk:SYN2020|SYN2020]] na stránce [[cnk:SYN2020:automaticka_anotace|automatická anotace korpusu SYN2020]]. --- //V. Petkevič, V. Cvrček, T. Jelínek, J. Křivan// ==== Související odkazy ==== [[pojmy:desambiguace|Desambiguace]] • [[pojmy:lemma|Lemmatizace]] • [[pojmy:tag|Tagování]] • [[pojmy:anotace|Anotace]] • [[cnk:SYN2020:automaticka_anotace|Automatická anotace SYN2020]]