Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:morfologicka_analyza [2021/01/14 14:49] – tomasjelinek | pojmy:morfologicka_analyza [2022/08/13 13:33] (aktuální) – [Morfologická analýza] alexandrrosen |
---|
|::: | on | ''<nowiki>PPNS4----------</nowiki>'' | | |::: | on | ''<nowiki>PPNS4----------</nowiki>'' | |
|::: | oni | ''<nowiki>PPMP4----------</nowiki>'' | | |::: | oni | ''<nowiki>PPMP4----------</nowiki>'' | |
|::: | **oni** | **''<nowiki>PPIP4--------</nowiki>''** | | |::: | **oni** | **''<nowiki>PPIP4----------</nowiki>''** | |
|::: | oni | ''<nowiki>PPFP4----------</nowiki>'' | | |::: | oni | ''<nowiki>PPFP4----------</nowiki>'' | |
|::: | oni | ''<nowiki>PPNP4----------</nowiki>'' | | |::: | oni | ''<nowiki>PPNP4----------</nowiki>'' | |
|místo | místo | ''<nowiki>NNNS1----------</nowiki>'' | | |místo | místo | ''<nowiki>Db-------------</nowiki>'' | |
|::: | **místo** | **''<nowiki>RR--2--------</nowiki>''** | | |::: | místo | ''<nowiki>NNNS1----------</nowiki>'' | |
|něho | něha | ''<nowiki>NNFS5--------</nowiki>'' | | |::: | místo | ''<nowiki>NNNS4----------</nowiki>'' | |
|::: | **on** | **''<nowiki>P5MS2--3-----</nowiki>''** | | |::: | místo | ''<nowiki>NNNS5----------</nowiki>'' | |
| |::: | **místo** | **''<nowiki>RR--2----------</nowiki>''** | |
| |něho | něha | ''<nowiki>NNFS5----------</nowiki>'' | |
| |::: | **on** | **''<nowiki>P5MS2--3-------</nowiki>''** | |
|::: | on | ''<nowiki>P5MS4--3-------</nowiki>'' | | |::: | on | ''<nowiki>P5MS4--3-------</nowiki>'' | |
|::: | on | ''<nowiki>PPIS2--3-------</nowiki>'' | | |::: | on | ''<nowiki>P5IS2--3-------</nowiki>'' | |
|::: | on | ''<nowiki>PPNS2--3-------</nowiki>'' | | |::: | on | ''<nowiki>P5NS2--3-------</nowiki>'' | |
|. | . | ''<nowiki>Z:-------------</nowiki>'' | | |. | . | ''<nowiki>Z:-------------</nowiki>'' | |
| |
Symboly ve značce mají tento význam:\\ | Symboly ve značce mají tento význam:\\ |
1. pozice: **slovní druh**: V – sloveso, P – zájmeno, N – substantivum, R – předložka, Z – interpunkce\\ | 1. pozice: **slovní druh**: V – sloveso, P – zájmeno, N – substantivum, D – příslovce, R – předložka, Z – interpunkce\\ |
2. pozice: **poddruh slovního druhu**: B – prézens, P – osobní zájmeno, N – apelativum, 5 - tvar os. zájmena po předložce, : - interpunkce\\ | 2. pozice: **poddruh slovního druhu**: B – prézens, P – osobní zájmeno, N – apelativum, 5 - tvar os. zájmena po předložce, : - interpunkce, b - příslovce (nestupňovatelné)\\ |
3. pozice: **jmenný rod**: M – maskulinum životné, I – maskulinum neživotné. F – femininum, N – neutrum\\ | 3. pozice: **jmenný rod**: M – maskulinum životné, I – maskulinum neživotné. F – femininum, N – neutrum\\ |
4. pozice: **číslo**: S – singulár, P – plurál\\ | 4. pozice: **číslo**: S – singulár, P – plurál\\ |
6.-7. pozice: zde nevyužito\\ | 6.-7. pozice: zde nevyužito\\ |
8. pozice: **osoba**: 1 – první, 3 – třetí\\ | 8. pozice: **osoba**: 1 – první, 3 – třetí\\ |
9.-12. pozice: zde nevyužito (hodnoty nahrazeny "-") | 9.-12. pozice: zde nevyužito (hodnoty nahrazeny "-")\\ |
13. pozice: vid: P – dokonavý, I – nedokonavý\\ | 13. pozice: **vid**: P – dokonavý, I – nedokonavý\\ |
14.-15. pozice: zde nevyužito\\ | 14.-15. pozice: zde nevyužito\\ |
| |
Morfologická analýza se provádí počítačovým programem, zvaným //morfologický analyzátor//, a je součástí morfologické anotace, jejíž součástí je lemmatizace a morfologická [[pojmy:desambiguace|desambiguace]], operující obvykle na výsledku morfologické analýzy. Výsledkem správné [[pojmy:lemma#lemmatizace|lemmatizace]] a morfologické desambiguace následující po morfologické analýze uvedené věty jsou interpretace označené **tučně**. | Morfologická analýza se provádí počítačovým programem, zvaným //morfologický analyzátor//, a je součástí morfologické anotace; na morfologickou analýzu obvykle navazuje lemmatizace a morfologická [[pojmy:desambiguace|desambiguace]]. Výsledkem správné [[pojmy:lemma#lemmatizace|lemmatizace]] a morfologické desambiguace následující po morfologické analýze uvedené věty jsou interpretace označené **tučně**. |
| |
| V korpusech ČNK se pro české texty používá tzv. "pražská" morfologická analýza navržená na ÚFAL MFF UK pro Pražský závislostní korpus, s některými odlišnostmi specifickými pro ČNK. Verze [[cnk:intercorp:verze13ud|13ud]] paralelního korpusu [[cnk:intercorp|InterCorp]] je morfologicky (a syntakticky) anotována alternativním způsobem podle zásad mezinárodního projektu [[pojmy:ud|Universal Dependencies]]. |
| |
Podrobný postup celého procesu automatické anotace včetně údajů o míře úspěšnosti je popsán na příkladu korpusu [[cnk:SYN2020|SYN2020]] na stránce [[cnk:SYN2020:automaticka_anotace|automatická anotace korpusu SYN2020]]. | Podrobný postup celého procesu automatické anotace včetně údajů o míře úspěšnosti je popsán na příkladu korpusu [[cnk:SYN2020|SYN2020]] na stránce [[cnk:SYN2020:automaticka_anotace|automatická anotace korpusu SYN2020]]. |
| |
--- //V. Petkevič, V. Cvrček// | --- //V. Petkevič, V. Cvrček, T. Jelínek, J. Křivan// |
| |
==== Související odkazy ==== | ==== Související odkazy ==== |