| Both sides previous revisionPrevious revisionNext revision | Previous revision |
| en:cnk:ortofon [2025/01/17 22:57] – [ORTOFON v3 (2024)] michalkren | en:cnk:ortofon [2026/01/23 11:47] (current) – [Morphological tagging of the ORTOFON corpus] krivan |
|---|
| ===== Morphological tagging of the ORTOFON corpus ===== | ===== Morphological tagging of the ORTOFON corpus ===== |
| |
| The ORTOFON v3 corpus is automatically [[en:pojmy:tag|annotated]] with [[en:cnk:syn2020#morphological_tagging|a new morphological tag]] according to the SYN2020 standard. It recognizes [[en:cnk:syn2020#multiple_lemmatization_and_tagging_aggregate|aggregates]] (e.g., //vidělas//, //zač//), uses [[en:cnk:syn2020|double-level lemmatization]], and has a verb tag ([[en:cnk:syn2020#verb_tagging_verbtag|verbtag]]). | The ORTOFON v3 corpus is automatically [[en:pojmy:tag|annotated]] with [[en:cnk:syn2020#morphological_tagging|a new morphological tag]] according to the [[en:cnk:anotacni_standard_cnk|unified CNC annotation scheme]]. It recognizes [[en:cnk:syn2020#multiple_lemmatization_and_tagging_aggregate|aggregates]] (e.g., //vidělas//, //zač//), uses [[en:cnk:syn2020|double-level lemmatization]], and has a verb tag ([[en:cnk:syn2020#verb_tagging_verbtag|verbtag]]). |
| |
| Substandard variants and forms typical of dialects and spontaneous speech are also tagged in the corpus. Special variants of words are distinguished by their own sublemma (e.g. //poslúchat// under the lemma //poslouchat//), special forms tagged only in the spoken corpus have the number 9 in the last tag position (e.g. the form //jezdijó// has the tag ''%%VB-P---3P-AAI-9%%''). | Substandard variants and forms typical of dialects and spontaneous speech are also tagged in the corpus. Special variants of words are distinguished by their own sublemma (e.g. //poslúchat// under the lemma //poslouchat//), special forms tagged only in the spoken corpus have the number 9 in the last tag position (e.g. the form //jezdijó// has the tag ''%%VB-P---3P-AAI-9%%''). |
| |
| <WRAP round tip 70%> | <WRAP round tip 70%> |
| | |
| | **Corpus as a language resource** |
| | |
| Lukeš, D. – Kopřivová, M. – Laubeová, Z. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J. – Waclawičová, M. – Benešová, L. – Škarpová, M.: //ORTOFON v3: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2024. Retrieved from: http://www.korpus.cz | Lukeš, D. – Kopřivová, M. – Laubeová, Z. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J. – Waclawičová, M. – Benešová, L. – Škarpová, M.: //ORTOFON v3: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2024. Retrieved from: http://www.korpus.cz |
| |
| |
| Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Retrieved from: http://www.korpus.cz | Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Retrieved from: http://www.korpus.cz |
| | |
| | **References** |
| |
| Komrsková, Z. – Kopřivová, M. – Lukeš, D. – Poukarová, P. – Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897. | Komrsková, Z. – Kopřivová, M. – Lukeš, D. – Poukarová, P. – Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897. |