~~NOTOC~~
====== Anotační standard ČNK pro morfologii a lemmatizaci ======

ČNK používá v synchronních psaných korpusech (počínaje korpusy SYN2020 a SYN_v9, dále např. korpusy NET a ONLINE) i v mluvených korpusech (Ortofon_v3) jednotný anotační standard pro morfologické značkování a lemmatizaci. Anotační standard zahrnuje tokenizaci (vymezení tokenů v textu), lemmatizaci (základní, slovníkové tvary tokenů) a morfologické značkování včetně speciálních značek pro slovesné tvary.

==== Tokenizace ====

Numerické a interpunkční znaky jsou systematicky oddělovány jako samostatné tokeny (v místě rozdělení se anotuje struktura ''<g/>'', která tak uchovává informaci o toku původního textu), pohromadě však zůstávají některé kombinace znaků podle předem vymezených pravidel a seznamů slov (dohromady se tokenizují např. slova jako //česko-německý//, //wi-fi//, //r’n’b//, //Jang-c’-ťiang//, //CO2//, //12letý//). Tyto principy jsou představeny na stránce [[cnk:syn2020:tokenizace|tokenizace]].

==== Tokenizace, lemmatizace a značkování víceslovných tokenů (agregátů) ====

V anotačním standardu ČNK se zvláštním způsobem zachází se skupinou slov jako //nač//, //pročs// nebo //kdybychom//, která se píší jako jednou slovo, ale z pohledu syntaxe či určování gramatických kategorií se chovají jako slova dvě (výjimečně tři). Tato slova tokenizujeme jako jeden token, ale z hlediska morfologického značkování, lemmatizace (a v některých korpusech i syntaktického značkování) s nimi zacházíme jako s více slovy. Tyto tokeny tak dostávají dvě (popř. tři) lemmata, dvě morfologické značky atp.
Jedná se o kondicionálové spojky (//aby//, //kdyby//), spojení slov s příklonkou //s// (//dělalas//, //viděls//, //komus//, //vždyťs//), spojení předložek s některými zájmeny (//nač//, //očpak//, //zaň//), případně kombinace posledních dvou typů (//načs//). U každého z těchto slov se uvádějí současně dvě (případně tři) lemmata, sublemmata, tagy a verbtagy podle jejich jednotlivých částí. Podrobněji k agregátům na stránce [[cnk:syn2020:agregat|agregáty]]. V terminologii standardu [[https://universaldependencies.org/|Universal Dependencies]] se o těchto tokenech mluví jako o víceslovných tokenech, "multiword tokens".

==== Lemmatizace ====

Anotační standard používá **dvojúrovňovou lemmatizaci**: každý tvar má nyní vedle atributu **lemma** přiřazen i atribut **sublemma**. Zatímco lemma sdružuje i více variant jednoho slova (např. lemma //filozofie// reprezentuje všechny tvary s kořenem //filozof// i //filosof//), sublemmata vymezují podskupiny tvarů podle této variantnosti (sublemma //filozofie// reprezentuje jen tvary s kořenem //filozof//, sublemma //filosofie// jen tvary s kořenem //filosof//). Pokud je slovo nevariantní, sublemma je totožné s lemmatem (např. lemma //kniha// reprezentuje stejnou množinu tvarů jako sublemma //kniha//).

Jako **sublemmata** jsou řešeny různé typy variant (např. //mýdlo/mejdlo//, //okno/vokno//, //citron/citrón//, //email/e-mail//, //myslet/myslit//, //mýt/mejt//, //péci/péct/píct//, //kuchyně/kuchyň//, //antivirus/antivir//, //sedm/sedum//, //tenhle/tendle/tenle//, //ačkoli/ačkoliv//, propriální //Robert/Róbert/Roberto//, //Atény/Athény//) a jejich pomocí jsou odlišeny i některé specifické skupiny tvarů, které jsou tradičně zahrnuty pod jedním lemmatem (např. negované tvary u adjektiv a adverbií //černý/nečerný//, //hezky/nehezky//, jmenné tvary adjektiv //mladý/mlád//, supletivní tvary //dobře/lépe/líp//, //člověk/lidé//).

Podrobný popis je uveden na stránce [[cnk:syn2020:lemmatizace]].

==== Morfologické značkování (tag) ====

Morfologická značka (tag) má v Anotačním standardu ČNK **15 pozic**. Morfologické značky vycházejí ze značkování v Pražském závislostním korpusu [[https://ufal.mff.cuni.cz/pdt-c/publications/TR_PDT_C_morph_manual.pdf|PDT-C]], s řadou rozdílů daných odlišným pojetím, rozdíly v tokenizaci atp., především bylo přehodnoceno slovnědruhové zařazení některých slov a tvarů (především v oblasti číslovek, predikativ a jmenných tvarů adjektiv) a další rozdíly jsou na 2. pozici (detailní určení slovního druhu). Podrobný přehled morfologického značkování je uveden na stránce [[seznamy:tagy#popis_jednotlivych_pozic_aktualni_morfologicke_znacky|morfologické značky (tagy) a jejich hodnoty]].

==== Značkování sloves (verbtag) ====

Nová slovesná značka (verbtag) obsahuje morfologické informace o celém slovesném tvaru nezávisle na tom, zda se jedná o tvar složený (//viděl jsem//), nebo jednoduchý (//vidím//). Ve verbtagu se jednak odlišuje pomocné sloveso od plnovýznamového, jednak jsou u každého plnovýznamového tvaru slovesa dále uvedeny kategorie způsobu, slovesného rodu, osoby, čísla a času (platné pro celý slovesný tvar). Slovesná značka je uvedena u každého tokenu v korpusu, hodnoty nabývá ale jen u sloves (a s jednou výjimkou u deverbativních adjektiv). Kompletní představení je na stránce [[seznamy:verbtagy|značky gramatických kategorií slovesa (verbtagy) a jejich hodnoty]].