ČNK používá v synchronních psaných korpusech (počínaje korpusy SYN2020 a SYN_v9, dále např. korpusy NET a ONLINE) i v mluvených korpusech (Ortofon_v3) jednotný anotační standard pro morfologické značkování a lemmatizaci. Anotační standard zahrnuje tokenizaci (vymezení tokenů v textu), lemmatizaci (základní, slovníkové tvary tokenů) a morfologické značkování včetně speciálních značek pro slovesné tvary.
Numerické a interpunkční znaky jsou systematicky oddělovány jako samostatné tokeny (v místě rozdělení se anotuje struktura <g/>, která tak uchovává informaci o toku původního textu), pohromadě však zůstávají některé kombinace znaků podle předem vymezených pravidel a seznamů slov (dohromady se tokenizují např. slova jako česko-německý, wi-fi, r’n’b, Jang-c’-ťiang, CO2, 12letý). Tyto principy jsou představeny na stránce tokenizace.
V anotačním standardu ČNK se zvláštním způsobem zachází se skupinou slov jako nač, pročs nebo kdybychom, která se píší jako jednou slovo, ale z pohledu syntaxe či určování gramatických kategorií se chovají jako slova dvě (výjimečně tři). Tato slova tokenizujeme jako jeden token, ale z hlediska morfologického značkování, lemmatizace (a v některých korpusech i syntaktického značkování) s nimi zacházíme jako s více slovy. Tyto tokeny tak dostávají dvě (popř. tři) lemmata, dvě morfologické značky atp. Jedná se o kondicionálové spojky (aby, kdyby), spojení slov s příklonkou s (dělalas, viděls, komus, vždyťs), spojení předložek s některými zájmeny (nač, očpak, zaň), případně kombinace posledních dvou typů (načs). U každého z těchto slov se uvádějí současně dvě (případně tři) lemmata, sublemmata, tagy a verbtagy podle jejich jednotlivých částí. Podrobněji k agregátům na stránce agregáty. V terminologii standardu Universal Dependencies se o těchto tokenech mluví jako o víceslovných tokenech, „multiword tokens“.
Anotační standard používá dvojúrovňovou lemmatizaci: každý tvar má nyní vedle atributu lemma přiřazen i atribut sublemma. Zatímco lemma sdružuje i více variant jednoho slova (např. lemma filozofie reprezentuje všechny tvary s kořenem filozof i filosof), sublemmata vymezují podskupiny tvarů podle této variantnosti (sublemma filozofie reprezentuje jen tvary s kořenem filozof, sublemma filosofie jen tvary s kořenem filosof). Pokud je slovo nevariantní, sublemma je totožné s lemmatem (např. lemma kniha reprezentuje stejnou množinu tvarů jako sublemma kniha).
Jako sublemmata jsou řešeny různé typy variant (např. mýdlo/mejdlo, okno/vokno, citron/citrón, email/e-mail, myslet/myslit, mýt/mejt, péci/péct/píct, kuchyně/kuchyň, antivirus/antivir, sedm/sedum, tenhle/tendle/tenle, ačkoli/ačkoliv, propriální Robert/Róbert/Roberto, Atény/Athény) a jejich pomocí jsou odlišeny i některé specifické skupiny tvarů, které jsou tradičně zahrnuty pod jedním lemmatem (např. negované tvary u adjektiv a adverbií černý/nečerný, hezky/nehezky, jmenné tvary adjektiv mladý/mlád, supletivní tvary dobře/lépe/líp, člověk/lidé).
Podrobný popis je uveden na stránce lemmatizace.
Morfologická značka (tag) má v Anotačním standardu ČNK 15 pozic. Morfologické značky vycházejí ze značkování v Pražském závislostním korpusu PDT-C, s řadou rozdílů daných odlišným pojetím, rozdíly v tokenizaci atp., především bylo přehodnoceno slovnědruhové zařazení některých slov a tvarů (především v oblasti číslovek, predikativ a jmenných tvarů adjektiv) a další rozdíly jsou na 2. pozici (detailní určení slovního druhu). Podrobný přehled morfologického značkování je uveden na stránce morfologické značky (tagy) a jejich hodnoty.
Nová slovesná značka (verbtag) obsahuje morfologické informace o celém slovesném tvaru nezávisle na tom, zda se jedná o tvar složený (viděl jsem), nebo jednoduchý (vidím). Ve verbtagu se jednak odlišuje pomocné sloveso od plnovýznamového, jednak jsou u každého plnovýznamového tvaru slovesa dále uvedeny kategorie způsobu, slovesného rodu, osoby, čísla a času (platné pro celý slovesný tvar). Slovesná značka je uvedena u každého tokenu v korpusu, hodnoty nabývá ale jen u sloves (a s jednou výjimkou u deverbativních adjektiv). Kompletní představení je na stránce značky gramatických kategorií slovesa (verbtagy) a jejich hodnoty.