====== UD anotace staročeského a středněčeského etalonu ======

Vychází se jednak z anotačních pravidel UD (a to jak obecných, tak těch specifických pro slovanské jazyky a češtinu), jednak ze zkušeností z pilotního projektu v roce 2022 (anotace Matoušova evangelia z Bible drážďanské a olomoucké). K tomu externí odkazy:

  * [[https://universaldependencies.org/cs/pos/|Obecné informace k anotaci slovních druhů (POS) v českých UD]]
  * [[https://universaldependencies.org/cs/feat/|Obecné informace k anotování morfologických rysů (features) v českých UD]]
  * [[https://drive.google.com/drive/folders/1ZyJIrzt9VrpCbUHwyrVTvfNHBqnyLvsQ|Google disk projektu Matouš]]

===== Odkazy na stránky s evidencí nejasností/problémů =====

  * [[hickok:problemy_tokenizace|problémy s tokenizací]]
  * [[hickok:problemy_morfologie|problémy s morfologickou anotací]]
  * [[hickok:problemy_lemmatizace|problémy s lemmatizací]]

===== Anotační nástroje a formát souboru =====

[[hickok:anotace_v_tabulkovem_procesoru|Návod, jak anotovat v tabulkovém procesoru]]

[[hickok:poskozene_texty|Pravidla pro anotaci poškozených textů]]

===== Slovní druhy =====

==== Substantiva ====

Rozlišují se **obecná** (''NOUN'') a **vlastní** (''PROPN''). Slovo, které je hlavou nebo prvním slovem víceslovného jména, není automaticky ''PROPN'' (ale může jím být i ''PROPN''). Např. ve výrazu //Univerzita Karlova// má mít slovo //Univerzita// značku ''NOUN''. Zahrnují i slovesná podstatná jména; ta se od běžných odliší rysem ''VerbForm=Vnoun''.

**Substantivizovaná adjektiva** (např. //kajúcí//) jsou anotována jako **adjektiva** (POS=ADJ). Výjimkou jsou taková substantiva s adjektivní formou, která už v současné češtině nemohou vůbec fungovat jako adjektiva, např. //průvodčí//, pouze ta se značkují jako substantiva (POS=NOUN).

==== Adjektiva ====

Zahrnují dlouhé i krátké tvary.

U krátkých (jmenných) forem adjektiv anotovat stupeň i pád, jako lemma vždy uvádět dlouhou formu.

Za adjektiva se pokládají také všechny (dlouhé i krátké) tvary **trpných** (tj. N-ových/T-ových) **příčestí**. (Naproti tomu L-ová příčestí zůstávají zahrnuta pod slovesy.) Příčestí se od běžných adjektiv odliší pomocí rysu ''VerbForm=Part'' a případně dalších slovesných rysů (''Aspect'', ''Voice'', ''Tense''). U příčestí anotovat pád, rod i životnost.

Značku ''ADJ'' mají také **řadové číslovky** typu //první, druhý, třetí//, od běžných adjektiv se odliší pomocí rysu ''NumType=Ord''.

==== Zájmena ====

V UD se rozlišují pronouns ''PRON'' a determiners ''DET''. Ve slovanských jazycích se sice kategorie determinátoru tradičně nepoužívá, ale v UD slovanských jazyků se tato značka využívá (zneužívá?) k rozlišení zájmen, která se //mohou// chovat podobně jako adjektiva, od těch ostatních. Schopností chovat se jako adjektiva se myslí rozvití nějakého substantiva a morfologické vyjádření shody s ním. Ve výsledku jde přibližně o zájmena, která rozlišují rod, ale neplatí to beze zbytku – např. osobní zájmena //on, ona, ono// jsou ''PRON'', i když rozlišují rod. Značku ''DET'' dostanou bez ohledu na to, zda v dané větě opravdu rozvíjejí nějaké substantivum; může se proto stát, že ''DET'' se objeví v pozici podmětu nebo předmětu (např. u zájmen //to, který, každý//).

U **nesklonných posesivních zájmen** //jeho//, //jejich// a //jich// se pád, číslo a rod+životnost anotují, a to podle shody/smyslu. Totéž už zájmena //jejie/její//, přičemž je lhostejné, jestli je nesklonné, nebo není.

**Zájmena typu //kdo, co, který//** mohou být podle kontextu Int, Rel nebo Ind. Ind jsou tehdy, pokud je můžeme nahradit výrazy typu //někdo, něco, některý//. Mezi Int a Rel rozlišujeme tak, že za Int se to pokládá jen v přímých otázkách (v hlavní větě, s otazníkem), naopak v souvětích vždy Rel (např. i nevím/ptám se, kdo přišel. 

**Forma //ješto//** – pokud je to ve funkci vztažného zájmena (PRON), lemmatizujeme jako //jenžto//. Kromě toho se může jednat i o vztažné příslovce (ADV) nebo o podřadicí spojku (SCONJ), v obou těchto případech lemmatizujeme jako //ježto// (protože je to neohebné). U zájmen s lemmatem //jenž// a //jenžto// anotujeme pád, číslo i rod+životnost bez ohledu na sklonnost/nesklonnost, pouze v případě přítomnosti resumptivního zájmena se tyto rysy neanotují (viz též tabulku dole).

  * Důvod tohoto postupu je ten, že v případě přítomnosti resumptivního zájmena jsou pád, číslo a rod vyjádřeny právě tím resumptivním zájmenem, zatímco samotné //ješto// (stejně jako //co//, případně i //jenž//, které se tak taky někdy ve staré češtině chovalo) tyhle kategorie formálně nijak nevyjadřuje, tj. má ve všech případech stejnou formu. Diskutovala se v zásadě tři možná řešení, přičemž dvě z nich nám přišla nevyhovující. Jedno z nich bylo, že se pád bude anotovat podle syntaktického kontextu, což by znamenalo, že např. ve struktuře "setkal se s člověkem, co/jenž/ješto jsem mu to dal" bude u co/jenž/ješto anotován dativ, což se nám nelíbilo, protože to znamená tvrdit, že např. //co// je dativní forma, tj. tohle řešení není vyhovující formálně. Druhé řešení bylo, že se v těchto případech u toho co/jenž/ješto bude anotovat nominativ. To odpovídá formálně, ale zase ne syntakticky, protože v té příkladové struktuře žádný prostor pro nominativ není. Proto vyšlo jako nejlepší to třetí řešení, tedy tyto kategorie tam vůbec neanotovat. Nejenže tam nic s ničím pak nekoliduje, ale zároveň to odpovídá i té jazykové realitě, že prostě jsou tyto kategorie vyjadřovány jinde (tj. na tom resumptivním zájmenu).

**Zájmeno //sám/samý//**: vždy PronType=Emp a vždy lemma //sám//; krátká forma //sám// je odlišena tagem "Short"
==== Číslovky ====

  * základní (//jeden, dva, tři//) POS=NUM, NumType=Card
  * řadové
    * (//první, druhý, třetí//) POS=ADJ, NumType=Ord
    * (//poprvé, podruhé, potřetí//) POS=ADV, NumType=Ord (stejně i //prvé//, //druhé// v adverbiální funkci)
  * násobné
    * typu //-krát// POS=ADV, NumType=Mult
    * //dvojí, trojí, čtverý, obojí// POS=ADJ, NumType=Mult
  * druhové
    * //jedny, dvoje, troje, čtvery, oboje// POS=NUM, NumType=Sets
    * //čtvero, patero, desatero, dvé, tré, obé// POS=NUM, NumType=Card
  * NumType=Frac je teoreticky použitelné pro zlomky typu //-ina// (jmenovatel), ale v současných UD se používá nekonzistentně ([[https://github.com/UniversalDependencies/docs/issues/884#issuecomment-1193721487|viz diskusi zde]] a [[https://github.com/UniversalDependencies/docs/issues/1205|zde]]). Ve shodě s anotací v PDT-C budeme jmenovatele na //-ina// anotovat jako substantiva.
  * Výrazy jako //jednička, dvojka, trojka; dvojice, trojice// se považují za substantiva (POS=NOUN, žádný NumType), totéž platí pro výrazy typu //pět// (s významem pětice) v substantivní funkci (typ //neb tu pět k němu provrhu//).
  * Zájmenné číslovky (např. neurčité //několik, mnoho, málo, hodně// (komparativ //víc//); //několikátý; několikery; několikerý// ukazovací //tolik; tolikátý; tolikerý// tázací/vztažné //kolik; kolikátý; kolikerý// jsou POS=DET, mají vyplněný PronType i NumType.
  * Zájmenné příslovečné číslovky //(několikrát, poněkolikáté, tolikrát, potolikáté, kolikrát, pokolikáté)// jsou POS=ADV, mají vyplněný PronType i NumType.
  * Výraz //nejeden// má lemma "nejeden", POS=DET a polarita se neanotuje.

==== Slovesa ====

Slovesa **//být, bývat, bývávat//**: POS=AUX (vždy!). Kondicionálové //by, bych, bys, bychom, byste// se považuje za tvar lemmatu //být//. Všechna ostatní slovesa (včetně modálních) jsou POS=VERB (s výjimkou některých druhů příčestí, které se anotují a lemmatizují jako ADJ).

**Trpná participia** (N-ová a T-ová) (tj. trpná) příčestí jsou vždy POS=ADJ (ale VerbForm=Part) bez ohledu na to, zda jde o krátký nebo dlouhý tvar. Anotuje se u nich pád.

**L-ová participia** jsou POS=VERB (a VerbForm=Part)

**NT-ová participia** ("přítomné přechodníky"): POS=VERB, VerbForm=Conv, Tense=Pres; pád se neanotuje; číslo se anotuje podle významu (duál s přihlédnutím ke kontextu, tj. podle přítomnosti jasně duálového tvaru, viz níže); rod se anotuje pouze v singuláru, a to podle významu, nikoli podle formy

**S-ová participia** ("minulé přechodníky"): POS=VERB, VerbForm=Conv, Tense=Past; pád se neanotuje; číslo se anotuje podle významu (duál s přihlédnutím ke kontextu, tj. podle přítomnosti jasně duálového tvaru, viz níže); rod se anotuje pouze v singuláru, a to podle významu, nikoli podle formy

**Imperfektum**: VerbForm=Fin, Tense=Imp

**Aorist**: VerbForm=Fin, Tense=Past, Variant=Long (sigmatický) / Short (asigmatický) (u sloves majících oba typy aoristu se tvary 2. a 3. sg. typu //nese// pokládají pouze za asigmatický)

**Prézentní tvar dokonavých sloves**: Tense=Pres

**Verbální substantiva** (zakočená //-nie/-tie//) jsou POS=NOUN a VerbForm=Vnoun

** Verbální adjektiva** (typu //dělající, udělavší//) jsou POS=ADJ a VerbForm=Part

==== Předložky ====

**Předložka //v// realizovaná jako //u//**: Lemma="u"; PrepType=Voc; pád buď Acc, nebo Loc dle kontextu

==== Částice ====

Cílem je používat je v UD spíše méně. Slova vyjadřující postoj autora ke sdělení věty (např. //bohužel//) jsou anotována jako příslovce (POS=ADV). Částice jsou tak trochu negativně definovaná kategorie: Co se nedá dát rozumně jinam, skončí tady. Současně ale pravidla UD předpokládají, že pro každý jazyk bude v dokumentaci vyjmenováno, která slova dostávají POS=PART a proč.

  * Morfém negace //ne//, pokud je psaný zvlášť (např. //ne dohromady//), je POS=PART. Ale! Ve funkci odpovědi na otázku mají být //ano// i //ne// označkované jako POS=INTJ! V současných českých UD je ovšem toto pravidlo porušeno, takže ani UDPipe se ho nemohl naučit dodržovat.
  * Výraz //koli// psaný zvlášť: POS=PART (částice). Ale pokud se píše dohromady //kdokoli, cokoli, kterýkoli,// pak to celé dostane značku PRON nebo DET.
  * Příklonka //ť// (utržená např. ze slov //žeť, jáť//) je POS=PART.
  * Výrazy //li//, //zdali// jsou částice, pokud jsou v přímé otázce (tj. hlavní větě). V závislé větě jde o spojku (SCONJ/CCONJ). 

==== Cizí slova ====

Zde máme na mysli nikoli slova přejatá z cizího jazyka (s těmi se zachází jako s každým jiným českým slovem), ale střídání kódů, tedy slova nebo fráze v cizím jazyce (např. v latině), která se ocitla uvnitř českého textu. UD umožňují [[https://universaldependencies.org/foreign.html|několik přístupů]], jak s takovým materiálem naložit. Na jednom konci škály je možnost anotovat cizí text podle gramatiky a anotačních pravidel cizího jazyka, na druhém konci pak možnost říct, že daný segment do hlavního jazyka textu nepatří, a více se jím nezabývat. My se přidržíme této druhé možnosti: **Lemma je identické se slovním tvarem** (převedným na malá písmena, u vlastních jmen dáváme první velké)**, značka UPOS je ''X'', nejsou vyplněny žádné morfologické rysy s výjimkou ''Foreign=Yes''.** <fc #ff0000>Ještě se musíme dohodnout, zda chceme ve sloupci MISC uchovávat kód jazyka (např. ''OrigLang=la'' pro latinu).</fc> Pravidla, jak rozhodnout, jestli je slovo ještě cizí, nebo už přejaté do češtiny, bude asi nutné v průběhu anotace dopracovat; zatím lze říct následující:

  * Má-li slovo tvar ovlivněný českou morfologií, jde o slovo přejaté.
  * Je-li dotyčné slovo rozvité českým slovem (např. sporné substantivum je rozvité českým adjektivem), můžeme to asi chápat jako signál, že i řídící slovo je přejaté do češtiny.
  * S osobními a místními vlastními jmény zpravidla zacházíme jako s přejatými do češtiny, i když mají původ v cizím jazyce.
  * Naopak název díla nebo organizace může být fráze v cizím jazyce, se kterou pak budeme zacházet jako s cizím segmentem.
  * Věty a delší fráze, které jsou citáty z cizojazyčných textů, jsou asi tím nejjasnějším příkladem materiálu, se kterým se má zacházet jako s cizím.

Interpunkce zůstává interpunkcí, i pokud je obklopena cizojazyčným textem, tedy značka UPOS je ''PUNCT'' a rys ''Foreign=Yes'' se nedává.
===== Gramatické kategorie =====

==== Rod ====

**Nejednoznačné tvary** se rozlišují podle kontextu, např. pro adjektivum //velikému// je třeba rozhodnout mezi maskulinem a neutrem (tedy nenechat tam ''Gender=Masc,Neut'', i kdyby to UDPipe navrhl).

U **přechodníků** se rod anotuje pouze v singuláru, a to podle významu, ne formy.

Pokud jméno **kolísá v rodě** a není rod jasný z kontextu, vycházet z hierarchie ''Masc'' > ''Fem'' > ''Neut''.

==== Životnost ====

Rozlišuje se ve všech případech, kdy je anotován mužský rod. U jiných rodů nebo bezrodých slov se nerozlišuje.

U substantiv se životnost rozlišuje podle stavu v současné češtině. U jiných slovních druhů postupovat podle toho, jaké substantivum rovíjejí/zastupují, s výjimkou případů, kdy mají příznakově opačný tvar, než by tomu substantivu odpovídalo (pozor, v těchto případech může mít například přívlastek jinou hodnotu životnosti než jeho řídící substantivum!). Podrobnější [[hickok:zivotnost|rozbor zde]].

==== Číslo ====

Používáme pouze Sing, Dual a Plur. Vůbec tedy nepracujeme s hodnotami Coll, Ptan.

Nejednoznačné tvary se rozlišují podle kontextu, např. pro adjektivum //veliké// je třeba rozhodnout mezi singulárem (neutra) a plurálem (feminina, resp. neživotného maskulina).

**Duál:** ''Number=Dual'', anotováno podle formy buď slova samotného nebo jeho okolí. Jde o to rozlišit případy, kdy se ještě duál používal a kdy už ne; čili nebudeme anotovat duál jen proto, že víme, že se mluví o dvou entitách; v novočeských datech to taky neděláme. V novočeských datech se duál anotuje pouze u instrumentálu párových orgánů //(očima, ušima, rukama, nohama)// a dále adjektiv (a determinátorů), která s nimi vyjadřují shodu a používají k tomu koncovku //-ýma//.

  * Pokud jde o tvar specifický pro duál, anotovat jako duál.
  * Pokud jde o tvar společný pro duál a plurál (u přechodníků, někdy též u substantiv stažených deklinačních typů, případně i jinde), ale z okolního kontextu je zřejmé, že autor by duál použil (např. jde o přechodník odkazující na entitu, na kterou někde jinde v okolí autor odkazuje tvarem jasně duálovým), anotovat jako duál.
  * V ostatních případech anotovat jako plurál.

==== Pád ====

U slov, u kterých se očekává neprázdná hodnota rysu ''Case'', se nejednoznačné tvary zjednoznačňují podle kontextu. Pokud kontext není jednoznačný, rozhodujeme se primárně podle situace ve zbytku textu, je-li to možné.

==== Gender[psor] ====

Zjednoznačňujeme podle významu (tj. u "jeho" rozlišováno mezi maskulinem a neutrem, což UDPipe nedělal).

==== Vid ====

U **obouvidových sloves** anotujeme vid tam, kde je z kontextu jasný. Pokud z kontextu jasný není, tak ho nevyplňujeme. (Na to, kdy je to jasné a kdy ne, ale můžou být různé názory.) Pokud nejde o obouvidové sloveso, ale o dvě homonymní slovesa lišící se videm (tj. při změně vidu se podstatně mění i význam, např. //hoditi//), vid se normálně anotuje. 

==== Polarity ====

Řešíme takto (tvar-lemma-tag) takto: 1) substantiva: nepřítel-nepřítel-v tagu se nic neznačí; 2) slovesa: nekoupí-koupit-negace součástí tagu; 3) adjektiva a adverbia (odvozená od adjektiv): nevelký-velký-negace součástí tagu (stejně jako u sloves).

U substantiv se tedy s touto kategorií nepracuje (a to ani u substantiv verbálních), u substantiv začínajících na //ne-// je tento prefix i v lemmatu. Naopak u sloves, adjektiv a deadjektivních adverbií mají záporné tvary Polarity=Neg a je lemma bez záporky.
===== Vyžadované a povolené rysy u jednotlivých druhů slov =====

Povinné rysy (sloupce v tabulce) musí mít pro daný slovní druh neprázdnou hodnotu (jednu z povolených). Když je uvedeno Gender+Animacy, znamená to, že životnost je povinná pro Gender=Masc a zakázaná pro ostatní rody.

^ Slovní druh ^ Povinné rysy ^ Volitelné rysy |
| X Cizí slovo                    | Foreign=Yes | |
| NOUN Podstatné jméno obecné        | Gender+Animacy, Number, Case| |
| NOUN Podstatné jméno slovesné (-ní, -nie, -tí, -tie) | VerbForm=Vnoun, Gender=Neut, Number, Case | |
| PROPN Vlastní jméno                 | Gender+Animacy, Number, Case | NameType |
| ADJ Přídavné jméno (dlouhý tvar)  | Gender+Animacy, Number, Case, Degree, Polarity | |
| ADJ Přídavné jméno (krátký tvar)  | Variant=Short, Gender+Animacy, Number, Case, Degree, Polarity  | |
| ADJ Přídavné jméno přivlastňovací | Poss=Yes, Gender[psor], Gender+Animacy, Number, Case | NameType (pokud je odvozeno z vlastního jména) |
| ADJ Řadová číslovka adjektivní ("druhý")  | NumType=Ord, Gender+Animacy, Number, Case | |
| ADJ Násobná číslovka adjektivní ("dvojí") | NumType=Mult, Gender+Animacy, Number, Case | |
| ADJ Dlouhý tvar činného příčestí (-cí, -ší) (nikoli -lý, taky to neplatí pro složeniny typu //všemohúcí//) | VerbForm=Part, Voice=Act, Aspect, Tense, Gender+Animacy, Number, Case, Polarity | |
| ADJ Dlouhý tvar trpného příčestí (-ný, -tý) | VerbForm=Part, Voice=Pass, Aspect, Gender+Animacy, Number, Case, Degree, Polarity | |
| ADJ Krátký tvar trpného příčestí (-n, -t) | VerbForm=Part, Voice=Pass, Variant=Short, Aspect, Gender+Animacy, Number, Case, Degree (asi vždy =Pos), Polarity | |
| PRON Zájmeno osobní v 1. nebo 2. osobě | PronType=Prs, Person, Number, Case | Variant=Short (klitika: pouze pro tvary //mě, mi, tě, ti//) |
| PRON Zájmeno osobní ve 3. osobě   | PronType=Prs, Person=3, Gender+Animacy, Number, Case | Variant=Short (klitika: pouze pro tvary //ho, mu//), PrepCase (povinné pro rozlišení "jeho/něho", nepoužívá se pro "on") |
| PRON Zájmeno zvratné              | PronType=Prs, Reflex=Yes, Case | Variant=Short (klitika: pouze pro tvary //se, si//) |
| PRON Zájmeno typu "kdo, kdož, někdo, nikdo" | PronType, Gender=Masc, Animacy=Anim, Case | |
| PRON Zájmeno typu "co, což, něco, nic" | PronType, Case | |
| PRON Zájmeno typu "jenž, jenžto"  | PronType=Rel, Gender+Animacy, Number, Case, PrepCase (jen v případě přítomnosti resumptivního zájmena se neanotují pád, číslo, rod+životnost) | |
| PRON Zájmeno typu "an"            | PronType=Rel, Gender+Animacy, Number, Case=Nom | |
| DET Zájmeno přivlastňovací v 1. nebo 2. osobě ("můj, tvůj") | PronType=Prs, Poss=Yes, Person, Number[psor], Gender+Animacy, Number, Case | |
| DET Zájmeno přivlastňovací ve 3. osobě ("jeho")         | PronType=Prs, Poss=Yes, Person=3, Number[psor]=Sing, Gender[psor], Gender+Animacy, Number, Case | |
| DET Zájmeno přivlastňovací ve 3. osobě ("její, jejie")  | PronType=Prs, Poss=Yes, Person=3, Number[psor]=Sing, Gender[psor]=Fem, Gender+Animacy, Number, Case. | |
| DET Zájmeno přivlastňovací ve 3. osobě ("jejich, jich") | PronType=Prs, Poss=Yes, Person=3, Number[psor]=Plur, Gender+Animacy, Number, Case | |
| DET Zájmeno přivlastňovací zvratné ("svůj, svój") | PronType=Prs, Poss=Yes, Reflex=Yes, Gender+Animacy, Number, Case | |
| DET Zájmeno vztažné přivlastňovací ("jehož, jehožto")   | PronType=Rel, Poss=Yes, Number[psor]=Sing, Gender[psor], Gender+Animacy, Number, Case | |
| DET Zájmeno vztažné přivlastňovací ("jejíž, jejížto")   | PronType=Rel, Poss=Yes, Number[psor]=Sing, Gender[psor]=Fem, Gender+Animacy, Number, Case | |
| DET Zájmeno vztažné přivlastňovací ("jejichž, jichžto") | PronType=Rel, Poss=Yes, Number[psor]=Plur, Gender+Animacy, Number, Case | |
| DET Zájmeno "všechen", "veš", "vešken", ... | PronType=Tot, Gender+Animacy, Number, Case (lemma je vždy //všechen//) | |
| DET Zájmeno "sám, samý"           | PronType=Emp, Gender+Animacy, Number, Case | Variant=Short |
| DET Zájmeno typu "jaký, který, nějaký, některý, ..." | PronType, Gender+Animacy, Number, Case | |
| DET Zájmeno typu "čí, něčí, ničí" | PronType, Poss=Yes, Gender+Animacy, Number, Case | |
| DET Číslovka základní zájmenná ("kolik, mnoho") | PronType, NumType=Card, Case | |
| DET Číslovka řadová zájmenná adjektivní ("kolikátý") | PronType, NumType=Ord, Gender+Animacy, Number, Case | |
| DET Číslovka násobná zájmenná adjektivní ("kolikerý") | PronType, NumType=Mult, Gender+Animacy, Number, Case | |
| NUM Číslo arabskými číslicemi                   | NumType=Card, NumForm=Digit | |
| NUM Číslo římskými číslicemi                    | NumType=Card, NumForm=Roman | |
| NUM Číslovka základní "jeden, jedna, jedno"     | NumType=Card, NumForm=Word, Gender+Animacy, Number=Sing, Case | |
| NUM Číslovka základní "dva, dvě"                | NumType=Card, NumForm=Word, Gender, Number=<fc #ff0000>Dual/Plur???</fc>, Case | |
| NUM Číslovka základní "oba, obě"                | NumType=Card, NumForm=Word, PronType=Tot, Gender, Number=<fc #ff0000>Dual/Plur???</fc>, Case | |
| NUM Číslovka základní "tři, čtyři, pět, ..."    | NumType=Card, NumForm=Word, Number=Plur, Case | |
| NUM Číslovka základní "půl"                     | NumType=Card, NumForm=Word | |
| NUM Číslovka "dvé, tré, čtvero, patero, ..."    | NumType=Card, NumForm=Word, Case | |
| NUM Číslovka "obé"                              | NumType=Card, NumForm=Word, PronType=Tot, Case | |
| NUM Číslovka pro množiny "jedny, dvoje, troje, čtvery, ..." | NumType=Sets, NumForm=Word, Gender+Animacy, Number=Plur, Case <fc #ff0000>**JP:** jak to lemmatizovat?</fc> **DZ:** Lemmatizoval bych to na nominativ toho duálu/plurálu, tj. na tvary uvedené zde jako příklady. Problém ale je, že celá tahle kategorie pochází z nějaké dávné konverzní tabulky a když jsem teď hledal příklady v datech, tak jich tam jednak je málo, jednak ta jejich anotace neodpovídá. Vypadá to, že //dvoje// je teď analyzováno jako variantní tvar číslovky //dvojí//. | |
| VERB/AUX Sloveso v infinitivu nebo supinu         | VerbForm=Inf resp. Sup, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
| VERB/AUX Sloveso v přítomném tvaru (včetně dokonavých) | VerbForm=Fin, Mood=Ind, Tense=Pres, Voice=Act, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
| AUX/VERB Sloveso v budoucím tvaru ("budu, půjdu") | VerbForm=Fin, Mood=Ind, Tense=Fut, Voice=Act, Person, Number, Polarity, Aspect=Imp | Vynechat Aspect u obouvidých sloves. |
| VERB/AUX Sloveso v imperfektu                   | VerbForm=Fin, Mood=Ind, Tense=Imp, Voice=Act, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
| VERB/AUX Sloveso v aoristu                      | VerbForm=Fin, Mood=Ind, Tense=Past, Voice=Act, Person, Number, Polarity, Aspect, Variant | Vynechat Aspect u obouvidých sloves. |
| VERB/AUX L-ové příčestí                         | VerbForm=Part, Tense=Past, Voice=Act, Gender+Animacy, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
| VERB/AUX Sloveso v imperativu                   | VerbForm=Fin, Mood=Imp, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
| AUX Kondicionál ("bych, bys, bychom, byste")    | VerbForm=Fin, Mood=Cnd, Person, Number, Aspect=Imp | |
| AUX Kondicionál ("by")                          | VerbForm=Fin, Mood=Cnd, Aspect=Imp (**nedávají** se Person ani Number! viz rozbor zde: [[hickok:kondicional|kondicionál]]) | |
| VERB/AUX Přechodník v singuláru                 | VerbForm=Conv, Tense, Voice=Act, Gender+Animacy, Number=Sing, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
| VERB/AUX Přechodník v duálu/plurálu             | VerbForm=Conv, Tense, Voice=Act, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
| ADV Příslovce stupňovatelné ("snadno, snadněji, nejsnadněji") | Degree, Polarity | |
| ADV Příslovce zájmenné kromě Tot ("kde, kdy, někde, ...") | PronType         | |
| ADV Příslovce zájmenné totální ("vždy, nevždy, ...") | PronType=Tot, Degree=Pos, Polarity  | |
| ADV Číslovka násobná adverbiální ("kolikrát")   | NumType=Mult | PronType |
| ADV Číslovka řadová adverbiální ("pokolikáté")  | NumType=Ord  | PronType |
| ADV Příslovce ostatní ("snad, lzě, nelzě, velmi, ...") | Degree=Pos, Polarity | |
| ADP Předložka                                   | AdpType, Case | |
| CCONJ Spojka souřadicí                          | | |
| SCONJ Spojka podřadicí                          | | |
| PART Částice                                    | | |
| INTJ Citoslovce                                 | | |
| SYM Symbol jiný než interpunkce ("$, €, ...")   | | |
| PUNCT Interpunkce                               | | |


===== Problematická slova =====

**vstříc**: vyskytuje-li se v kontextu jméno v dativu, pak je to vždy předložka (bez ohledu na slovosled/projektivitu)

**jich, jeho, jie**: pokud modifikuje jméno, je to posesivum bez ohledu na slovosled, pokud ne, je to genitiv osobního zájmena

**toť**: následuje-li předpokládaná pauza/intonační předěl, je to částice, jinak jde o spojení zájmena a částice

**proto(ž)**: příslovce nebo spojka, dle kontextu