−Obsah
UD anotace staročeského a středněčeského etalonu
Vychází se jednak z anotačních pravidel UD (a to jak obecných, tak těch specifických pro slovanské jazyky a češtinu), jednak ze zkušeností z pilotního projektu v roce 2022 (anotace Matoušova evangelia z Bible drážďanské a olomoucké). K tomu externí odkazy:
Odkazy na stránky s evidencí nejasností/problémů
Anotační nástroje a formát souboru
Slovní druhy
Substantiva
Rozlišují se obecná (NOUN
) a vlastní (PROPN
). Slovo, které je hlavou nebo prvním slovem víceslovného jména, není automaticky PROPN
(ale může jím být i PROPN
). Např. ve výrazu Univerzita Karlova má mít slovo Univerzita značku NOUN
. Zahrnují i slovesná podstatná jména; ta se od běžných odliší rysem VerbForm=Vnoun
.
Substantivizovaná adjektiva (např. kajúcí) jsou anotována jako adjektiva (POS=ADJ). Výjimkou jsou taková substantiva s adjektivní formou, která už v současné češtině nemohou vůbec fungovat jako adjektiva, např. průvodčí, pouze ta se značkují jako substantiva (POS=NOUN).
Adjektiva
Zahrnují dlouhé i krátké tvary.
U krátkých (jmenných) forem adjektiv anotovat stupeň i pád, jako lemma vždy uvádět dlouhou formu.
Za adjektiva se pokládají také všechny (dlouhé i krátké) tvary trpných (tj. N-ových/T-ových) příčestí. (Naproti tomu L-ová příčestí zůstávají zahrnuta pod slovesy.) Příčestí se od běžných adjektiv odliší pomocí rysu VerbForm=Part
a případně dalších slovesných rysů (Aspect
, Voice
, Tense
). U příčestí anotovat pád, rod i životnost.
Značku ADJ
mají také řadové číslovky typu první, druhý, třetí, od běžných adjektiv se odliší pomocí rysu NumType=Ord
.
Zájmena
V UD se rozlišují pronouns PRON
a determiners DET
. Ve slovanských jazycích se sice kategorie determinátoru tradičně nepoužívá, ale v UD slovanských jazyků se tato značka využívá (zneužívá?) k rozlišení zájmen, která se mohou chovat podobně jako adjektiva, od těch ostatních. Schopností chovat se jako adjektiva se myslí rozvití nějakého substantiva a morfologické vyjádření shody s ním. Ve výsledku jde přibližně o zájmena, která rozlišují rod, ale neplatí to beze zbytku – např. osobní zájmena on, ona, ono jsou PRON
, i když rozlišují rod. Značku DET
dostanou bez ohledu na to, zda v dané větě opravdu rozvíjejí nějaké substantivum; může se proto stát, že DET
se objeví v pozici podmětu nebo předmětu (např. u zájmen to, který, každý).
U nesklonných posesivních zájmen jeho, jejich a jich se pád, číslo a rod+životnost anotují, a to podle shody/smyslu. Totéž už zájmena jejie/její, přičemž je lhostejné, jestli je nesklonné, nebo není.
Zájmena typu kdo, co, který mohou být podle kontextu Int, Rel nebo Ind. Ind jsou tehdy, pokud je můžeme nahradit výrazy typu někdo, něco, některý. Mezi Int a Rel rozlišujeme tak, že za Int se to pokládá jen v přímých otázkách (v hlavní větě, s otazníkem), naopak v souvětích vždy Rel (např. i nevím/ptám se, kdo přišel.
Forma ješto – pokud je to ve funkci vztažného zájmena (PRON), lemmatizujeme jako jenžto. Kromě toho se může jednat i o vztažné příslovce (ADV) nebo o podřadicí spojku (SCONJ), v obou těchto případech lemmatizujeme jako ježto (protože je to neohebné). U zájmen s lemmatem jenž a jenžto anotujeme pád, číslo i rod+životnost bez ohledu na sklonnost/nesklonnost, pouze v případě přítomnosti resumptivního zájmena se tyto rysy neanotují (viz též tabulku dole).
- Důvod tohoto postupu je ten, že v případě přítomnosti resumptivního zájmena jsou pád, číslo a rod vyjádřeny právě tím resumptivním zájmenem, zatímco samotné ješto (stejně jako co, případně i jenž, které se tak taky někdy ve staré češtině chovalo) tyhle kategorie formálně nijak nevyjadřuje, tj. má ve všech případech stejnou formu. Diskutovala se v zásadě tři možná řešení, přičemž dvě z nich nám přišla nevyhovující. Jedno z nich bylo, že se pád bude anotovat podle syntaktického kontextu, což by znamenalo, že např. ve struktuře „setkal se s člověkem, co/jenž/ješto jsem mu to dal“ bude u co/jenž/ješto anotován dativ, což se nám nelíbilo, protože to znamená tvrdit, že např. co je dativní forma, tj. tohle řešení není vyhovující formálně. Druhé řešení bylo, že se v těchto případech u toho co/jenž/ješto bude anotovat nominativ. To odpovídá formálně, ale zase ne syntakticky, protože v té příkladové struktuře žádný prostor pro nominativ není. Proto vyšlo jako nejlepší to třetí řešení, tedy tyto kategorie tam vůbec neanotovat. Nejenže tam nic s ničím pak nekoliduje, ale zároveň to odpovídá i té jazykové realitě, že prostě jsou tyto kategorie vyjadřovány jinde (tj. na tom resumptivním zájmenu).
Zájmeno sám/samý: vždy PronType=Emp a vždy lemma sám; krátká forma sám je odlišena tagem „Short“
Číslovky
- základní (jeden, dva, tři) POS=NUM, NumType=Card
- řadové
- (první, druhý, třetí) POS=ADJ, NumType=Ord
- (poprvé, podruhé, potřetí) POS=ADV, NumType=Ord (stejně i prvé, druhé v adverbiální funkci)
- násobné
- typu -krát POS=ADV, NumType=Mult
- dvojí, trojí, čtverý POS=ADJ, NumType=Mult
- druhové
- jedny, dvoje, troje, čtvery POS=NUM, NumType=Sets
- čtvero, patero, desatero POS=NUM, NumType=Card
- NumType=Frac je definováno pro zlomky typu -ina (jmenovatel), ale v současných UD se používá nekonzistentně (viz diskusi zde)
- Výrazy jako jednička, dvojka, trojka; dvojice, trojice se považují za substantiva (POS=NOUN, žádný NumType), totéž platí pro výrazy typu pět (s významem pětice) v substantivní funkci (typ neb tu pět k němu provrhu).
- Zájmenné číslovky (např. neurčité několik, mnoho, málo, hodně (komparativ víc); několikátý; několikery; několikerý ukazovací tolik; tolikátý; tolikerý tázací/vztažné kolik; kolikátý; kolikerý jsou POS=DET, mají vyplněný PronType i NumType.
- Zájmenné příslovečné číslovky (několikrát, poněkolikáté, tolikrát, potolikáté, kolikrát, pokolikáté) jsou POS=ADV, mají vyplněný PronType i NumType.
- Výraz nejeden má lemma „nejeden“, POS=DET a polarita se neanotuje.
Slovesa
Slovesa být, bývat, bývávat: POS=AUX (vždy!). Kondicionálové by, bych, bys, bychom, byste se považuje za tvar lemmatu být. Všechna ostatní slovesa (včetně modálních) jsou POS=VERB (s výjimkou některých druhů příčestí, které se anotují a lemmatizují jako ADJ).
Trpná participia (N-ová a T-ová) (tj. trpná) příčestí jsou vždy POS=ADJ (ale VerbForm=Part) bez ohledu na to, zda jde o krátký nebo dlouhý tvar. Anotuje se u nich pád.
L-ová participia jsou POS=VERB (a VerbForm=Part)
NT-ová participia („přítomné přechodníky“): POS=VERB, VerbForm=Conv, Tense=Pres; pád se neanotuje; číslo se anotuje podle významu (duál s přihlédnutím ke kontextu, tj. podle přítomnosti jasně duálového tvaru, viz níže); rod se anotuje pouze v singuláru, a to podle významu, nikoli podle formy
S-ová participia („minulé přechodníky“): POS=VERB, VerbForm=Conv, Tense=Past; pád se neanotuje; číslo se anotuje podle významu (duál s přihlédnutím ke kontextu, tj. podle přítomnosti jasně duálového tvaru, viz níže); rod se anotuje pouze v singuláru, a to podle významu, nikoli podle formy
Imperfektum: VerbForm=Fin, Tense=Imp
Aorist: VerbForm=Fin, Tense=Past, Variant=Long (sigmatický) / Short (asigmatický) (u sloves majících oba typy aoristu se tvary 2. a 3. sg. typu nese pokládají pouze za asigmatický)
Prézentní tvar dokonavých sloves: Tense=Pres
Verbální substantiva (zakočená -nie/-tie) jsou POS=NOUN a VerbForm=Vnoun
Verbální adjektiva (typu dělající, udělavší) jsou POS=ADJ a VerbForm=Part
Předložky
Předložka v realizovaná jako u: Lemma=„u“; PrepType=Voc; pád buď Acc, nebo Loc dle kontextu
Částice
Cílem je používat je v UD spíše méně. Slova vyjadřující postoj autora ke sdělení věty (např. bohužel) jsou anotována jako příslovce (POS=ADV). Částice jsou tak trochu negativně definovaná kategorie: Co se nedá dát rozumně jinam, skončí tady. Současně ale pravidla UD předpokládají, že pro každý jazyk bude v dokumentaci vyjmenováno, která slova dostávají POS=PART a proč.
- Morfém negace ne, pokud je psaný zvlášť (např. ne dohromady), je POS=PART. Ale! Ve funkci odpovědi na otázku mají být ano i ne označkované jako POS=INTJ! V současných českých UD je ovšem toto pravidlo porušeno, takže ani UDPipe se ho nemohl naučit dodržovat.
- Výraz koli psaný zvlášť: POS=PART (částice). Ale pokud se píše dohromady kdokoli, cokoli, kterýkoli, pak to celé dostane značku PRON nebo DET.
- Příklonka ť (utržená např. ze slov žeť, jáť) je POS=PART.
- Výrazy li, zdali jsou částice, pokud jsou v přímé otázce (tj. hlavní větě). V závislé větě jde o spojku (SCONJ/CCONJ).
Cizí slova
Zde máme na mysli nikoli slova přejatá z cizího jazyka (s těmi se zachází jako s každým jiným českým slovem), ale střídání kódů, tedy slova nebo fráze v cizím jazyce (např. v latině), která se ocitla uvnitř českého textu. UD umožňují několik přístupů, jak s takovým materiálem naložit. Na jednom konci škály je možnost anotovat cizí text podle gramatiky a anotačních pravidel cizího jazyka, na druhém konci pak možnost říct, že daný segment do hlavního jazyka textu nepatří, a více se jím nezabývat. My se přidržíme této druhé možnosti: Lemma je identické se slovním tvarem (převedným na malá písmena, u vlastních jmen dáváme první velké), značka UPOS je X
, nejsou vyplněny žádné morfologické rysy s výjimkou Foreign=Yes
. Ještě se musíme dohodnout, zda chceme ve sloupci MISC uchovávat kód jazyka (např. OrigLang=la
pro latinu). Pravidla, jak rozhodnout, jestli je slovo ještě cizí, nebo už přejaté do češtiny, bude asi nutné v průběhu anotace dopracovat; zatím lze říct následující:
- Má-li slovo tvar ovlivněný českou morfologií, jde o slovo přejaté.
- Je-li dotyčné slovo rozvité českým slovem (např. sporné substantivum je rozvité českým adjektivem), můžeme to asi chápat jako signál, že i řídící slovo je přejaté do češtiny.
- S osobními a místními vlastními jmény zpravidla zacházíme jako s přejatými do češtiny, i když mají původ v cizím jazyce.
- Naopak název díla nebo organizace může být fráze v cizím jazyce, se kterou pak budeme zacházet jako s cizím segmentem.
- Věty a delší fráze, které jsou citáty z cizojazyčných textů, jsou asi tím nejjasnějším příkladem materiálu, se kterým se má zacházet jako s cizím.
Interpunkce zůstává interpunkcí, i pokud je obklopena cizojazyčným textem, tedy značka UPOS je PUNCT
a rys Foreign=Yes
se nedává.
Gramatické kategorie
Rod
Nejednoznačné tvary se rozlišují podle kontextu, např. pro adjektivum velikému je třeba rozhodnout mezi maskulinem a neutrem (tedy nenechat tam Gender=Masc,Neut
, i kdyby to UDPipe navrhl).
U přechodníků se rod anotuje pouze v singuláru, a to podle významu, ne formy.
Pokud jméno kolísá v rodě a není rod jasný z kontextu, vycházet z hierarchie Masc
> Fem
> Neut
.
Životnost
Rozlišuje se ve všech případech, kdy je anotován mužský rod. U jiných rodů nebo bezrodých slov se nerozlišuje.
U substantiv se životnost rozlišuje podle stavu v současné češtině. U jiných slovních druhů postupovat podle toho, jaké substantivum rovíjejí/zastupují, s výjimkou případů, kdy mají příznakově opačný tvar, než by tomu substantivu odpovídalo (pozor, v těchto případech může mít například přívlastek jinou hodnotu životnosti než jeho řídící substantivum!). Podrobnější rozbor zde.
Číslo
Používáme pouze Sing, Dual a Plur. Vůbec tedy nepracujeme s hodnotami Coll, Ptan.
Nejednoznačné tvary se rozlišují podle kontextu, např. pro adjektivum veliké je třeba rozhodnout mezi singulárem (neutra) a plurálem (feminina, resp. neživotného maskulina).
Duál: Number=Dual
, anotováno podle formy buď slova samotného nebo jeho okolí. Jde o to rozlišit případy, kdy se ještě duál používal a kdy už ne; čili nebudeme anotovat duál jen proto, že víme, že se mluví o dvou entitách; v novočeských datech to taky neděláme. V novočeských datech se duál anotuje pouze u instrumentálu párových orgánů (očima, ušima, rukama, nohama) a dále adjektiv (a determinátorů), která s nimi vyjadřují shodu a používají k tomu koncovku -ýma.
- Pokud jde o tvar specifický pro duál, anotovat jako duál.
- Pokud jde o tvar společný pro duál a plurál (u přechodníků, někdy též u substantiv stažených deklinačních typů, případně i jinde), ale z okolního kontextu je zřejmé, že autor by duál použil (např. jde o přechodník odkazující na entitu, na kterou někde jinde v okolí autor odkazuje tvarem jasně duálovým), anotovat jako duál.
- V ostatních případech anotovat jako plurál.
Pád
U slov, u kterých se očekává neprázdná hodnota rysu Case
, se nejednoznačné tvary zjednoznačňují podle kontextu. Pokud kontext není jednoznačný, rozhodujeme se primárně podle situace ve zbytku textu, je-li to možné.
Gender[psor]
Zjednoznačňujeme podle významu (tj. u „jeho“ rozlišováno mezi maskulinem a neutrem, což UDPipe nedělal).
Vid
U obouvidových sloves anotujeme vid tam, kde je z kontextu jasný. Pokud z kontextu jasný není, tak ho nevyplňujeme. (Na to, kdy je to jasné a kdy ne, ale můžou být různé názory.) Pokud nejde o obouvidové sloveso, ale o dvě homonymní slovesa lišící se videm (tj. při změně vidu se podstatně mění i význam, např. hoditi), vid se normálně anotuje.
Polarity
Řešíme takto (tvar-lemma-tag) takto: 1) substantiva: nepřítel-nepřítel-v tagu se nic neznačí; 2) slovesa: nekoupí-koupit-negace součástí tagu; 3) adjektiva a adverbia (odvozená od adjektiv): nevelký-velký-negace součástí tagu (stejně jako u sloves).
U substantiv se tedy s touto kategorií nepracuje (a to ani u substantiv verbálních), u substantiv začínajících na ne- je tento prefix i v lemmatu. Naopak u sloves, adjektiv a deadjektivních adverbií mají záporné tvary Polarity=Neg a je lemma bez záporky.
Vyžadované a povolené rysy u jednotlivých druhů slov
Povinné rysy (sloupce v tabulce) musí mít pro daný slovní druh neprázdnou hodnotu (jednu z povolených). Když je uvedeno Gender+Animacy, znamená to, že životnost je povinná pro Gender=Masc a zakázaná pro ostatní rody.
Slovní druh | Povinné rysy | Volitelné rysy |
---|---|---|
X Cizí slovo | Foreign=Yes | |
NOUN Podstatné jméno obecné | Gender+Animacy, Number, Case | |
NOUN Podstatné jméno slovesné (-ní, -nie, -tí, -tie) | VerbForm=Vnoun, Gender=Neut, Number, Case | |
PROPN Vlastní jméno | Gender+Animacy, Number, Case | NameType |
ADJ Přídavné jméno (dlouhý tvar) | Gender+Animacy, Number, Case, Degree, Polarity | |
ADJ Přídavné jméno (krátký tvar) | Variant=Short, Gender+Animacy, Number, Case, Degree, Polarity | |
ADJ Přídavné jméno přivlastňovací | Poss=Yes, Gender[psor], Gender+Animacy, Number, Case | NameType (pokud je odvozeno z vlastního jména) |
ADJ Řadová číslovka adjektivní („druhý“) | NumType=Ord, Gender+Animacy, Number, Case | |
ADJ Násobná číslovka adjektivní („dvojí“) | NumType=Mult, Gender+Animacy, Number, Case | |
ADJ Dlouhý tvar činného příčestí (-cí, -ší) (nikoli -lý, taky to neplatí pro složeniny typu všemohúcí) | VerbForm=Part, Voice=Act, Aspect, Tense, Gender+Animacy, Number, Case, Polarity | |
ADJ Dlouhý tvar trpného příčestí (-ný, -tý) | VerbForm=Part, Voice=Pass, Aspect, Gender+Animacy, Number, Case, Degree, Polarity | |
ADJ Krátký tvar trpného příčestí (-n, -t) | VerbForm=Part, Voice=Pass, Variant=Short, Aspect, Gender+Animacy, Number, Case, Degree (asi vždy =Pos), Polarity | |
PRON Zájmeno osobní v 1. nebo 2. osobě | PronType=Prs, Person, Number, Case | Variant=Short (klitika: pouze pro tvary mě, mi, tě, ti) |
PRON Zájmeno osobní ve 3. osobě | PronType=Prs, Person=3, Gender+Animacy, Number, Case | Variant=Short (klitika: pouze pro tvary ho, mu), PrepCase (povinné pro rozlišení „jeho/něho“, nepoužívá se pro „on“) |
PRON Zájmeno zvratné | PronType=Prs, Reflex=Yes, Case | Variant=Short (klitika: pouze pro tvary se, si) |
PRON Zájmeno typu „kdo, kdož, někdo, nikdo“ | PronType, Gender=Masc, Animacy=Anim, Case | |
PRON Zájmeno typu „co, což, něco, nic“ | PronType, Case | |
PRON Zájmeno typu „jenž, jenžto“ | PronType=Rel, Gender+Animacy, Number, Case, PrepCase (jen v případě přítomnosti resumptivního zájmena se neanotují pád, číslo, rod+životnost) | |
PRON Zájmeno typu „an“ | PronType=Rel, Gender+Animacy, Number, Case=Nom | |
DET Zájmeno přivlastňovací v 1. nebo 2. osobě („můj, tvůj“) | PronType=Prs, Poss=Yes, Person, Number[psor], Gender+Animacy, Number, Case | |
DET Zájmeno přivlastňovací ve 3. osobě („jeho“) | PronType=Prs, Poss=Yes, Person=3, Number[psor]=Sing, Gender[psor], Gender+Animacy, Number, Case | |
DET Zájmeno přivlastňovací ve 3. osobě („její, jejie“) | PronType=Prs, Poss=Yes, Person=3, Number[psor]=Sing, Gender[psor]=Fem, Gender+Animacy, Number, Case. | |
DET Zájmeno přivlastňovací ve 3. osobě („jejich, jich“) | PronType=Prs, Poss=Yes, Person=3, Number[psor]=Plur, Gender+Animacy, Number, Case | |
DET Zájmeno přivlastňovací zvratné („svůj, svój“) | PronType=Prs, Poss=Yes, Reflex=Yes, Gender+Animacy, Number, Case | |
DET Zájmeno vztažné přivlastňovací („jehož, jehožto“) | PronType=Rel, Poss=Yes, Number[psor]=Sing, Gender[psor], Gender+Animacy, Number, Case | |
DET Zájmeno vztažné přivlastňovací („jejíž, jejížto“) | PronType=Rel, Poss=Yes, Number[psor]=Sing, Gender[psor]=Fem, Gender+Animacy, Number, Case | |
DET Zájmeno vztažné přivlastňovací („jejichž, jichžto“) | PronType=Rel, Poss=Yes, Number[psor]=Plur, Gender+Animacy, Number, Case | |
DET Zájmeno „všechen“, „veš“, „vešken“, … | PronType=Tot, Gender+Animacy, Number, Case (lemma je vždy všechen) | |
DET Zájmeno „sám, samý“ | PronType=Emp, Gender+Animacy, Number, Case | Variant=Short |
DET Zájmeno typu „jaký, který, nějaký, některý, …“ | PronType, Gender+Animacy, Number, Case | |
DET Zájmeno typu „čí, něčí, ničí“ | PronType, Poss=Yes, Gender+Animacy, Number, Case | |
DET Číslovka základní zájmenná („kolik, mnoho“) | PronType, NumType=Card, Case | |
DET Číslovka řadová zájmenná adjektivní („kolikátý“) | PronType, NumType=Ord, Gender+Animacy, Number, Case | |
DET Číslovka násobná zájmenná adjektivní („kolikerý“) | PronType, NumType=Mult, Gender+Animacy, Number, Case | |
NUM Číslo arabskými číslicemi | NumType=Card, NumForm=Digit | |
NUM Číslo římskými číslicemi | NumType=Card, NumForm=Roman | |
NUM Číslovka základní „jeden, jedna, jedno“ | NumType=Card, NumForm=Word, Gender+Animacy, Number=Sing, Case | |
NUM Číslovka základní „dva, dvě“ | NumType=Card, NumForm=Word, Gender, Number=Dual/Plur???, Case | |
NUM Číslovka základní „oba, obě“ | NumType=Card, NumForm=Word, PronType=Tot, Gender, Number=Dual/Plur???, Case | |
NUM Číslovka základní „tři, čtyři, pět, …“ | NumType=Card, NumForm=Word, Number=Plur, Case | |
NUM Číslovka základní „půl“ | NumType=Card, NumForm=Word | |
NUM Číslovka pro množiny „jedny, dvoje, troje, čtvery, …“ | NumType=Sets, NumForm=Word, Number=Plur, Case JP: jak to lemmatizovat? DZ: Lemmatizoval bych to na nominativ toho duálu/plurálu, tj. na tvary uvedené zde jako příklady. Problém ale je, že celá tahle kategorie pochází z nějaké dávné konverzní tabulky a když jsem teď hledal příklady v datech, tak jich tam jednak je málo, jednak ta jejich anotace neodpovídá. Vypadá to, že dvoje je teď analyzováno jako variantní tvar číslovky dvojí. | |
VERB/AUX Sloveso v infinitivu nebo supinu | VerbForm=Inf resp. Sup, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
VERB/AUX Sloveso v přítomném tvaru (včetně dokonavých) | VerbForm=Fin, Mood=Ind, Tense=Pres, Voice=Act, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
AUX/VERB Sloveso v budoucím tvaru („budu, půjdu“) | VerbForm=Fin, Mood=Ind, Tense=Fut, Voice=Act, Person, Number, Polarity, Aspect=Imp | Vynechat Aspect u obouvidých sloves. |
VERB/AUX Sloveso v imperfektu | VerbForm=Fin, Mood=Ind, Tense=Imp, Voice=Act, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
VERB/AUX Sloveso v aoristu | VerbForm=Fin, Mood=Ind, Tense=Past, Voice=Act, Person, Number, Polarity, Aspect, Variant | Vynechat Aspect u obouvidých sloves. |
VERB/AUX L-ové příčestí | VerbForm=Part, Tense=Past, Voice=Act, Gender+Animacy, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
VERB/AUX Sloveso v imperativu | VerbForm=Fin, Mood=Imp, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
AUX Kondicionál („bych, bys, bychom, byste“) | VerbForm=Fin, Mood=Cnd, Person, Number, Aspect=Imp | |
AUX Kondicionál („by“) | VerbForm=Fin, Mood=Cnd, Aspect=Imp (nedávají se Person ani Number! viz rozbor zde: kondicionál) | |
VERB/AUX Přechodník v singuláru | VerbForm=Conv, Tense, Voice=Act, Gender+Animacy, Number=Sing, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
VERB/AUX Přechodník v duálu/plurálu | VerbForm=Conv, Tense, Voice=Act, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
ADV Příslovce stupňovatelné („snadno, snadněji, nejsnadněji“) | Degree, Polarity | |
ADV Příslovce zájmenné kromě Tot („kde, kdy, někde, …“) | PronType | |
ADV Příslovce zájmenné totální („vždy, nevždy, …“) | PronType=Tot, Degree=Pos, Polarity | |
ADV Číslovka násobná adverbiální („kolikrát“) | NumType=Mult | PronType |
ADV Číslovka řadová adverbiální („pokolikáté“) | NumType=Ord | PronType |
ADV Příslovce ostatní („snad, lzě, nelzě, velmi, …“) | Degree=Pos, Polarity | |
ADP Předložka | AdpType, Case | |
CCONJ Spojka souřadicí | ||
SCONJ Spojka podřadicí | ||
PART Částice | ||
INTJ Citoslovce | ||
SYM Symbol jiný než interpunkce („$, €, …“) | ||
PUNCT Interpunkce |
Problematická slova
vstříc: vyskytuje-li se v kontextu jméno v dativu, pak je to vždy předložka (bez ohledu na slovosled/projektivitu)
jich, jeho, jie: pokud modifikuje jméno, je to posesivum bez ohledu na slovosled, pokud ne, je to genitiv osobního zájmena
toť: následuje-li předpokládaná pauza/intonační předěl, je to částice, jinak jde o spojení zájmena a částice
proto(ž): příslovce nebo spojka, dle kontextu