Vychází se jednak z anotačních pravidel UD (a to jak obecných, tak těch specifických pro slovanské jazyky a češtinu), jednak ze zkušeností z pilotního projektu v roce 2022 (anotace Matoušova evangelia z Bible drážďanské a olomoucké). K tomu externí odkazy:
Rozlišují se obecná (NOUN
) a vlastní (PROPN
). Slovo, které je hlavou nebo prvním slovem víceslovného jména, není automaticky PROPN
(ale může jím být i PROPN
). Např. ve výrazu Univerzita Karlova má mít slovo Univerzita značku NOUN
. Zahrnují i slovesná podstatná jména; ta se od běžných odliší rysem VerbForm=Vnoun
.
Substantivizovaná adjektiva (např. kajúcí) jsou anotována jako adjektiva (POS=ADJ). Výjimkou jsou taková substantiva s adjektivní formou, která už v současné češtině nemohou vůbec fungovat jako adjektiva, např. průvodčí, pouze ta se značkují jako substantiva (POS=NOUN).
Zahrnují dlouhé i krátké tvary.
U krátkých (jmenných) forem adjektiv anotovat stupeň i pád, jako lemma vždy uvádět dlouhou formu.
Za adjektiva se pokládají také všechny (dlouhé i krátké) tvary trpných (tj. N-ových/T-ových) příčestí. (Naproti tomu L-ová příčestí zůstávají zahrnuta pod slovesy.) Příčestí se od běžných adjektiv odliší pomocí rysu VerbForm=Part
a případně dalších slovesných rysů (Aspect
, Voice
, Tense
). U příčestí anotovat pád, rod i životnost.
Značku ADJ
mají také řadové číslovky typu první, druhý, třetí, od běžných adjektiv se odliší pomocí rysu NumType=Ord
.
V UD se rozlišují pronouns PRON
a determiners DET
. Ve slovanských jazycích se sice kategorie determinátoru tradičně nepoužívá, ale v UD slovanských jazyků se tato značka využívá (zneužívá?) k rozlišení zájmen, která se mohou chovat podobně jako adjektiva, od těch ostatních. Schopností chovat se jako adjektiva se myslí rozvití nějakého substantiva a morfologické vyjádření shody s ním. Ve výsledku jde přibližně o zájmena, která rozlišují rod, ale neplatí to beze zbytku – např. osobní zájmena on, ona, ono jsou PRON
, i když rozlišují rod. Značku DET
dostanou bez ohledu na to, zda v dané větě opravdu rozvíjejí nějaké substantivum; může se proto stát, že DET
se objeví v pozici podmětu nebo předmětu (např. u zájmen to, který, každý).
U nesklonných posesivních zájmen jeho, jejich a jich se pád, číslo a rod+životnost anotují, a to podle shody/smyslu. Totéž už zájmena jejie/její, přičemž je lhostejné, jestli je nesklonné, nebo není.
Zájmena typu kdo, co, který mohou být podle kontextu Int, Rel nebo Ind. Ind jsou tehdy, pokud je můžeme nahradit výrazy typu někdo, něco, některý. Mezi Int a Rel rozlišujeme tak, že za Int se to pokládá jen v přímých otázkách (v hlavní větě, s otazníkem), naopak v souvětích vždy Rel (např. i nevím/ptám se, kdo přišel.
Forma ješto – pokud je to ve funkci vztažného zájmena (PRON), lemmatizujeme jako jenžto. Kromě toho se může jednat i o vztažné příslovce (ADV) nebo o podřadicí spojku (SCONJ), v obou těchto případech lemmatizujeme jako ježto (protože je to neohebné). U zájmen s lemmatem jenž a jenžto anotujeme pád, číslo i rod+životnost bez ohledu na sklonnost/nesklonnost, pouze v případě přítomnosti resumptivního zájmena se tyto rysy neanotují (viz též tabulku dole).
Zájmeno sám/samý: vždy PronType=Emp a vždy lemma sám; krátká forma sám je odlišena tagem „Short“
Slovesa být, bývat, bývávat: POS=AUX (vždy!). Kondicionálové by, bych, bys, bychom, byste se považuje za tvar lemmatu být. Všechna ostatní slovesa (včetně modálních) jsou POS=VERB (s výjimkou některých druhů příčestí, které se anotují a lemmatizují jako ADJ).
Trpná participia (N-ová a T-ová) (tj. trpná) příčestí jsou vždy POS=ADJ (ale VerbForm=Part) bez ohledu na to, zda jde o krátký nebo dlouhý tvar. Anotuje se u nich pád.
L-ová participia jsou POS=VERB (a VerbForm=Part)
NT-ová participia („přítomné přechodníky“): POS=VERB, VerbForm=Conv, Tense=Pres; pád se neanotuje; číslo se anotuje podle významu (duál s přihlédnutím ke kontextu, tj. podle přítomnosti jasně duálového tvaru, viz níže); rod se anotuje pouze v singuláru, a to podle významu, nikoli podle formy
S-ová participia („minulé přechodníky“): POS=VERB, VerbForm=Conv, Tense=Past; pád se neanotuje; číslo se anotuje podle významu (duál s přihlédnutím ke kontextu, tj. podle přítomnosti jasně duálového tvaru, viz níže); rod se anotuje pouze v singuláru, a to podle významu, nikoli podle formy
Imperfektum: VerbForm=Fin, Tense=Imp
Aorist: VerbForm=Fin, Tense=Past, Variant=Long (sigmatický) / Short (asigmatický) (u sloves majících oba typy aoristu se tvary 2. a 3. sg. typu nese pokládají pouze za asigmatický)
Prézentní tvar dokonavých sloves: Tense=Pres
Verbální substantiva (zakočená -nie/-tie) jsou POS=NOUN a VerbForm=Vnoun
Verbální adjektiva (typu dělající, udělavší) jsou POS=ADJ a VerbForm=Part
Předložka v realizovaná jako u: Lemma=„u“; PrepType=Voc; pád buď Acc, nebo Loc dle kontextu
Cílem je používat je v UD spíše méně. Slova vyjadřující postoj autora ke sdělení věty (např. bohužel) jsou anotována jako příslovce (POS=ADV). Částice jsou tak trochu negativně definovaná kategorie: Co se nedá dát rozumně jinam, skončí tady. Současně ale pravidla UD předpokládají, že pro každý jazyk bude v dokumentaci vyjmenováno, která slova dostávají POS=PART a proč.
Zde máme na mysli nikoli slova přejatá z cizího jazyka (s těmi se zachází jako s každým jiným českým slovem), ale střídání kódů, tedy slova nebo fráze v cizím jazyce (např. v latině), která se ocitla uvnitř českého textu. UD umožňují několik přístupů, jak s takovým materiálem naložit. Na jednom konci škály je možnost anotovat cizí text podle gramatiky a anotačních pravidel cizího jazyka, na druhém konci pak možnost říct, že daný segment do hlavního jazyka textu nepatří, a více se jím nezabývat. My se přidržíme této druhé možnosti: Lemma je identické se slovním tvarem (převedným na malá písmena, u vlastních jmen dáváme první velké), značka UPOS je X
, nejsou vyplněny žádné morfologické rysy s výjimkou Foreign=Yes
. Ještě se musíme dohodnout, zda chceme ve sloupci MISC uchovávat kód jazyka (např. OrigLang=la
pro latinu). Pravidla, jak rozhodnout, jestli je slovo ještě cizí, nebo už přejaté do češtiny, bude asi nutné v průběhu anotace dopracovat; zatím lze říct následující:
Interpunkce zůstává interpunkcí, i pokud je obklopena cizojazyčným textem, tedy značka UPOS je PUNCT
a rys Foreign=Yes
se nedává.
Nejednoznačné tvary se rozlišují podle kontextu, např. pro adjektivum velikému je třeba rozhodnout mezi maskulinem a neutrem (tedy nenechat tam Gender=Masc,Neut
, i kdyby to UDPipe navrhl).
U přechodníků se rod anotuje pouze v singuláru, a to podle významu, ne formy.
Pokud jméno kolísá v rodě a není rod jasný z kontextu, vycházet z hierarchie Masc
> Fem
> Neut
.
Rozlišuje se ve všech případech, kdy je anotován mužský rod. U jiných rodů nebo bezrodých slov se nerozlišuje.
U substantiv se životnost rozlišuje podle stavu v současné češtině. U jiných slovních druhů postupovat podle toho, jaké substantivum rovíjejí/zastupují, s výjimkou případů, kdy mají příznakově opačný tvar, než by tomu substantivu odpovídalo (pozor, v těchto případech může mít například přívlastek jinou hodnotu životnosti než jeho řídící substantivum!). Podrobnější rozbor zde.
Používáme pouze Sing, Dual a Plur. Vůbec tedy nepracujeme s hodnotami Coll, Ptan.
Nejednoznačné tvary se rozlišují podle kontextu, např. pro adjektivum veliké je třeba rozhodnout mezi singulárem (neutra) a plurálem (feminina, resp. neživotného maskulina).
Duál: Number=Dual
, anotováno podle formy buď slova samotného nebo jeho okolí. Jde o to rozlišit případy, kdy se ještě duál používal a kdy už ne; čili nebudeme anotovat duál jen proto, že víme, že se mluví o dvou entitách; v novočeských datech to taky neděláme. V novočeských datech se duál anotuje pouze u instrumentálu párových orgánů (očima, ušima, rukama, nohama) a dále adjektiv (a determinátorů), která s nimi vyjadřují shodu a používají k tomu koncovku -ýma.
U slov, u kterých se očekává neprázdná hodnota rysu Case
, se nejednoznačné tvary zjednoznačňují podle kontextu. Pokud kontext není jednoznačný, rozhodujeme se primárně podle situace ve zbytku textu, je-li to možné.
Zjednoznačňujeme podle významu (tj. u „jeho“ rozlišováno mezi maskulinem a neutrem, což UDPipe nedělal).
U obouvidových sloves anotujeme vid tam, kde je z kontextu jasný. Pokud z kontextu jasný není, tak ho nevyplňujeme. (Na to, kdy je to jasné a kdy ne, ale můžou být různé názory.) Pokud nejde o obouvidové sloveso, ale o dvě homonymní slovesa lišící se videm (tj. při změně vidu se podstatně mění i význam, např. hoditi), vid se normálně anotuje.
Řešíme takto (tvar-lemma-tag) takto: 1) substantiva: nepřítel-nepřítel-v tagu se nic neznačí; 2) slovesa: nekoupí-koupit-negace součástí tagu; 3) adjektiva a adverbia (odvozená od adjektiv): nevelký-velký-negace součástí tagu (stejně jako u sloves).
U substantiv se tedy s touto kategorií nepracuje (a to ani u substantiv verbálních), u substantiv začínajících na ne- je tento prefix i v lemmatu. Naopak u sloves, adjektiv a deadjektivních adverbií mají záporné tvary Polarity=Neg a je lemma bez záporky.
Povinné rysy (sloupce v tabulce) musí mít pro daný slovní druh neprázdnou hodnotu (jednu z povolených). Když je uvedeno Gender+Animacy, znamená to, že životnost je povinná pro Gender=Masc a zakázaná pro ostatní rody.
Slovní druh | Povinné rysy | Volitelné rysy |
---|---|---|
X Cizí slovo | Foreign=Yes | |
NOUN Podstatné jméno obecné | Gender+Animacy, Number, Case | |
NOUN Podstatné jméno slovesné (-ní, -nie, -tí, -tie) | VerbForm=Vnoun, Gender=Neut, Number, Case | |
PROPN Vlastní jméno | Gender+Animacy, Number, Case | NameType |
ADJ Přídavné jméno (dlouhý tvar) | Gender+Animacy, Number, Case, Degree, Polarity | |
ADJ Přídavné jméno (krátký tvar) | Variant=Short, Gender+Animacy, Number, Case, Degree, Polarity | |
ADJ Přídavné jméno přivlastňovací | Poss=Yes, Gender[psor], Gender+Animacy, Number, Case | NameType (pokud je odvozeno z vlastního jména) |
ADJ Řadová číslovka adjektivní („druhý“) | NumType=Ord, Gender+Animacy, Number, Case | |
ADJ Násobná číslovka adjektivní („dvojí“) | NumType=Mult, Gender+Animacy, Number, Case | |
ADJ Dlouhý tvar činného příčestí (-cí, -ší) (nikoli -lý, taky to neplatí pro složeniny typu všemohúcí) | VerbForm=Part, Voice=Act, Aspect, Tense, Gender+Animacy, Number, Case, Polarity | |
ADJ Dlouhý tvar trpného příčestí (-ný, -tý) | VerbForm=Part, Voice=Pass, Aspect, Gender+Animacy, Number, Case, Degree, Polarity | |
ADJ Krátký tvar trpného příčestí (-n, -t) | VerbForm=Part, Voice=Pass, Variant=Short, Aspect, Gender+Animacy, Number, Case, Degree (asi vždy =Pos), Polarity | |
PRON Zájmeno osobní v 1. nebo 2. osobě | PronType=Prs, Person, Number, Case | Variant=Short (klitika: pouze pro tvary mě, mi, tě, ti) |
PRON Zájmeno osobní ve 3. osobě | PronType=Prs, Person=3, Gender+Animacy, Number, Case | Variant=Short (klitika: pouze pro tvary ho, mu), PrepCase (povinné pro rozlišení „jeho/něho“, nepoužívá se pro „on“) |
PRON Zájmeno zvratné | PronType=Prs, Reflex=Yes, Case | Variant=Short (klitika: pouze pro tvary se, si) |
PRON Zájmeno typu „kdo, kdož, někdo, nikdo“ | PronType, Gender=Masc, Animacy=Anim, Case | |
PRON Zájmeno typu „co, což, něco, nic“ | PronType, Case | |
PRON Zájmeno typu „jenž, jenžto“ | PronType=Rel, Gender+Animacy, Number, Case, PrepCase (jen v případě přítomnosti resumptivního zájmena se neanotují pád, číslo, rod+životnost) | |
PRON Zájmeno typu „an“ | PronType=Rel, Gender+Animacy, Number, Case=Nom | |
DET Zájmeno přivlastňovací v 1. nebo 2. osobě („můj, tvůj“) | PronType=Prs, Poss=Yes, Person, Number[psor], Gender+Animacy, Number, Case | |
DET Zájmeno přivlastňovací ve 3. osobě („jeho“) | PronType=Prs, Poss=Yes, Person=3, Number[psor]=Sing, Gender[psor], Gender+Animacy, Number, Case | |
DET Zájmeno přivlastňovací ve 3. osobě („její, jejie“) | PronType=Prs, Poss=Yes, Person=3, Number[psor]=Sing, Gender[psor]=Fem, Gender+Animacy, Number, Case. | |
DET Zájmeno přivlastňovací ve 3. osobě („jejich, jich“) | PronType=Prs, Poss=Yes, Person=3, Number[psor]=Plur, Gender+Animacy, Number, Case | |
DET Zájmeno přivlastňovací zvratné („svůj, svój“) | PronType=Prs, Poss=Yes, Reflex=Yes, Gender+Animacy, Number, Case | |
DET Zájmeno vztažné přivlastňovací („jehož, jehožto“) | PronType=Rel, Poss=Yes, Number[psor]=Sing, Gender[psor], Gender+Animacy, Number, Case | |
DET Zájmeno vztažné přivlastňovací („jejíž, jejížto“) | PronType=Rel, Poss=Yes, Number[psor]=Sing, Gender[psor]=Fem, Gender+Animacy, Number, Case | |
DET Zájmeno vztažné přivlastňovací („jejichž, jichžto“) | PronType=Rel, Poss=Yes, Number[psor]=Plur, Gender+Animacy, Number, Case | |
DET Zájmeno „všechen“, „veš“, „vešken“, … | PronType=Tot, Gender+Animacy, Number, Case (lemma je vždy všechen) | |
DET Zájmeno „sám, samý“ | PronType=Emp, Gender+Animacy, Number, Case | Variant=Short |
DET Zájmeno typu „jaký, který, nějaký, některý, …“ | PronType, Gender+Animacy, Number, Case | |
DET Zájmeno typu „čí, něčí, ničí“ | PronType, Poss=Yes, Gender+Animacy, Number, Case | |
DET Číslovka základní zájmenná („kolik, mnoho“) | PronType, NumType=Card, Case | |
DET Číslovka řadová zájmenná adjektivní („kolikátý“) | PronType, NumType=Ord, Gender+Animacy, Number, Case | |
DET Číslovka násobná zájmenná adjektivní („kolikerý“) | PronType, NumType=Mult, Gender+Animacy, Number, Case | |
NUM Číslo arabskými číslicemi | NumType=Card, NumForm=Digit | |
NUM Číslo římskými číslicemi | NumType=Card, NumForm=Roman | |
NUM Číslovka základní „jeden, jedna, jedno“ | NumType=Card, NumForm=Word, Gender+Animacy, Number=Sing, Case | |
NUM Číslovka základní „dva, dvě“ | NumType=Card, NumForm=Word, Gender, Number=Dual/Plur???, Case | |
NUM Číslovka základní „oba, obě“ | NumType=Card, NumForm=Word, PronType=Tot, Gender, Number=Dual/Plur???, Case | |
NUM Číslovka základní „tři, čtyři, pět, …“ | NumType=Card, NumForm=Word, Number=Plur, Case | |
NUM Číslovka základní „půl“ | NumType=Card, NumForm=Word | |
NUM Číslovka pro množiny „jedny, dvoje, troje, čtvery, …“ | NumType=Sets, NumForm=Word, Number=Plur, Case JP: jak to lemmatizovat? DZ: Lemmatizoval bych to na nominativ toho duálu/plurálu, tj. na tvary uvedené zde jako příklady. Problém ale je, že celá tahle kategorie pochází z nějaké dávné konverzní tabulky a když jsem teď hledal příklady v datech, tak jich tam jednak je málo, jednak ta jejich anotace neodpovídá. Vypadá to, že dvoje je teď analyzováno jako variantní tvar číslovky dvojí. | |
VERB/AUX Sloveso v infinitivu nebo supinu | VerbForm=Inf resp. Sup, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
VERB/AUX Sloveso v přítomném tvaru (včetně dokonavých) | VerbForm=Fin, Mood=Ind, Tense=Pres, Voice=Act, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
AUX/VERB Sloveso v budoucím tvaru („budu, půjdu“) | VerbForm=Fin, Mood=Ind, Tense=Fut, Voice=Act, Person, Number, Polarity, Aspect=Imp | Vynechat Aspect u obouvidých sloves. |
VERB/AUX Sloveso v imperfektu | VerbForm=Fin, Mood=Ind, Tense=Imp, Voice=Act, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
VERB/AUX Sloveso v aoristu | VerbForm=Fin, Mood=Ind, Tense=Past, Voice=Act, Person, Number, Polarity, Aspect, Variant | Vynechat Aspect u obouvidých sloves. |
VERB/AUX L-ové příčestí | VerbForm=Part, Tense=Past, Voice=Act, Gender+Animacy, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
VERB/AUX Sloveso v imperativu | VerbForm=Fin, Mood=Imp, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
AUX Kondicionál („bych, bys, bychom, byste“) | VerbForm=Fin, Mood=Cnd, Person, Number, Aspect=Imp | |
AUX Kondicionál („by“) | VerbForm=Fin, Mood=Cnd, Aspect=Imp (nedávají se Person ani Number! viz rozbor zde: kondicionál) | |
VERB/AUX Přechodník v singuláru | VerbForm=Conv, Tense, Voice=Act, Gender+Animacy, Number=Sing, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
VERB/AUX Přechodník v duálu/plurálu | VerbForm=Conv, Tense, Voice=Act, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
ADV Příslovce stupňovatelné („snadno, snadněji, nejsnadněji“) | Degree, Polarity | |
ADV Příslovce zájmenné kromě Tot („kde, kdy, někde, …“) | PronType | |
ADV Příslovce zájmenné totální („vždy, nevždy, …“) | PronType=Tot, Degree=Pos, Polarity | |
ADV Číslovka násobná adverbiální („kolikrát“) | NumType=Mult | PronType |
ADV Číslovka řadová adverbiální („pokolikáté“) | NumType=Ord | PronType |
ADV Příslovce ostatní („snad, lzě, nelzě, velmi, …“) | Degree=Pos, Polarity | |
ADP Předložka | AdpType, Case | |
CCONJ Spojka souřadicí | ||
SCONJ Spojka podřadicí | ||
PART Částice | ||
INTJ Citoslovce | ||
SYM Symbol jiný než interpunkce („$, €, …“) | ||
PUNCT Interpunkce |
vstříc: vyskytuje-li se v kontextu jméno v dativu, pak je to vždy předložka (bez ohledu na slovosled/projektivitu)
jich, jeho, jie: pokud modifikuje jméno, je to posesivum bez ohledu na slovosled, pokud ne, je to genitiv osobního zájmena
toť: následuje-li předpokládaná pauza/intonační předěl, je to částice, jinak jde o spojení zájmena a částice
proto(ž): příslovce nebo spojka, dle kontextu