Obsah

UD anotace staročeského a středněčeského etalonu

Vychází se jednak z anotačních pravidel UD (a to jak obecných, tak těch specifických pro slovanské jazyky a češtinu), jednak ze zkušeností z pilotního projektu v roce 2022 (anotace Matoušova evangelia z Bible drážďanské a olomoucké). K tomu externí odkazy:

Odkazy na stránky s evidencí nejasností/problémů

Anotační nástroje a formát souboru

Návod, jak anotovat v tabulkovém procesoru

Pravidla pro anotaci poškozených textů

Slovní druhy

Substantiva

Rozlišují se obecná (NOUN) a vlastní (PROPN). Slovo, které je hlavou nebo prvním slovem víceslovného jména, není automaticky PROPN (ale může jím být i PROPN). Např. ve výrazu Univerzita Karlova má mít slovo Univerzita značku NOUN. Zahrnují i slovesná podstatná jména; ta se od běžných odliší rysem VerbForm=Vnoun.

Substantivizovaná adjektiva (např. kajúcí) jsou anotována jako adjektiva (POS=ADJ). Výjimkou jsou taková substantiva s adjektivní formou, která už v současné češtině nemohou vůbec fungovat jako adjektiva, např. průvodčí, pouze ta se značkují jako substantiva (POS=NOUN).

Adjektiva

Zahrnují dlouhé i krátké tvary.

U krátkých (jmenných) forem adjektiv anotovat stupeň i pád, jako lemma vždy uvádět dlouhou formu.

Za adjektiva se pokládají také všechny (dlouhé i krátké) tvary trpných (tj. N-ových/T-ových) příčestí. (Naproti tomu L-ová příčestí zůstávají zahrnuta pod slovesy.) Příčestí se od běžných adjektiv odliší pomocí rysu VerbForm=Part a případně dalších slovesných rysů (Aspect, Voice, Tense). U příčestí anotovat pád, rod i životnost.

Značku ADJ mají také řadové číslovky typu první, druhý, třetí, od běžných adjektiv se odliší pomocí rysu NumType=Ord.

Zájmena

V UD se rozlišují pronouns PRON a determiners DET. Ve slovanských jazycích se sice kategorie determinátoru tradičně nepoužívá, ale v UD slovanských jazyků se tato značka využívá (zneužívá?) k rozlišení zájmen, která se mohou chovat podobně jako adjektiva, od těch ostatních. Schopností chovat se jako adjektiva se myslí rozvití nějakého substantiva a morfologické vyjádření shody s ním. Ve výsledku jde přibližně o zájmena, která rozlišují rod, ale neplatí to beze zbytku – např. osobní zájmena on, ona, ono jsou PRON, i když rozlišují rod. Značku DET dostanou bez ohledu na to, zda v dané větě opravdu rozvíjejí nějaké substantivum; může se proto stát, že DET se objeví v pozici podmětu nebo předmětu (např. u zájmen to, který, každý).

U nesklonných posesivních zájmen jeho, jejich a jich se pád, číslo a rod+životnost anotují, a to podle shody/smyslu. Totéž už zájmena jejie/její, přičemž je lhostejné, jestli je nesklonné, nebo není.

Zájmena typu kdo, co, který mohou být podle kontextu Int, Rel nebo Ind. Ind jsou tehdy, pokud je můžeme nahradit výrazy typu někdo, něco, některý. Mezi Int a Rel rozlišujeme tak, že za Int se to pokládá jen v přímých otázkách (v hlavní větě, s otazníkem), naopak v souvětích vždy Rel (např. i nevím/ptám se, kdo přišel.

Forma ješto – pokud je to ve funkci vztažného zájmena (PRON), lemmatizujeme jako jenžto. Kromě toho se může jednat i o vztažné příslovce (ADV) nebo o podřadicí spojku (SCONJ), v obou těchto případech lemmatizujeme jako ježto (protože je to neohebné). U zájmen s lemmatem jenž a jenžto anotujeme pád, číslo i rod+životnost bez ohledu na sklonnost/nesklonnost, pouze v případě přítomnosti resumptivního zájmena se tyto rysy neanotují (viz též tabulku dole).

Zájmeno sám/samý: vždy PronType=Emp a vždy lemma sám; krátká forma sám je odlišena tagem „Short“

Číslovky

Slovesa

Slovesa být, bývat, bývávat: POS=AUX (vždy!). Kondicionálové by, bych, bys, bychom, byste se považuje za tvar lemmatu být. Všechna ostatní slovesa (včetně modálních) jsou POS=VERB (s výjimkou některých druhů příčestí, které se anotují a lemmatizují jako ADJ).

Trpná participia (N-ová a T-ová) (tj. trpná) příčestí jsou vždy POS=ADJ (ale VerbForm=Part) bez ohledu na to, zda jde o krátký nebo dlouhý tvar. Anotuje se u nich pád.

L-ová participia jsou POS=VERB (a VerbForm=Part)

NT-ová participia („přítomné přechodníky“): POS=VERB, VerbForm=Conv, Tense=Pres; pád se neanotuje; číslo se anotuje podle významu (duál s přihlédnutím ke kontextu, tj. podle přítomnosti jasně duálového tvaru, viz níže); rod se anotuje pouze v singuláru, a to podle významu, nikoli podle formy

S-ová participia („minulé přechodníky“): POS=VERB, VerbForm=Conv, Tense=Past; pád se neanotuje; číslo se anotuje podle významu (duál s přihlédnutím ke kontextu, tj. podle přítomnosti jasně duálového tvaru, viz níže); rod se anotuje pouze v singuláru, a to podle významu, nikoli podle formy

Imperfektum: VerbForm=Fin, Tense=Imp

Aorist: VerbForm=Fin, Tense=Past, Variant=Long (sigmatický) / Short (asigmatický) (u sloves majících oba typy aoristu se tvary 2. a 3. sg. typu nese pokládají pouze za asigmatický)

Prézentní tvar dokonavých sloves: Tense=Pres

Verbální substantiva (zakočená -nie/-tie) jsou POS=NOUN a VerbForm=Vnoun

Verbální adjektiva (typu dělající, udělavší) jsou POS=ADJ a VerbForm=Part

Předložky

Předložka v realizovaná jako u: Lemma=„u“; PrepType=Voc; pád buď Acc, nebo Loc dle kontextu

Částice

Cílem je používat je v UD spíše méně. Slova vyjadřující postoj autora ke sdělení věty (např. bohužel) jsou anotována jako příslovce (POS=ADV). Částice jsou tak trochu negativně definovaná kategorie: Co se nedá dát rozumně jinam, skončí tady. Současně ale pravidla UD předpokládají, že pro každý jazyk bude v dokumentaci vyjmenováno, která slova dostávají POS=PART a proč.

Cizí slova

Zde máme na mysli nikoli slova přejatá z cizího jazyka (s těmi se zachází jako s každým jiným českým slovem), ale střídání kódů, tedy slova nebo fráze v cizím jazyce (např. v latině), která se ocitla uvnitř českého textu. UD umožňují několik přístupů, jak s takovým materiálem naložit. Na jednom konci škály je možnost anotovat cizí text podle gramatiky a anotačních pravidel cizího jazyka, na druhém konci pak možnost říct, že daný segment do hlavního jazyka textu nepatří, a více se jím nezabývat. My se přidržíme této druhé možnosti: Lemma je identické se slovním tvarem (převedným na malá písmena, u vlastních jmen dáváme první velké), značka UPOS je X, nejsou vyplněny žádné morfologické rysy s výjimkou Foreign=Yes. Ještě se musíme dohodnout, zda chceme ve sloupci MISC uchovávat kód jazyka (např. OrigLang=la pro latinu). Pravidla, jak rozhodnout, jestli je slovo ještě cizí, nebo už přejaté do češtiny, bude asi nutné v průběhu anotace dopracovat; zatím lze říct následující:

Interpunkce zůstává interpunkcí, i pokud je obklopena cizojazyčným textem, tedy značka UPOS je PUNCT a rys Foreign=Yes se nedává.

Gramatické kategorie

Rod

Nejednoznačné tvary se rozlišují podle kontextu, např. pro adjektivum velikému je třeba rozhodnout mezi maskulinem a neutrem (tedy nenechat tam Gender=Masc,Neut, i kdyby to UDPipe navrhl).

U přechodníků se rod anotuje pouze v singuláru, a to podle významu, ne formy.

Pokud jméno kolísá v rodě a není rod jasný z kontextu, vycházet z hierarchie Masc > Fem > Neut.

Životnost

Rozlišuje se ve všech případech, kdy je anotován mužský rod. U jiných rodů nebo bezrodých slov se nerozlišuje.

U substantiv se životnost rozlišuje podle stavu v současné češtině. U jiných slovních druhů postupovat podle toho, jaké substantivum rovíjejí/zastupují, s výjimkou případů, kdy mají příznakově opačný tvar, než by tomu substantivu odpovídalo (pozor, v těchto případech může mít například přívlastek jinou hodnotu životnosti než jeho řídící substantivum!). Podrobnější rozbor zde.

Číslo

Používáme pouze Sing, Dual a Plur. Vůbec tedy nepracujeme s hodnotami Coll, Ptan.

Nejednoznačné tvary se rozlišují podle kontextu, např. pro adjektivum veliké je třeba rozhodnout mezi singulárem (neutra) a plurálem (feminina, resp. neživotného maskulina).

Duál: Number=Dual, anotováno podle formy buď slova samotného nebo jeho okolí. Jde o to rozlišit případy, kdy se ještě duál používal a kdy už ne; čili nebudeme anotovat duál jen proto, že víme, že se mluví o dvou entitách; v novočeských datech to taky neděláme. V novočeských datech se duál anotuje pouze u instrumentálu párových orgánů (očima, ušima, rukama, nohama) a dále adjektiv (a determinátorů), která s nimi vyjadřují shodu a používají k tomu koncovku -ýma.

Pád

U slov, u kterých se očekává neprázdná hodnota rysu Case, se nejednoznačné tvary zjednoznačňují podle kontextu. Pokud kontext není jednoznačný, rozhodujeme se primárně podle situace ve zbytku textu, je-li to možné.

Gender[psor]

Zjednoznačňujeme podle významu (tj. u „jeho“ rozlišováno mezi maskulinem a neutrem, což UDPipe nedělal).

Vid

U obouvidových sloves anotujeme vid tam, kde je z kontextu jasný. Pokud z kontextu jasný není, tak ho nevyplňujeme. (Na to, kdy je to jasné a kdy ne, ale můžou být různé názory.) Pokud nejde o obouvidové sloveso, ale o dvě homonymní slovesa lišící se videm (tj. při změně vidu se podstatně mění i význam, např. hoditi), vid se normálně anotuje.

Polarity

Řešíme takto (tvar-lemma-tag) takto: 1) substantiva: nepřítel-nepřítel-v tagu se nic neznačí; 2) slovesa: nekoupí-koupit-negace součástí tagu; 3) adjektiva a adverbia (odvozená od adjektiv): nevelký-velký-negace součástí tagu (stejně jako u sloves).

U substantiv se tedy s touto kategorií nepracuje (a to ani u substantiv verbálních), u substantiv začínajících na ne- je tento prefix i v lemmatu. Naopak u sloves, adjektiv a deadjektivních adverbií mají záporné tvary Polarity=Neg a je lemma bez záporky.

Vyžadované a povolené rysy u jednotlivých druhů slov

Povinné rysy (sloupce v tabulce) musí mít pro daný slovní druh neprázdnou hodnotu (jednu z povolených). Když je uvedeno Gender+Animacy, znamená to, že životnost je povinná pro Gender=Masc a zakázaná pro ostatní rody.

Slovní druh Povinné rysy Volitelné rysy
X Cizí slovo Foreign=Yes
NOUN Podstatné jméno obecné Gender+Animacy, Number, Case
NOUN Podstatné jméno slovesné (-ní, -nie, -tí, -tie) VerbForm=Vnoun, Gender=Neut, Number, Case
PROPN Vlastní jméno Gender+Animacy, Number, Case NameType
ADJ Přídavné jméno (dlouhý tvar) Gender+Animacy, Number, Case, Degree, Polarity
ADJ Přídavné jméno (krátký tvar) Variant=Short, Gender+Animacy, Number, Case, Degree, Polarity
ADJ Přídavné jméno přivlastňovací Poss=Yes, Gender[psor], Gender+Animacy, Number, Case NameType (pokud je odvozeno z vlastního jména)
ADJ Řadová číslovka adjektivní („druhý“) NumType=Ord, Gender+Animacy, Number, Case
ADJ Násobná číslovka adjektivní („dvojí“) NumType=Mult, Gender+Animacy, Number, Case
ADJ Dlouhý tvar činného příčestí (-cí, -ší) (nikoli -lý, taky to neplatí pro složeniny typu všemohúcí) VerbForm=Part, Voice=Act, Aspect, Tense, Gender+Animacy, Number, Case, Polarity
ADJ Dlouhý tvar trpného příčestí (-ný, -tý) VerbForm=Part, Voice=Pass, Aspect, Gender+Animacy, Number, Case, Degree, Polarity
ADJ Krátký tvar trpného příčestí (-n, -t) VerbForm=Part, Voice=Pass, Variant=Short, Aspect, Gender+Animacy, Number, Case, Degree (asi vždy =Pos), Polarity
PRON Zájmeno osobní v 1. nebo 2. osobě PronType=Prs, Person, Number, Case Variant=Short (klitika: pouze pro tvary mě, mi, tě, ti)
PRON Zájmeno osobní ve 3. osobě PronType=Prs, Person=3, Gender+Animacy, Number, Case Variant=Short (klitika: pouze pro tvary ho, mu), PrepCase (povinné pro rozlišení „jeho/něho“, nepoužívá se pro „on“)
PRON Zájmeno zvratné PronType=Prs, Reflex=Yes, Case Variant=Short (klitika: pouze pro tvary se, si)
PRON Zájmeno typu „kdo, kdož, někdo, nikdo“ PronType, Gender=Masc, Animacy=Anim, Case
PRON Zájmeno typu „co, což, něco, nic“ PronType, Case
PRON Zájmeno typu „jenž, jenžto“ PronType=Rel, Gender+Animacy, Number, Case, PrepCase (jen v případě přítomnosti resumptivního zájmena se neanotují pád, číslo, rod+životnost)
PRON Zájmeno typu „an“ PronType=Rel, Gender+Animacy, Number, Case=Nom
DET Zájmeno přivlastňovací v 1. nebo 2. osobě („můj, tvůj“) PronType=Prs, Poss=Yes, Person, Number[psor], Gender+Animacy, Number, Case
DET Zájmeno přivlastňovací ve 3. osobě („jeho“) PronType=Prs, Poss=Yes, Person=3, Number[psor]=Sing, Gender[psor], Gender+Animacy, Number, Case
DET Zájmeno přivlastňovací ve 3. osobě („její, jejie“) PronType=Prs, Poss=Yes, Person=3, Number[psor]=Sing, Gender[psor]=Fem, Gender+Animacy, Number, Case.
DET Zájmeno přivlastňovací ve 3. osobě („jejich, jich“) PronType=Prs, Poss=Yes, Person=3, Number[psor]=Plur, Gender+Animacy, Number, Case
DET Zájmeno přivlastňovací zvratné („svůj, svój“) PronType=Prs, Poss=Yes, Reflex=Yes, Gender+Animacy, Number, Case
DET Zájmeno vztažné přivlastňovací („jehož, jehožto“) PronType=Rel, Poss=Yes, Number[psor]=Sing, Gender[psor], Gender+Animacy, Number, Case
DET Zájmeno vztažné přivlastňovací („jejíž, jejížto“) PronType=Rel, Poss=Yes, Number[psor]=Sing, Gender[psor]=Fem, Gender+Animacy, Number, Case
DET Zájmeno vztažné přivlastňovací („jejichž, jichžto“) PronType=Rel, Poss=Yes, Number[psor]=Plur, Gender+Animacy, Number, Case
DET Zájmeno „všechen“, „veš“, „vešken“, … PronType=Tot, Gender+Animacy, Number, Case (lemma je vždy všechen)
DET Zájmeno „sám, samý“ PronType=Emp, Gender+Animacy, Number, Case Variant=Short
DET Zájmeno typu „jaký, který, nějaký, některý, …“ PronType, Gender+Animacy, Number, Case
DET Zájmeno typu „čí, něčí, ničí“ PronType, Poss=Yes, Gender+Animacy, Number, Case
DET Číslovka základní zájmenná („kolik, mnoho“) PronType, NumType=Card, Case
DET Číslovka řadová zájmenná adjektivní („kolikátý“) PronType, NumType=Ord, Gender+Animacy, Number, Case
DET Číslovka násobná zájmenná adjektivní („kolikerý“) PronType, NumType=Mult, Gender+Animacy, Number, Case
NUM Číslo arabskými číslicemi NumType=Card, NumForm=Digit
NUM Číslo římskými číslicemi NumType=Card, NumForm=Roman
NUM Číslovka základní „jeden, jedna, jedno“ NumType=Card, NumForm=Word, Gender+Animacy, Number=Sing, Case
NUM Číslovka základní „dva, dvě“ NumType=Card, NumForm=Word, Gender, Number=Dual/Plur???, Case
NUM Číslovka základní „oba, obě“ NumType=Card, NumForm=Word, PronType=Tot, Gender, Number=Dual/Plur???, Case
NUM Číslovka základní „tři, čtyři, pět, …“ NumType=Card, NumForm=Word, Number=Plur, Case
NUM Číslovka základní „půl“ NumType=Card, NumForm=Word
NUM Číslovka pro množiny „jedny, dvoje, troje, čtvery, …“ NumType=Sets, NumForm=Word, Number=Plur, Case JP: jak to lemmatizovat? DZ: Lemmatizoval bych to na nominativ toho duálu/plurálu, tj. na tvary uvedené zde jako příklady. Problém ale je, že celá tahle kategorie pochází z nějaké dávné konverzní tabulky a když jsem teď hledal příklady v datech, tak jich tam jednak je málo, jednak ta jejich anotace neodpovídá. Vypadá to, že dvoje je teď analyzováno jako variantní tvar číslovky dvojí.
VERB/AUX Sloveso v infinitivu nebo supinu VerbForm=Inf resp. Sup, Polarity, Aspect Vynechat Aspect u obouvidých sloves.
VERB/AUX Sloveso v přítomném tvaru (včetně dokonavých) VerbForm=Fin, Mood=Ind, Tense=Pres, Voice=Act, Person, Number, Polarity, Aspect Vynechat Aspect u obouvidých sloves.
AUX/VERB Sloveso v budoucím tvaru („budu, půjdu“) VerbForm=Fin, Mood=Ind, Tense=Fut, Voice=Act, Person, Number, Polarity, Aspect=Imp Vynechat Aspect u obouvidých sloves.
VERB/AUX Sloveso v imperfektu VerbForm=Fin, Mood=Ind, Tense=Imp, Voice=Act, Person, Number, Polarity, Aspect Vynechat Aspect u obouvidých sloves.
VERB/AUX Sloveso v aoristu VerbForm=Fin, Mood=Ind, Tense=Past, Voice=Act, Person, Number, Polarity, Aspect, Variant Vynechat Aspect u obouvidých sloves.
VERB/AUX L-ové příčestí VerbForm=Part, Tense=Past, Voice=Act, Gender+Animacy, Number, Polarity, Aspect Vynechat Aspect u obouvidých sloves.
VERB/AUX Sloveso v imperativu VerbForm=Fin, Mood=Imp, Person, Number, Polarity, Aspect Vynechat Aspect u obouvidých sloves.
AUX Kondicionál („bych, bys, bychom, byste“) VerbForm=Fin, Mood=Cnd, Person, Number, Aspect=Imp
AUX Kondicionál („by“) VerbForm=Fin, Mood=Cnd, Aspect=Imp (nedávají se Person ani Number! viz rozbor zde: kondicionál)
VERB/AUX Přechodník v singuláru VerbForm=Conv, Tense, Voice=Act, Gender+Animacy, Number=Sing, Polarity, Aspect Vynechat Aspect u obouvidých sloves.
VERB/AUX Přechodník v duálu/plurálu VerbForm=Conv, Tense, Voice=Act, Number, Polarity, Aspect Vynechat Aspect u obouvidých sloves.
ADV Příslovce stupňovatelné („snadno, snadněji, nejsnadněji“) Degree, Polarity
ADV Příslovce zájmenné kromě Tot („kde, kdy, někde, …“) PronType
ADV Příslovce zájmenné totální („vždy, nevždy, …“) PronType=Tot, Degree=Pos, Polarity
ADV Číslovka násobná adverbiální („kolikrát“) NumType=Mult PronType
ADV Číslovka řadová adverbiální („pokolikáté“) NumType=Ord PronType
ADV Příslovce ostatní („snad, lzě, nelzě, velmi, …“) Degree=Pos, Polarity
ADP Předložka AdpType, Case
CCONJ Spojka souřadicí
SCONJ Spojka podřadicí
PART Částice
INTJ Citoslovce
SYM Symbol jiný než interpunkce („$, €, …“)
PUNCT Interpunkce

Problematická slova

vstříc: vyskytuje-li se v kontextu jméno v dativu, pak je to vždy předložka (bez ohledu na slovosled/projektivitu)

jich, jeho, jie: pokud modifikuje jméno, je to posesivum bez ohledu na slovosled, pokud ne, je to genitiv osobního zájmena

toť: následuje-li předpokládaná pauza/intonační předěl, je to částice, jinak jde o spojení zájmena a částice

proto(ž): příslovce nebo spojka, dle kontextu