UD se od jiných anotačních schémat odlišuje tím, že má dvě roviny segmentace věty na menší jednotky. Nižší z obou rovin odpovídá klasické tokenizaci, kde token je buď ohraničen mezerami, nebo předělem mezi písmeny a jinými znaky, zejména interpunkcí. Druhé z obou rovin se někdy říká slovní segmentace (word segmentation) a uplatňuje se v případech, kdy je důvod rozdělit token složený z písmen. V terminologii UD jde o víceslovný token (multiword token) a části, na které je rozdělen, jsou slova – míněno morfosyntaktická slova (zatímco původní víceslovný token je ortografickým slovem). Tvar původního víceslovného tokenu je v anotovaných datech zachován, takže je možné zpětně namapovat morfosyntaktická slova na původní text věty. Víceslovný token však není uzlem v závislostním stromu a nenese ani žádné morfologické anotace.
Tato rovina slovní segmentace není využita ve všech jazycích. V novočeských datech využita je, ale projevuje se poměrně zřídka. Většina povrchových tokenů jsou tedy současně slovy a uzly závislostního stromu (v tomto smyslu je slovem-uzlem i token, který bychom se jinak zdráhali prohlásit za slovo, např. interpunkce).
Segmentace víceslovných tokenů je koncipována tak, aby jednotlivá slova nemusela být pouze podřetězci povrchového tokenu (nebo obráceně, není požadováno, aby prostým sřetězením částí vznikl víceslovný token v tom tvaru, v jakém se vyskytl na povrchu). Dílčí slova mají ve sloupci FORM uveden hypotetický tvar, který by se pravděpodobně použil, kdyby dotyčná morfosyntaktická slova nebyla stažena do jednoho ortografického slova. Ví se, pod který víceslovný token které slovo patří, ale není třeba vyznačovat, které části tvaru tokenu toto slovo odpovídá, a UD na to ani neposkytuje mechanismus. (Poznámka: UD ani nezakazuje použít jako tvar dílčího slova přesný podřetězec tvaru víceslovného tokenu a některé jazyky tomu dávají přednost, čeština ale mezi ně nepatří. Oba přístupy mají své výhody i nevýhody.)
Popis druhů víceslovných tokenů a pravidla jejich segmentace v českých UD jsou zdokumentována na stránce https://universaldependencies.org/cs/tokenization.html.
CCONJ
a závislost cc
. Alternativou by u slovního druhu bylo asi PART
, u závislosti snad discourse
.Následující slova by bylo možné rozložit na menší slovo + ť, zpravidla to u nich ale nebudeme dělat (resp. budeme to dělat jen za určitých okolností). Jejich funkce se v současné češtině zřetelně liší od funkce odpovídajícího slova bez -ť. Výjimkou by byl případ, kdy by se slovo s -ť vyskytlo zjevně v platnosti slova bez -ť, např. kdyby se vždyť objevilo ve významu vždy (JP: To se myslím zrovna u toho vždyť docela děje, i když je to asi leckdy obtížně prokazatelné). Specifickým případem je slovo byť, viz komentář přímo v tabulce. Opačné případy, např. staročeské nebo s funkcí dnešního neboť, se nijak zvlášť neoznačují.
Slovo | PDT | Poznámka | |
---|---|---|---|
výskyty | UPOS | ||
ať | 123 | SCONJ | |
61 | PART | ||
byť | 120 | SCONJ | POZOR, pro starou češtinu byť v typických spojeních s l-ovým participiem (byť přišel) nechápeme jako lexikalizovanou spojku, ale jako multiword token, totiž spojení by (AUX, jde o pomocný tvar kondicionálu) a ť (PART). Za spojku byť pokládáme pouze v případě, že by to jako pomocný tvar kondicionálu interpetovat nešlo, tj. buď by v kontextu bylo další by (byť by přišel), nebo by tam nebylo l-ové participium tvořící zbytek kondicionáového tvaru (např. byť přijde). |
nebť | CCONJ | ||
neboť | 411 | CCONJ | |
nechť | 38 | PART | |
toť | 2 | PART | Ne vždy je to lexikalizované, může jít i o běžné spojení zájmena ten (DET) s částicí ť (PART). Lexikalizované je to v případech typu aj toť, budeš mlčěti. Běžné zájmeno + ť je to v případech typu toť jest mistr plný milosti; toť chcu učiniti (zájmeno ten v nelexikalizovaných případech může být i v jiných tvarech, např. tenť obyčěj v sobě jmají). (Poznámka DZ k PDT: značka PDNS1. Po vzoru zájmena to to v UD dostalo značku DET, ale asi by to mělo být PRON, protože tvary v jiných rodech (tenť, tať) se nevyskytují. Ve skutečnosti toť funguje jako zájmenná spona.) |
vždyť | 100 | CCONJ | |
7 | PART | Není jasné, podle čeho se anotátoři PDT rozhodli pro PART. Asi by to všechno mohlo být CCONJ. |
Emph=Yes
(emphatic), kterou už si některé jazyky v UD pro své účely dodefinovaly. Pokud bychom v budoucnosti chtěli způsob anotace revidovat a třeba přece jen oddělit -ž jako samostatné slovo, půjde to udělat skriptem. JP: Souhlasím. MS: Taky souhlasím.
DZ: Soubory pro anotaci vygenerované v první várce neobsahují sloupec pro rys Emph
. Pro budoucí anotace bych mohl soubory přegenerovat s tímto sloupcem, ale u souborů, jejichž anotace už začala, se musíme obejít bez něj. Mohli bychom zneužít některý existující sloupec, který se málo využívá, např. Hyph
. Přidám do zpracování pravidlo, že Hyph=ž
ve skutečnosti znamená Emph=Yes
a má se na něj převést.
Nasledující slova končí na -ž a po jeho případném odtržení by pořád zbylo existující české slovo. (ZMĚNA: V některých případech nyní doplňuji i tvary, kde zbytek po odtržení není slovo.) Ponechávám stranou debatu, zda vůbec všechna tímto způsobem vznikla, ale pokud ano, tak je považujeme za lexikalizovaná, tj. i jejich lemma obsahuje -ž a nepřidává se žádná morfologická značka, která by na koncové -ž upozorňovala. Výjimkou by mohl být případ, kdy by se slovo se -ž vyskytlo zjevně v platnosti slova bez -ž, např. kdyby se když objevilo ve významu kdy. JP: Pro starou češtinu bych mezi tyto případy počítal i zájmena / zájmenná příslovce zakončená na -ž, např. ktož, kterýž, jenž, kdež apod., a nejspíš i nikdež, niktož, něktož, ledaktož apod. Pokud je tak nebudeme brát paušálně všechna, tak se nám asi nepodaří to dělat jednotně. Ale je pak otázka, co s tím problematickým kdy-ž. DZ: Se zájmeny a zájmennými příslovci určitě souhlas, ona ta tabulka nebyla a ani teď není kompletní. Pokud jde o kdy-ž, to je právě zvláštní tím, že v současné češtině se když používá s dost posunutou funkcí; naopak kdož téměř vymizelo, a když už se objeví, je to pro mě totéž jako kdo. Ale nijak bych se nebránil tomu ho spláchnout s ostatními a říct, že žádnou výjimku mít nemá. MS: Souhlasím se spláchnutím a bez výjimky. U „kdy“ a „když“ bych se držel formy, a neřešil pokud možno význam - takže dvě různá lemmata.
Tabulka
Slovo | PDT | Poznámka | |
---|---|---|---|
výskyty | UPOS | ||
aniž | 120 | SCONJ | |
avšakž | CCONJ | ||
až | 1384 | PART | |
639 | CCONJ | ||
139 | SCONJ | ||
budiž | 5 | PART | V nové češtině se vyskytuje jako samostatná klauze (ale budiž). Pokud by šlo o imperativ od existenciálního nebo sponového být, pak to asi za lexikalizované nepovažujeme? |
což | 653 | PRON | PronType=Rel |
3 | INTJ | což o to; a což teprve; vyplnilo se nám to jen což – DZ: Když už, tak bych dal spíš PART než INTJ. | |
1 | PART | Což se XXX neděje? | |
dokudž | ADV/SCONJ | (PronType=Rel) | |
jakovýž | 0 | DET | PronType=Rel |
jakož | 23 | SCONJ | |
jakýž | 0 | DET | PronType=Rel |
jakž | 1 | ADV | |
jehož | 658 | DET | Poss=Yes, PronType=Rel. Ve všech tvarech, tj. např. jejichž, jejíž, jejímž, jejímiž, … |
jenž | 2201 | PRON | PronType=Rel. Ve všech tvarech, tj. např. němž, jehož, nichž, níž, … |
kakž/kakož | ADV | PronType=Rel/Int | |
kdež | 0 | ADV | PronType=Rel |
kdož | 3 | PRON | PronType=Rel. Ve staré češtině také ktož, kdožež. |
když | 2100 | SCONJ | |
kterakž | ADV | PronType=Rel/Int | |
kterýž | 0 | DET | PronType=Rel |
ledaktož | 0 | PRON | PronType=Ind |
natož | 18 | PART | |
někdež | 0 | ADV | PronType=Ind |
někdož | 0 | PRON | PronType=Ind. Ve staré češtině také něktož. |
než | 2143 | SCONJ | |
5 | PART | Tři z těch pěti případů jsou záporné typu nezbývá, než …, ale asi by to klidně i zde mohlo být SCONJ. | |
nikakž/nikakéž | ADV | PronType=Neg | |
nikdež | 0 | ADV | PronType=Neg |
nikdož | 0 | PRON | PronType=Neg. Ve staré češtině také niktož. |
pročež | ADV/SCONJ (?) | PronType=Int/Rel | |
protož | CCONJ/ADV | ||
rovněž | 457 | ADV | |
takéž | ADV | ||
takovýtéž | 0 | DET | PronType=Dem |
takž | 1 | ADV | |
takož | ADV | ||
takýž | DET | PronType=Dem | |
tentýž | 92 | DET | PronType=Dem |
tenž | DET | PronType=Dem | |
tož | ADV | PronType=Dem | |
týž | 141 | DET | PronType=Dem |
všelicož | 0 | PRON |
Skript zpracovávající anotace momentálně umí následující kombinace. Některé z nich dokáže rozložit už skript, který připravuje soubory k anotaci, takže v nich je rovnou k dispozici samostatný řádek pro každé dílčí slovo.
Slovo | ADP | PRON | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
FORM | LEMMA | AdpType | FORM | LEMMA | PronType | Case | PrepCase | Person | Number | Gender | |
nač | na | na | Prep | co | co | Int,Rel | Acc | ||||
naň | na | na | Prep | něj | on | Prs | Acc | Pre | 3 | Sing | Masc,Neut |
naňž | na | na | Prep | nějž | jenž | Rel | Acc | Pre | Sing | Masc,Neut | |
oč | o | o | Prep | co | co | Int,Rel | Acc | ||||
oň | o | o | Prep | něj | on | Prs | Acc | Pre | 3 | Sing | Masc,Neut |
oňž | o | o | Prep | nějž | jenž | Rel | Acc | Pre | Sing | Masc,Neut | |
proň | pro | pro | Prep | něj | on | Prs | Acc | Pre | 3 | Sing | Masc,Neut |
proňž | pro | pro | Prep | nějž | jenž | Rel | Acc | Pre | Sing | Masc,Neut | |
přědeň | přěd | před | Voc | něj | on | Prs | Acc | Pre | 3 | Sing | Masc,Neut |
skirzěň | skirzě | skrz | Voc | něj | on | Prs | Acc | Pre | 3 | Sing | Masc,Neut |
skirzěňž | skirzě | skrz | Voc | nějž | jenž | Rel | Acc | Pre | Sing | Masc,Neut | |
skrzeň | skrze | skrz | Voc | něj | on | Prs | Acc | Pre | 3 | Sing | Masc,Neut |
skrzeňž | skrze | skrz | Voc | nějž | jenž | Rel | Acc | Pre | Sing | Masc,Neut | |
skrzěň | skrzě | skrz | Voc | něj | on | Prs | Acc | Pre | 3 | Sing | Masc,Neut |
skrzěňž | skrzě | skrz | Voc | nějž | jenž | Rel | Acc | Pre | Sing | Masc,Neut | |
zač | za | za | Prep | co | co | Int,Rel | Acc | ||||
zaň | za | za | Prep | něj | on | Prs | Acc | Pre | 3 | Sing | Masc,Neut |
zaňž | za | za | Prep | nějž | jenž | Rel | Acc | Pre | Sing | Masc,Neut |
Jednou se vyskytlo myslilaj déle ve významu myslila i déle. Nevím, jak moc je to produktivní, prozatím jsem implementoval dělení pouze pro tento konkrétní případ.