Obsah

Tokenizace a slovní segmentace

UD se od jiných anotačních schémat odlišuje tím, že má dvě roviny segmentace věty na menší jednotky. Nižší z obou rovin odpovídá klasické tokenizaci, kde token je buď ohraničen mezerami, nebo předělem mezi písmeny a jinými znaky, zejména interpunkcí. Druhé z obou rovin se někdy říká slovní segmentace (word segmentation) a uplatňuje se v případech, kdy je důvod rozdělit token složený z písmen. V terminologii UD jde o víceslovný token (multiword token) a části, na které je rozdělen, jsou slova – míněno morfosyntaktická slova (zatímco původní víceslovný token je ortografickým slovem). Tvar původního víceslovného tokenu je v anotovaných datech zachován, takže je možné zpětně namapovat morfosyntaktická slova na původní text věty. Víceslovný token však není uzlem v závislostním stromu a nenese ani žádné morfologické anotace.

Tato rovina slovní segmentace není využita ve všech jazycích. V novočeských datech využita je, ale projevuje se poměrně zřídka. Většina povrchových tokenů jsou tedy současně slovy a uzly závislostního stromu (v tomto smyslu je slovem-uzlem i token, který bychom se jinak zdráhali prohlásit za slovo, např. interpunkce).

Segmentace víceslovných tokenů je koncipována tak, aby jednotlivá slova nemusela být pouze podřetězci povrchového tokenu (nebo obráceně, není požadováno, aby prostým sřetězením částí vznikl víceslovný token v tom tvaru, v jakém se vyskytl na povrchu). Dílčí slova mají ve sloupci FORM uveden hypotetický tvar, který by se pravděpodobně použil, kdyby dotyčná morfosyntaktická slova nebyla stažena do jednoho ortografického slova. Ví se, pod který víceslovný token které slovo patří, ale není třeba vyznačovat, které části tvaru tokenu toto slovo odpovídá, a UD na to ani neposkytuje mechanismus. (Poznámka: UD ani nezakazuje použít jako tvar dílčího slova přesný podřetězec tvaru víceslovného tokenu a některé jazyky tomu dávají přednost, čeština ale mezi ně nepatří. Oba přístupy mají své výhody i nevýhody.)

Popis druhů víceslovných tokenů a pravidla jejich segmentace v českých UD jsou zdokumentována na stránce https://universaldependencies.org/cs/tokenization.html.

Problémy při anotaci staročeských dat

Příklonka -ť

Seznam lexikalizovaných výrazů s -ť

Následující slova by bylo možné rozložit na menší slovo + ť, zpravidla to u nich ale nebudeme dělat (resp. budeme to dělat jen za určitých okolností). Jejich funkce se v současné češtině zřetelně liší od funkce odpovídajícího slova bez . Výjimkou by byl případ, kdy by se slovo s vyskytlo zjevně v platnosti slova bez , např. kdyby se vždyť objevilo ve významu vždy (JP: To se myslím zrovna u toho vždyť docela děje, i když je to asi leckdy obtížně prokazatelné). Specifickým případem je slovo byť, viz komentář přímo v tabulce. Opačné případy, např. staročeské nebo s funkcí dnešního neboť, se nijak zvlášť neoznačují.

Slovo PDT Poznámka
výskyty UPOS
123 SCONJ
61 PART
byť 120 SCONJ POZOR, pro starou češtinu byť v typických spojeních s l-ovým participiem (byť přišel) nechápeme jako lexikalizovanou spojku, ale jako multiword token, totiž spojení by (AUX, jde o pomocný tvar kondicionálu) a ť (PART). Za spojku byť pokládáme pouze v případě, že by to jako pomocný tvar kondicionálu interpetovat nešlo, tj. buď by v kontextu bylo další by (byť by přišel), nebo by tam nebylo l-ové participium tvořící zbytek kondicionáového tvaru (např. byť přijde).
nebť CCONJ
neboť 411 CCONJ
nechť 38 PART
toť 2 PART Ne vždy je to lexikalizované, může jít i o běžné spojení zájmena ten (DET) s částicí ť (PART). Lexikalizované je to v případech typu aj toť, budeš mlčěti. Běžné zájmeno + ť je to v případech typu toť jest mistr plný milosti; toť chcu učiniti (zájmeno ten v nelexikalizovaných případech může být i v jiných tvarech, např. tenť obyčěj v sobě jmají). (Poznámka DZ k PDT: značka PDNS1. Po vzoru zájmena to to v UD dostalo značku DET, ale asi by to mělo být PRON, protože tvary v jiných rodech (tenť, tať) se nevyskytují. Ve skutečnosti toť funguje jako zájmenná spona.)
vždyť 100 CCONJ
7 PART Není jasné, podle čeho se anotátoři PDT rozhodli pro PART. Asi by to všechno mohlo být CCONJ.

Příklonka -ž

DZ: Soubory pro anotaci vygenerované v první várce neobsahují sloupec pro rys Emph. Pro budoucí anotace bych mohl soubory přegenerovat s tímto sloupcem, ale u souborů, jejichž anotace už začala, se musíme obejít bez něj. Mohli bychom zneužít některý existující sloupec, který se málo využívá, např. Hyph. Přidám do zpracování pravidlo, že Hyph=ž ve skutečnosti znamená Emph=Yes a má se na něj převést.

Seznam lexikalizovaných výrazů se -ž

Nasledující slova končí na a po jeho případném odtržení by pořád zbylo existující české slovo. (ZMĚNA: V některých případech nyní doplňuji i tvary, kde zbytek po odtržení není slovo.) Ponechávám stranou debatu, zda vůbec všechna tímto způsobem vznikla, ale pokud ano, tak je považujeme za lexikalizovaná, tj. i jejich lemma obsahuje a nepřidává se žádná morfologická značka, která by na koncové upozorňovala. Výjimkou by mohl být případ, kdy by se slovo se vyskytlo zjevně v platnosti slova bez , např. kdyby se když objevilo ve významu kdy. JP: Pro starou češtinu bych mezi tyto případy počítal i zájmena / zájmenná příslovce zakončená na -ž, např. ktož, kterýž, jenž, kdež apod., a nejspíš i nikdež, niktož, něktož, ledaktož apod. Pokud je tak nebudeme brát paušálně všechna, tak se nám asi nepodaří to dělat jednotně. Ale je pak otázka, co s tím problematickým kdy-ž. DZ: Se zájmeny a zájmennými příslovci určitě souhlas, ona ta tabulka nebyla a ani teď není kompletní. Pokud jde o kdy-ž, to je právě zvláštní tím, že v současné češtině se když používá s dost posunutou funkcí; naopak kdož téměř vymizelo, a když už se objeví, je to pro mě totéž jako kdo. Ale nijak bych se nebránil tomu ho spláchnout s ostatními a říct, že žádnou výjimku mít nemá. MS: Souhlasím se spláchnutím a bez výjimky. U „kdy“ a „když“ bych se držel formy, a neřešil pokud možno význam - takže dvě různá lemmata.

Tabulka

Slovo PDT Poznámka
výskyty UPOS
aniž 120 SCONJ
avšakž CCONJ
1384 PART
639 CCONJ
139 SCONJ
budiž 5 PART V nové češtině se vyskytuje jako samostatná klauze (ale budiž). Pokud by šlo o imperativ od existenciálního nebo sponového být, pak to asi za lexikalizované nepovažujeme?
což 653 PRON PronType=Rel
3 INTJ což o to; a což teprve; vyplnilo se nám to jen což – DZ: Když už, tak bych dal spíš PART než INTJ.
1 PART Což se XXX neděje?
dokudž ADV/SCONJ (PronType=Rel)
jakovýž 0 DET PronType=Rel
jakož 23 SCONJ
jakýž 0 DET PronType=Rel
jakž 1 ADV
jehož 658 DET Poss=Yes, PronType=Rel. Ve všech tvarech, tj. např. jejichž, jejíž, jejímž, jejímiž, …
jenž 2201 PRON PronType=Rel. Ve všech tvarech, tj. např. němž, jehož, nichž, níž, …
kakž/kakož ADV PronType=Rel/Int
kdež 0 ADV PronType=Rel
kdož 3 PRON PronType=Rel. Ve staré češtině také ktož, kdožež.
když 2100 SCONJ
kterakž ADV PronType=Rel/Int
kterýž 0 DET PronType=Rel
ledaktož 0 PRON PronType=Ind
natož 18 PART
někdež 0 ADV PronType=Ind
někdož 0 PRON PronType=Ind. Ve staré češtině také něktož.
než 2143 SCONJ
5 PART Tři z těch pěti případů jsou záporné typu nezbývá, než …, ale asi by to klidně i zde mohlo být SCONJ.
nikakž/nikakéž ADV PronType=Neg
nikdež 0 ADV PronType=Neg
nikdož 0 PRON PronType=Neg. Ve staré češtině také niktož.
pročež ADV/SCONJ (?) PronType=Int/Rel
protož CCONJ/ADV
rovněž 457 ADV
takéž ADV
takovýtéž 0 DET PronType=Dem
takž 1 ADV
takož ADV
takýž DET PronType=Dem
tentýž 92 DET PronType=Dem
tenž DET PronType=Dem
tož ADV PronType=Dem
týž 141 DET PronType=Dem
všelicož 0 PRON

Spojení předložky se zájmenem

Skript zpracovávající anotace momentálně umí následující kombinace. Některé z nich dokáže rozložit už skript, který připravuje soubory k anotaci, takže v nich je rovnou k dispozici samostatný řádek pro každé dílčí slovo.

Slovo ADP PRON
FORM LEMMA AdpType FORM LEMMA PronType Case PrepCase Person Number Gender
nač na na Prep co co Int,Rel Acc
naň na na Prep něj on Prs Acc Pre 3 Sing Masc,Neut
naňž na na Prep nějž jenž Rel Acc Pre Sing Masc,Neut
o o Prep co co Int,Rel Acc
o o Prep něj on Prs Acc Pre 3 Sing Masc,Neut
oňž o o Prep nějž jenž Rel Acc Pre Sing Masc,Neut
proň pro pro Prep něj on Prs Acc Pre 3 Sing Masc,Neut
proňž pro pro Prep nějž jenž Rel Acc Pre Sing Masc,Neut
přědeň přěd před Voc něj on Prs Acc Pre 3 Sing Masc,Neut
skirzěň skirzě skrz Voc něj on Prs Acc Pre 3 Sing Masc,Neut
skirzěňž skirzě skrz Voc nějž jenž Rel Acc Pre Sing Masc,Neut
skrzeň skrze skrz Voc něj on Prs Acc Pre 3 Sing Masc,Neut
skrzeňž skrze skrz Voc nějž jenž Rel Acc Pre Sing Masc,Neut
skrzěň skrzě skrz Voc něj on Prs Acc Pre 3 Sing Masc,Neut
skrzěňž skrzě skrz Voc nějž jenž Rel Acc Pre Sing Masc,Neut
zač za za Prep co co Int,Rel Acc
zaň za za Prep něj on Prs Acc Pre 3 Sing Masc,Neut
zaňž za za Prep nějž jenž Rel Acc Pre Sing Masc,Neut

Spojka i

Jednou se vyskytlo myslilaj déle ve významu myslila i déle. Nevím, jak moc je to produktivní, prozatím jsem implementoval dělení pouze pro tento konkrétní případ.