Tokenizace a slovní segmentace

UD se od jiných anotačních schémat odlišuje tím, že má dvě roviny segmentace věty na menší jednotky. Nižší z obou rovin odpovídá klasické tokenizaci, kde token je buď ohraničen mezerami, nebo předělem mezi písmeny a jinými znaky, zejména interpunkcí. Druhé z obou rovin se někdy říká slovní segmentace (word segmentation) a uplatňuje se v případech, kdy je důvod rozdělit token složený z písmen. V terminologii UD jde o víceslovný token (multiword token) a části, na které je rozdělen, jsou slova – míněno morfosyntaktická slova (zatímco původní víceslovný token je ortografickým slovem). Tvar původního víceslovného tokenu je v anotovaných datech zachován, takže je možné zpětně namapovat morfosyntaktická slova na původní text věty. Víceslovný token však není uzlem v závislostním stromu a nenese ani žádné morfologické anotace.

Tato rovina slovní segmentace není využita ve všech jazycích. V novočeských datech využita je, ale projevuje se poměrně zřídka. Většina povrchových tokenů jsou tedy současně slovy a uzly závislostního stromu (v tomto smyslu je slovem-uzlem i token, který bychom se jinak zdráhali prohlásit za slovo, např. interpunkce).

Segmentace víceslovných tokenů je koncipována tak, aby jednotlivá slova nemusela být pouze podřetězci povrchového tokenu (nebo obráceně, není požadováno, aby prostým sřetězením částí vznikl víceslovný token v tom tvaru, v jakém se vyskytl na povrchu). Dílčí slova mají ve sloupci FORM uveden hypotetický tvar, který by se pravděpodobně použil, kdyby dotyčná morfosyntaktická slova nebyla stažena do jednoho ortografického slova. Ví se, pod který víceslovný token které slovo patří, ale není třeba vyznačovat, které části tvaru tokenu toto slovo odpovídá, a UD na to ani neposkytuje mechanismus. (Poznámka: UD ani nezakazuje použít jako tvar dílčího slova přesný podřetězec tvaru víceslovného tokenu a některé jazyky tomu dávají přednost, čeština ale mezi ně nepatří. Oba přístupy mají své výhody i nevýhody.)

Popis druhů víceslovných tokenů a pravidla jejich segmentace v českých UD jsou zdokumentována na stránce https://universaldependencies.org/cs/tokenization.html.

Problémy při anotaci staročeských dat

Příklonka -ť

Dokumentace UD momentálně tvrdí, že příklonka -ť je stažený tvar spojky neboť, což je zřejmě problematické. V celých novočeských datech je jen jeden výskyt v PDT (neníť), ten se dá případně opravit. Zdá se, že tady neexistuje žádný dobře zdůvodněný hypotetický tvar, jak by se to řeklo, kdyby to nebylo přilepené jako příklonka, protože se to asi v jiné podobě nevyskytuje (a samotné neboť možná vzniklo přilepením -ť k nebo). Takže jako tvar bude asi lepší nechat ť. Pak je také sporné, zda tomu dávat slovní druh CCONJ a závislost cc. Alternativou by u slovního druhu bylo asi PART, u závislosti snad discourse.
- Ve staročeských datech se -ť vyskytuje o dost častěji a je potřeba si ujasnit, kde všude ho odtrhávat a kde nechat případně token vcelku. Otázka je zejména u slov, která mohla tímto způsobem vzniknout a zachovala se do současnosti, akorát dnes jsou chápána jako nedělitelná (neboť, byť, vždyť, ať, nechť, toť, jednou se v PDT objevilo i arciť) MS: Chápu, Dane, s čím se potýkáš, řešili jsme to asi komplet všechno při přípravě tagsetu pro 19. stol. Jestli je to naše řešení vždycky vhodné, nedokážu posoudit, ale stručně ho napíšu. Ještě nejdřív oběcně k částici -ť. Mnohem hojněji než dnes se používala i v 19. stol. (podobně jako -ž, ale -ť byla během své existence znatelně víc řekněme multifunkční). Ty její funkce jsou zároveň dost těžko přesně specifikovatelné: částice -ť byla patrně formou spojovacího výrazu pro různé větné vztahy, měla taky jen zesilovací fci pro lexém, ke kterému se připojovala, a s velkou pravděpodobností hraničící s jistotou měla fci příklonného os. zájm. ti, které se v českých textech do 18. stol. prakticky nevyskytuje (na fci zájm. ti ukazují i porovnání některých míst v staročeských redakcích bible a Kralické bibli a Vulgatě, kde je v takových případech tvar tibi). Tahle multifunkčnost ale do 19. stol. mizí a v tomhle století má -ť už jen zesilovací fci. Ohledně formy se tahle částice může od stč. období po 19. stol. objevovat ve formě -ť -tě (ťe - platí jen pro stč. období, ale jde v podstatě o ten samý jev jako u ňej vs. něj - viz níže). Naše řešení v tagsetu pro 19. stol.: a) částice je neoddělitelná, dané tokeny jsou lexikalizované: neboť > lemma neboť; b) částice je oddělitelná: vidělť > lemma vidět > na 15. pozici v tagu značeno písmenem T, které signalizuje, že daný token obsahuje příklonnnou částici (stejně postupujeme i s částicí -ž). Nebylo a asi není stále bez problémů někdy rozhodnout, zda jde už o lexikalizaci, nebo volně připojenou částici - hranice je jinde, než v dnešní češtině, a v té staré je to ještě složitejší. Ale nějaký konsenzus proběhl. Kdybyste chtěli, můžu vytahat z našeho Morf. slovníku pro 19. stol. všechny připady lexikalizovaných tokenů s původní částicí -ť a -ž a poslat Vám je. Jako diachronní lingvista bych si taky vždycky přál, aby šlo u korpusového zpracování zachytit všechno. Ale už vím, že to nejde, i když mě to mrzí. Takže ohledně částice -ť (a i -ž) navrhuju, aby byly vždycky součástí lexému, ke kterému se připojují, a byly s ním jeden token: a) typ neboť > lemma neboť, nic se nesignalizuje v tagu; b) typ vidělť > lemma vidět, signaliace existence částice v rámci jednoho tokenu v tagu, pokud je to v UD možné a lehko udělatelné, nebo nesignalizovat nic. JP: Nevím, jestli dobře rozumím tomu řešení, které píše Martin, ale souhlasím s oběma v tom, že by bylo vhodné pracovat se dvěma typy případů, mezi nimiž ale bohužel bude problematické stanovit jasnou hranici. Ve většině případů bych ť chápal jako samostatné syntaktické slovo, tj. celek obsahující ť by byl chápán jako multiword token. U toho ť bych asi dával jako slovní druh PART, tak je to i v dosavadním návodu na wiki. Dávat to jako CCONJ je myslím problemtické v tom, že ty funkce mohou být různé, může to jen zesilovat nebo to může být ten dativ osobního zájmena (tj. pak to spojka není), přičemž rozlišovat to je myslím neproveditelné, protože posouzení, jestli to v daném kontextu např. vyjadřuje nějaký mezivětný vztah, je asi typicky docela na vodě. Druhým typem případů jsou pak ty lexikalizované případy, kdy se ť bere jako součást lexému. V principu by tím kritériem podle mě mělo být, jestli dané slovo má s tím ť jiný význam než bez ť (např. novočeské a–ať), ale ne vždy to asi jde snadno posoudit. Je otázka, jestli to řešit nějakým seznamem, třeba se inspirovat tím 19. stoletím, podle mě si jde částečně pomoct i současnou češtinou. Taky by v tomhle možná šlo se trochu opřít o staročeské slovníky. Jinak ten postup, co jsem tu popsal, jsem se snažil dodržovat během svých anotací, nevím ale, jak přesně postupovali ostatní. MS: Myslím, že jsem v zásadě ve shodě. Odlišnost je asi víceméně zdánlivá a je daná jen teď dvojím způsobem anotace (UD a naší pro 19. stol.). Celek obsahující ť mi dává smysl a vidím to vlastně jako analogii k tomu řešení, které máme zatím v našem tagsetu - převoditelné to bude bez problémů. Ohledně neřešení fcí ať už částice, nebo samostatného syntaktického slova ť souhlas, to není nikdy možné udělat - ve všech těchto případech mi přijde slovní druh PART jako adekvátní. A ta druhá skupina lexikalizovaných případů: jestli myslíte, že by vám seznam lexikalizovaných jednotek, které s ť používáme pro 19. stol., pomohl, vyextrahuju ho z našeho Morf. slovníku a pošlu. Jestli dáte přednost raděj analogii s novou češtinou, tak je to podle mě taky dobré řešení vzhledem k novočeské lemmatizaci etc. Jen dejte vědet, prosím. DZ: V každém případě tedy potřebujeme rozlišit dva případy, lexikalizovaný vs. nelexikalizovaný, a pak půjde jen o to, jak ten nelexikalizovaný zachytit v anotaci. Buď to bude řešeno jako multiword token a v UD rozděleno na dvě slova, nebo nic dělit nebudeme, ale promítneme to do morfologické anotace: lemma bude bez -ť a do sloupce FEATS se přidá nějaký rys, který na výskyt morfému -ť upozorní. Pokud jde o rozpoznání lexikalizovaných případů, kvůli konzistenci anotací bychom měli vytvořit seznam lexikalizovaných případů a měli bychom také zdokumentovat zásady, podle kterých se na seznam přidává. Pokud je to možné, tak bych rád, aby přítomnost slova na seznamu nezávisela (příliš) na století, ve kterém bylo to slovo vyřčeno; ale pokud je současný význam slova s -ť od odpovídajícího slova bez -ť odlišný a pokud je zřejmé, že slovo s -ť bylo ve starém textu použito spíše ve významu odpovídajícím dnešnímu slovu bez -ť, tak bych to asi zohlednil (Jirka měl takový příklad pro kdy-ž, ale nevím, zda se může stát něco podobného i s -ť.) Martine, na seznam slov, která považujete za lexikalizovaná v 19. století, se rád podívám v každém případě, ať už ho použijeme nebo ne. Kvůli konzistenci s novočeskými daty bych na tom seznamu rád viděl slova, která se v novočeských datech vyskytují, těch ale nebude mnoho (nahoře jsem jich vyjmenoval 6 resp. 7, o moc víc jich asi nenajdu). Pokud jde o způsob, jak anotovat ty nelexikalizované případy, už jsme začali s jejich dělením na dvě slova, asi bych to teď tedy tak nechal; pokud bychom to v budoucnosti chtěli revidovat, bude možné napsat skript, který to zařídí (tj. opět přilepí -ť k mateřskému slovu a místo toho vygeneruje nějaký morfologický rys, na kterém se dohodneme). JP: Souhlasím.
V některých případech se zřejmě místo -ť objevuje -tě nebo -ti. Zacházet s nimi obdobně, tj. rozdělit jako multiword token. Tvar je ten, který se vyskytl, tedy tě nebo ti, ale lemma je nadále ť. Značka UPOS je PART.

Seznam lexikalizovaných výrazů s -ť

Následující slova by bylo možné rozložit na menší slovo + ť, zpravidla to u nich ale nebudeme dělat (resp. budeme to dělat jen za určitých okolností). Jejich funkce se v současné češtině zřetelně liší od funkce odpovídajícího slova bez -ť. Výjimkou by byl případ, kdy by se slovo s -ť vyskytlo zjevně v platnosti slova bez -ť, např. kdyby se vždyť objevilo ve významu vždy (JP: To se myslím zrovna u toho vždyť docela děje, i když je to asi leckdy obtížně prokazatelné). Specifickým případem je slovo byť, viz komentář přímo v tabulce. Opačné případy, např. staročeské nebo s funkcí dnešního neboť, se nijak zvlášť neoznačují.

Slovo	PDT		Poznámka
	výskyty	UPOS
ať	123	SCONJ
	61	PART
ačť		SCONJ
ažť		SCONJ
byť	120	SCONJ	POZOR, pro starou češtinu byť v typických spojeních s l-ovým participiem (byť přišel) nechápeme jako lexikalizovanou spojku, ale jako multiword token, totiž spojení by (AUX, jde o pomocný tvar kondicionálu) a ť (PART). Za spojku byť pokládáme pouze v případě, že by to jako pomocný tvar kondicionálu interpetovat nešlo, tj. buď by v kontextu bylo další by (byť by přišel), nebo by tam nebylo l-ové participium tvořící zbytek kondicionáového tvaru (např. byť přijde).
nebť		CCONJ
neboť	411	CCONJ
nechť	38	PART	Včetně variant typu nechať, nechažť apod. Vše bych lemmatizoval jako „nechť“, včetně podoby „nech“.
proto(ž)ť		CCONJ/ADV
toť	2	PART	Ne vždy je to lexikalizované, může jít i o běžné spojení zájmena ten (DET) s částicí ť (PART). Lexikalizované je to v případech typu aj toť, budeš mlčěti. Běžné zájmeno + ť je to v případech typu toť jest mistr plný milosti; toť chcu učiniti (zájmeno ten v nelexikalizovaných případech může být i v jiných tvarech, např. tenť obyčěj v sobě jmají). (Poznámka DZ k PDT: značka PDNS1. Po vzoru zájmena to to v UD dostalo značku DET, ale asi by to mělo být PRON, protože tvary v jiných rodech (tenť, tať) se nevyskytují. Ve skutečnosti toť funguje jako zájmenná spona.)
vždyť	100	CCONJ	Ve stč. typicky funguje jako ADV s významem „vždy“, v těchto případech tedy rozkládat na vždy+ť (?) a anotovat jako ADV.
	7	PART	Není jasné, podle čeho se anotátoři PDT rozhodli pro PART. Asi by to všechno mohlo být CCONJ.

Příklonka -ž

Objevil se i návrh odtrhávat koncové -ž, např. u imperativu obratiž. Jakou by to mělo funkci? A pokud bychom to začali dělat, podobně jako u -ť musíme vědět, kdy odtrhávat a kdy ne. Takové což nebo jehož jsou v novočeských datech nedělitelná slova. Namátkou: než, když, až, což, rovněž?, jehož, jejichž, jenž, aniž, jakož, natož, budiž. Určitě bych tím pádem nedělil ani kdož/ktož, které v novočeských datech nevidím, a v podstatě asi žádné zájmeno, příslovce nebo spojku končící na -ž. U sloves si nejsem jistý, ale asi jsem to zatím viděl pouze u imperativu a jako laik to vnímám jako archaický tvar imperativu. Ale v datech už se objevila i kombinace s adjektivem (dřevniehož) MS: O oddělování -ž viz to samé, co jsem napsal u -ť. Funkce -ž jsou během vývoje mnohem omezenější, tak by to nemuselo nikoho tolik mrzet:) JP: V případě ž jsem zatím postupoval výrazně jinak než u ť, a to v tom, že jsem to nepovažoval nikdy za samostatné slovo, tj. celek obsahující ž jsem nikdy nedělil na dvě části. Bylo to spíš intuitivní rozhodnutí, ale důvod je podle mě ten, že to ž myslím (ale nejsem si jistý, kdyžtak ať mě prosím Martin vyvede z omylu) mělo spíš jen tu zdůrazňovací funkci, než že by to přímo vyjadřovalo mezivětné vztahy nebo to byl dokonce tvar zájmena. Takže tady jsem neměl problém s tokenizací, ale i tak tu vznikají dva typy případů, a to s ohledem na lemmatizaci, jestli to ž bude součástí lemmatu (mělo by být asi u těch zájmen typu což, obecněji snad u funkčních slov), nebo nebude (u sloves, u toho případu s adjektivem apod.). Taky jsem ale myslím jednou řešil problém, nevím, jestli si to pamatuju přesně, ale bylo to něco ve smyslu, že v textu bylo když, nicméně nemělo to tu dnešní funkci spojky, ale funkčně to odpovídalo nč. zájmennému příslovci kdy, takže v tomhle případě jsem to myslím lemmatizoval jako kdy, přestože lemma když jsem v jiných kontextech samozřejmě používal taky. Takže možná nejde vycházet jen ze samotné formy. U toho ž ale myslím budou velké rozdíly mezi anotátory, protože někdo to tuším rozděloval podobně jako to ť. MS: Omlouvám se, za nepřesnou formulaci vycházející z té o částici -ť - ale jsme v tom, Jirko a Dane, zajedno, že ž bychom nepovažovali nikdy za samostatné slovo (mělo celou dobu v jazyce víceméně zdůrazňovací fci, popř. se v rámci jiného lexému lexikalizovalo). Mínil jsem tou analogií s ť svůj návrh na to, že bych ť taky neklasifikoval jako samostatné slovo, ale jen jako buď zesilovací příklonnnou částici, nebo součást lexikalizované jednotky. Někdy to bude těžké rozhodnout, viz to kdy-ž, ale kvůli zjednodušení situace, bych se nabránil řešením podle formy, i když to bude někdy vypadat hůř obhajitelně (ale anotaci a desambiguaci by to mělo výrazně zjednodušit). Takže bych řekl, že jsem u ž dohodnuti. JZ1: Pokud ť ani ž nebudeme nikdy odtrhávat, tak mi připadá opravdu důležité, aby se jejich přítomnost dala signalizovat v tagu. Pokud se to v tagu signalizovat nedá, tak jsem pro odtrhávání ve všech případech kromě lexikalizovaných, aby se ty případy daly snadno vyhledat a korpus mohl v budoucnu co nejefektivněji posloužit jako materiál pro výzkum fungování ť a ž. JZ2: Koncové -ž u imperativu má podle mě zdůrazňovací funkci. JZ3: ad JP a MS: co myslíte řešením podle formy? JP: Já jsem tím myslel ten případ s když, že by se prostě řeklo, že když se vždy anotuje nějakým způsobem bez ohledu na to, jestli to není ten komplikovanější případ, co jsem popsal výše. DZ: Stejně jako u -ť tedy potřebujeme rozlišit lexikalizované a nelexikalizované případy. Na rozdíl od -ť bych se u těch nelexikalizovaných přikláněl k řešení, které nezasahuje do tokenizace, tj. tvary se -ž nejsou považovány za víceslovné tokeny. Budou mít ale lemma bez -ž a můžeme se dohodnout na přidání rysu do sloupce FEATS, který je jasně identifikuje. Nabízí se např. značka Emph=Yes (emphatic), kterou už si některé jazyky v UD pro své účely dodefinovaly. Pokud bychom v budoucnosti chtěli způsob anotace revidovat a třeba přece jen oddělit -ž jako samostatné slovo, půjde to udělat skriptem. JP: Souhlasím. MS: Taky souhlasím.

DZ: Soubory pro anotaci vygenerované v první várce neobsahují sloupec pro rys Emph. Pro budoucí anotace bych mohl soubory přegenerovat s tímto sloupcem, ale u souborů, jejichž anotace už začala, se musíme obejít bez něj. Mohli bychom zneužít některý existující sloupec, který se málo využívá, např. Hyph. Přidám do zpracování pravidlo, že Hyph=ž ve skutečnosti znamená Emph=Yes a má se na něj převést.

Seznam lexikalizovaných výrazů se -ž

Nasledující slova končí na -ž a po jeho případném odtržení by pořád zbylo existující české slovo. (ZMĚNA: V některých případech nyní doplňuji i tvary, kde zbytek po odtržení není slovo.) Ponechávám stranou debatu, zda vůbec všechna tímto způsobem vznikla, ale pokud ano, tak je považujeme za lexikalizovaná, tj. i jejich lemma obsahuje -ž a nepřidává se žádná morfologická značka, která by na koncové -ž upozorňovala. Výjimkou by mohl být případ, kdy by se slovo se -ž vyskytlo zjevně v platnosti slova bez -ž, např. kdyby se když objevilo ve významu kdy. JP: Pro starou češtinu bych mezi tyto případy počítal i zájmena / zájmenná příslovce zakončená na -ž, např. ktož, kterýž, jenž, kdež apod., a nejspíš i nikdež, niktož, něktož, ledaktož apod. Pokud je tak nebudeme brát paušálně všechna, tak se nám asi nepodaří to dělat jednotně. Ale je pak otázka, co s tím problematickým kdy-ž. DZ: Se zájmeny a zájmennými příslovci určitě souhlas, ona ta tabulka nebyla a ani teď není kompletní. Pokud jde o kdy-ž, to je právě zvláštní tím, že v současné češtině se když používá s dost posunutou funkcí; naopak kdož téměř vymizelo, a když už se objeví, je to pro mě totéž jako kdo. Ale nijak bych se nebránil tomu ho spláchnout s ostatními a říct, že žádnou výjimku mít nemá. MS: Souhlasím se spláchnutím a bez výjimky. U „kdy“ a „když“ bych se držel formy, a neřešil pokud možno význam - takže dvě různá lemmata.

Tabulka

Slovo	PDT		Poznámka
	výskyty	UPOS
aniž	120	SCONJ	Ve stč. CCONJ!
avšakž		CCONJ
až	1384	PART
	639	CCONJ
	139	SCONJ
bodejž		PART
budiž	5	PART	V nové češtině se vyskytuje jako samostatná klauze (ale budiž). Pokud jde ve starší češtině o imperativ od existenciálního nebo sponového být, pak to za lexikalizované nepovažujeme.
což	653	PRON	PronType=Rel
	3	INTJ	což o to; a což teprve; vyplnilo se nám to jen což – DZ: Když už, tak bych dal spíš PART než INTJ.
	1	PART	Což se XXX neděje?
dokudž		ADV/SCONJ	(PronType=Rel)
jakovýž	0	DET	PronType=Rel
jakož	23	SCONJ/ADV	(PronType=Rel)
jakýž	0	DET	PronType=Rel
jakž(koli)	1	ADV
je(st)liž		SCONJ
jehož	658	DET	Poss=Yes, PronType=Rel. Ve všech tvarech, tj. např. jejichž, jejíž, jejímž, jejímiž, …
jenž	2201	PRON	PronType=Rel. Ve všech tvarech, tj. např. němž, jehož, nichž, níž, …
kamž		ADV	PronType=Rel
kakž/kakož		ADV	PronType=Rel/Int
kdež	0	ADV	PronType=Rel
kdož	3	PRON	PronType=Rel. Ve staré češtině také ktož, kdožež.
když	2100	SCONJ
kterakž		ADV	PronType=Rel/Int
kterýž	0	DET	PronType=Rel
ledaktož	0	PRON	PronType=Ind
liž		SCONJ/PART
natož	18	PART
někdež	0	ADV	PronType=Ind
někdož	0	PRON	PronType=Ind. Ve staré češtině také něktož.
než	2143	SCONJ
	5	PART	Tři z těch pěti případů jsou záporné typu nezbývá, než …, ale asi by to klidně i zde mohlo být SCONJ.
nicož		PRON	PronType=Neg
nijakž		ADV	PronType=Neg
nikak(e)ž/nikakéž		ADV	PronType=Neg
nikdež	0	ADV	PronType=Neg
nikdož	0	PRON	PronType=Neg. Ve staré češtině také niktož.
nikdyž		ADV	PronType=Neg.
nikterakž		ADV	PronType=Neg
odkavadž		ADV	PronType=Rel
pokudž		ADV/SCONJ
pročež		ADV/SCONJ (?)	PronType=Int/Rel
protož		CCONJ/ADV
rovněž	457	ADV
takéž		ADV
takovýtéž	0	DET	PronType=Dem
takž	1	ADV
takož		ADV
tak(ov)ýž		DET	PronType=Dem
tehdaž/tehdáž/tehdyž		ADV	PronType=Dem
tentýž	92	DET	PronType=Dem
tenž		DET	PronType=Dem
tolikéž		ADV/DET
tož		ADV	PronType=Dem
tuž		ADV	PronType=Dem
týž	141	DET	PronType=Dem
všelicož	0	PRON
zda(li)ž		PART/SCONJ

Spojení předložky se zájmenem

Kontrakce předložky s akuzativním osobním zájmenem on (proň, naň, oň, zaň) se v novočeských datech automaticky rozkládá na předložku + něj. Všiml jsem si, že ve staročeských datech anotátorky dávají přednost tvaru ňej (když už nemůžou nechat samotné ň), který se někdy opravdu objevuje v datech jako celé slovo, zapsaný takto. Mám to chápat tak, že ňej a něj se ve staročeském období považují za fonologicky odlišné, takže hraje roli, co z nich si vybereme? V tom případě by asi opravdu ve staročeských textech ten hypotetický tvar byl ňej MS: Tohle bych, prosím, neřešil. Fonologická odlišnost je diskutabilní, myslím, že jde spíš o to, když to zjednoduším, jestli je v textech značena jotace (např: nyey), nebo není (to se pak předpokládá měkkost konsonantu) > je to hodně o výkladu jaz. systému, jestli ho pojímat na základě změn ve vokalickém, nebo naopak konsonantickém systému. Pokud bude zapsáno v rkp. pron, tak to bude taky bez značení měkkosti transkribováno jako proň. Také proto bych to nekomplikoval s oním ňej a všude bych vybral něj. Jinak v 19. stol. typ naň, zač považujeme za tzv. agregáty a řešíme je tímto způsoben: naň na_on RR–4——–1–_PPMS4–3—–1– (na 14. pozici tagu je značeno, že se jedná o agregát); očť o_co RR–4——–1T-_PK–4——–1T- (na 15. pozici zároveň zde i se značením příklonky:)). JP: Já myslím, že se spíš předpokládá, že to po nějaký čas fonologicky odlišné bylo, ale souhlasím s tím, že bych to neřešil, protože ani ňej, ani něj stejně vůbec neodpovídají tomu, co v tom textu reálně je, takže je to celkem jedno a je lepší, když to bude jednotně. MS: Děkuju, tak v tomhle bodě taky domluveno.
- Stejných kontrakcí se týká i otázka vokalizace předložek. Ve staženém tvaru přědeň je předložka vokalizovaná pomocným -e-, pokud ale konzistentně pracujeme s hypotetickými nestaženými tvary, tak před něj (ňej) vokalizace (nejspíš?) odpadne a bude to rozloženo na přěd + ňej MS: Za sebe souhlas s Danem, takže rozloženo na přěd + něj. JP: Nemám s tím problém, rozhodně by bylo spíš přěd něj než přěde něj. Jestli to ale chápu dobře, znamená to, že pak u toho budeme anotovat AdpType Prep (a ne Voc), což mi přijde dost neintuitivní a řekl bych, že i v rozporu se zájmy uživatele korpusu, tak to se mi moc nezdá. Ale chápu, že je to nějakým způsobem konzistentní, a nemám problém s tím to tak dělat, když se domluvíme. MS: Rozhodnutí tady nechám na Vás, ale konzistentnost je za mě silný argument. JZ: Já bych anotovala AdpType=Voc, pokud to tak v textu je, i když hypotetický token bude „přěd“. Zdá se mi důležitější, aby se ta informace zbytečně neztratila. Konzistentnost bude v tom, že anotace bude odpovídat skutečnému textu, stejně jako v nestažených případech MS: Tak se domluvme na AdpType=Voc s tím, že FORM ale bude „přěde“ a LEMMA „před“

Skript zpracovávající anotace momentálně umí následující kombinace. Některé z nich dokáže rozložit už skript, který připravuje soubory k anotaci, takže v nich je rovnou k dispozici samostatný řádek pro každé dílčí slovo.

Slovo	ADP			PRON
	FORM	LEMMA	AdpType	FORM	LEMMA	PronType	Case	PrepCase	Person	Number	Gender
nač	na	na	Prep	co	co	Int,Rel	Acc
naň	na	na	Prep	něj	on	Prs	Acc	Pre	3	Sing	Masc,Neut
naňž	na	na	Prep	nějž	jenž	Rel	Acc	Pre		Sing	Masc,Neut
oč	o	o	Prep	co	co	Int,Rel	Acc
oň	o	o	Prep	něj	on	Prs	Acc	Pre	3	Sing	Masc,Neut
oňž	o	o	Prep	nějž	jenž	Rel	Acc	Pre		Sing	Masc,Neut
proň	pro	pro	Prep	něj	on	Prs	Acc	Pre	3	Sing	Masc,Neut
proňž	pro	pro	Prep	nějž	jenž	Rel	Acc	Pre		Sing	Masc,Neut
přědeň	přěd	před	Voc	něj	on	Prs	Acc	Pre	3	Sing	Masc,Neut
skirzěň	skirzě	skrz	Voc	něj	on	Prs	Acc	Pre	3	Sing	Masc,Neut
skirzěňž	skirzě	skrz	Voc	nějž	jenž	Rel	Acc	Pre		Sing	Masc,Neut
skrzeň	skrze	skrz	Voc	něj	on	Prs	Acc	Pre	3	Sing	Masc,Neut
skrzeňž	skrze	skrz	Voc	nějž	jenž	Rel	Acc	Pre		Sing	Masc,Neut
skrzěň	skrzě	skrz	Voc	něj	on	Prs	Acc	Pre	3	Sing	Masc,Neut
skrzěňž	skrzě	skrz	Voc	nějž	jenž	Rel	Acc	Pre		Sing	Masc,Neut
zač	za	za	Prep	co	co	Int,Rel	Acc
zaň	za	za	Prep	něj	on	Prs	Acc	Pre	3	Sing	Masc,Neut
zaňž	za	za	Prep	nějž	jenž	Rel	Acc	Pre		Sing	Masc,Neut

Spojka i

Jednou se vyskytlo myslilaj déle ve významu myslila i déle. Nevím, jak moc je to produktivní, prozatím jsem implementoval dělení pouze pro tento konkrétní případ.