Agregát
Agregáty jsou slova, jimž se v procesu anotace (počínaje korpusem SYN2020) přiřazují současně dvě (výjimečně i tři) řady pozičních atributů. A to z toho důvodu, že se tato slova sice v češtině píšou jako jedno slovo, avšak z pohledu syntaxe či určování gramatických kategorií se chovají spíše jako dvě (či více) slov. V terminologii standardu Universal Dependencies se o těchto slovech mluví jako o „víceslovných tokenech“, „multiword tokens“.
Z hlediska tokenizace agregáty představují jednu textovou pozici (jeden token), zatímco morfologická i syntaktická analýza s nimi zachází tak, jako by se jednalo o více pozic. Hodnoty každého atributu jsou pro jednotlivé části agregátu odděleny svislítkem |
.
Agregátem je například spojka aby (ve všech tvarech), která se chová jako podřadicí spojka i jako pomocné sloveso být v kondicionálovém tvaru. Token abych je tak lemmatizován jako aby|být
a dostává morfologickou značku J,-------------|Vc-S---1----I--
a verbtag ------|A-----
. Viz podrobněji v dalších oddílech.
Typy agregátů
Mezi agregáty lze rozlišit následující typy slov:
1. spojky aby, kdyby: chovají se jako spojky, ale zároveň obsahují kondicionálový tvar slovesa být (abych zjistila, kdyby pracoval); podobně je značena spojka jako v případech, kdy tvoří pravopisný slitek s kondicionálovým tvarem (jakoby se ztratil odpovídající spojení jako by se ztratil)
2. spojení víceméně jakýchkoli slov s krátkým tvarem druhé osoby singuláru indikativu prézentu slovesa být (s):
- nejčastěji ses, sis (smál ses, přála sis),
- dále spojení l-ových příčestí a s (dělalas, viděls),
- méně často spojení se zájmeny (tos, komus) i jinými slovy (vždyťs, knihus)
3. zřídka i spojení slov s krátkým tvarem 2. osoby singuláru slovesa být odděleným apostrofem (či znakem apostrofu podobným): proto's, ty´s
4. spojení předložky se zájmenem co, copak a on: nač, očpak, zaň, doň
5. zcela výjimečně spojení předložky, zájmena a 2. osoby singuláru slovesa být: načs
Tokenizace a morfologické značkování
Uvedené agregáty zpracováváme tak, že původní slovo necháváme jako jeden token, ale tomuto tokenu přiřadíme dvě (tři) sady hodnot lemma + sublemma + tag + verbtag. V každém z těchto atributů jsou hodnoty z různých sad odděleny svislítkem.
Výsledek pak vypadá třeba takto:
word | lemma | sublemma | tag | verbtag |
---|---|---|---|---|
abych | aby|být | aby|být | J,-------------|Vc-S---1----I-- | ------|A----- |
ses | se|být | se|být | P7--4----------|VB-S---2P-AAI-1 | ------|A----- |
naň | na|on | na|on | RR--4----------|P5MS2--3------- | ------|------ |
Hodnoty atributů u agregátů jsou tedy tzv. multihodnoty (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je proč a zároveň být ([lemma = "proč" & lemma = "být"]) nebo je token adverbium a zároveň sloveso ([pos = "D" & pos = "V"]).
Poznámka: V korpusech s anotovanými agregáty je k dispozici i zvláštní atribut sword
(v SYN2020 označen jako sforma
) - syntaktický slovní tvar, který v rámci agregátu odpovídá jeho uspořádání (např. a|bych, se|s, na|ň), jinak je totožný s atributem word
. Atribut sword
je využit v syntaktickém značkování agregátů, viz níže.
Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku & tag != ".+\|.+" (tag neobsahuje „svislítko“, tedy není to „multihodnota“, není to „agregát“), například [lemma = "být" & tag != ".+\|.+"] vypíše všechny tvary slovesa být kromě „agregátů“.
Syntaktické značkování
Při zobrazení syntaktických stromů se jednotlivé části agregátů chovají jako samostatná syntaktická slova.
Ve větě aby ses měla nač vymluvit jsou tři agregáty (aby: aby|být; ses: se|být; nač: na|co), celkem je tedy ve větě pět tokenů, ale osm syntaktických slov (modrým písmem jsou v grafu vyznačeny hodnoty atributu sword
):