Toto je starší verze dokumentu!
Korpus SYN2020: Agregáty
V korpusu SYN2020 je nově řešena problematika tzv. agregátů, slov, která se v češtině píšou jako jedno slovo, z pohledu syntaxe či určování gramatických kategorií se však chovají spíše jako slova dvě (výjimečně tři).
Jsou to tyto typy slov:
1. spojky aby, kdyby: chovají se jako spojky, ale zároveň obsahují kondicionálový tvar slovesa být (abych zjistila, kdyby pracoval); podobně je značena spojka jako v případech, kdy tvoří pravopisný slitek s kondicionálovým tvarem (jakoby se ztratil odpovídající spojení jako by se ztratil)
2. spojení víceméně jakýchkoli slov s krátkým tvarem druhé osoby singuláru indikativu prézentu slovesa být (s):
- nejčastěji ses, sis (smál ses, přála sis),
- dále spojení l-ových příčestí a s (dělalas, viděls),
- méně často spojení se zájmeny (tos, komus) i jinými slovy (vždyťs, knihus)
3. zřídka i spojení slov s krátkým tvarem 2. osoby singuláru slovesa být odděleným apostrofem (či znakem apostrofu podobným): proto's, ty´s
4. spojení předložky se zájmenem co, copak a on: nač, očpak, zaň, doň
5. zcela výjimečně spojení předložky, zájmena a 2. osoby singuláru slovesa být: načs
Tyto agregáty řešíme tak, že původní slovo necháváme jako jeden token, ale tomuto tokenu přiřadíme dvě (tři) sady lemma + sublemma + tag + verbtag. V každém z těchto atributů jsou hodnoty z různých sad odděleny svislítkem.
Výsledek pak vypadá třeba takto:
word | lemma | tag | verbtag |
---|---|---|---|
abych | aby|být | J,-------------|Vc-S---1----I-- | ------|A----- |
ses | se|být | P7--4----------|VB-S---2P-AAI-1 | ------|A----- |
naň | na|on | RR--4----------|P5MS2--3------- | ------|------ |
Hodnoty atributů u agregátů jsou tedy tzv. multihodnoty (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je proč a zároveň být ([lemma = "proč" & lemma = "být"]) nebo je token adverbium a zároveň sloveso ([pos = "D" & pos = "V"]).
Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku & tag != ".+\|.+" (tag neobsahuje „svislítko“, tedy není to „multihodnota“, není to „agregát“), například [lemma = "být" & tag != ".+\|.+"] vypíše všechny tvary slovesa být kromě „agregátů“.