Toto je starší verze dokumentu!
Korpus SYN2020: Agregáty
Tato stránka zatím není v podobě pro uživatele.
V korpusu SYN2020 nově řešíme problematiku tzv. agregátů, slov, která se v češtině píšou jako jedno slovo, z pohledu syntaxe či určování gramatických kategorií se však chovají spíše jako slova dvě (výjimečně tři).
Jsou to tyto typy slov:
- a) spojky „aby“, „kdyby“ a „jakoby“: chovají se jako spojky, ale zároveň obsahují kondicionálový tvar slovesa být
- b) spojení víceméně jakýchkoli slov s krátkým tvarem druhé osoby sg. indikativu slovesa být : s, nejčastěji ses, sis, dále spojení l-ových příčestí a s (dělalas, viděls), méně často spojení se zájmeny (tos, komus) i jinými slovy (vždyťs, knihus)
- c) zřídka i spojení slov s krátkými tvarem 2. sg. slovesa být odděleného od původního slovesa apostrofem (či znakem apostrofu podobným): ty´s
- d) spojení předložky se zájmenem co, copak a on: nač, očpak, zaň, doň
- e) zcela výjimečně spojení předložky, zájmena a tvaru s (2. sg. být): načs
Tyto agregáty řešíme tak, že původní slovo necháváme jako jeden token, ale tomuto tokenu přiřadíme dvě (tři) sady lemma+sublemma+tag+verbtag.
Výsledek pak vypadá třeba takto:
word | lemma | tag | verbtag |
---|---|---|---|
ses | se|být | P7--4----------|VB-S---2P-AAI-1 | ------|A----- |
naň | na|on | RR--4----------|P5MS2--3------- | ------|------ |
Hodnoty atributů u agregátů jsou tedy tzv. „multihodnoty“ (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v Pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je „proč“ a zároveň „být“ ([lemma = "proč" & lemma = "být"]) nebo je token adverbium a zároveň sloveso ([pos = "D" & pos = "V"]). Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku & tag != ".+\|.+" (tag neobsahuje „svislítko“, tedy není to „multihodnota“, není to „agregát“), například [lemma = "být" & tag != ".+\|.+"] vypíše všechny tvary slovesa být kromě „agregátů“.