AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus SYN2020: Agregáty

V korpusu SYN2020 je nově řešena problematika tzv. agregátů, slov, která se v češtině píšou jako jedno slovo, z pohledu syntaxe či určování gramatických kategorií se však chovají spíše jako slova dvě (výjimečně tři).

Jsou to tyto typy slov:

1. spojky aby, kdyby: chovají se jako spojky, ale zároveň obsahují kondicionálový tvar slovesa být (abych zjistila, kdyby pracoval); podobně je značena spojka jako v případech, kdy tvoří pravopisný slitek s kondicionálovým tvarem (jakoby se ztratil odpovídající spojení jako by se ztratil)

2. spojení víceméně jakýchkoli slov s krátkým tvarem druhé osoby singuláru indikativu prézentu slovesa být (s):

  • nejčastěji ses, sis (smál ses, přála sis),
  • dále spojení l-ových příčestí a s (dělalas, viděls),
  • méně často spojení se zájmeny (tos, komus) i jinými slovy (vždyťs, knihus)

3. zřídka i spojení slov s krátkým tvarem 2. osoby singuláru slovesa být odděleného apostrofem (či znakem apostrofu podobným): proto's, ty´s

4. spojení předložky se zájmenem co, copak a on: nač, očpak, zaň, doň

5. zcela výjimečně spojení předložky, zájmena a 2. osoby singuláru slovesa být: načs

Tyto agregáty řešíme tak, že původní slovo necháváme jako jeden token, ale tomuto tokenu přiřadíme dvě (tři) sady lemma + sublemma + tag + verbtag. V každém z těchto atributů jsou hodnoty z různých sad odděleny svislítkem.

Výsledek pak vypadá třeba takto:

word lemma tag verbtag
abych
aby|být
J,-------------|Vc-S---1----I--
------|A----- 
ses
se|být
P7--4----------|VB-S---2P-AAI-1
------|A-----
naň
na|on
RR--4----------|P5MS2--3-------
------|------

Hodnoty atributů u agregátů jsou tedy tzv. multihodnoty (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je proč a zároveň být ([lemma = "proč" & lemma = "být"]) nebo je token adverbium a zároveň sloveso ([pos = "D" & pos = "V"]).

Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku & tag != ".+\|.+" (tag neobsahuje „svislítko“, tedy není to „multihodnota“, není to „agregát“), například [lemma = "být" & tag != ".+\|.+"] vypíše všechny tvary slovesa být kromě „agregátů“.

» Zpět na hlavní stránku Korpus SYN2020