Nastavení

Korpus SYN2020: Agregáty

V korpusu SYN2020 je nově řešena problematika tzv. agregátů, slov, která se v češtině píšou jako jedno slovo, z pohledu syntaxe či určování gramatických kategorií se však chovají spíše jako slova dvě (výjimečně tři). V terminologii standardu Universal Dependencies se o těchto slovech mluví jako o „víceslovných tokenech“, „multiword tokens“.

Typy agregátů

Mezi agregáty lze rozlišit následující typy slov:

1. spojky aby, kdyby: chovají se jako spojky, ale zároveň obsahují kondicionálový tvar slovesa být (abych zjistila, kdyby pracoval); podobně je značena spojka jako v případech, kdy tvoří pravopisný slitek s kondicionálovým tvarem (jakoby se ztratil odpovídající spojení jako by se ztratil)

2. spojení víceméně jakýchkoli slov s krátkým tvarem druhé osoby singuláru indikativu prézentu slovesa být (s):

  • nejčastěji ses, sis (smál ses, přála sis),
  • dále spojení l-ových příčestí a s (dělalas, viděls),
  • méně často spojení se zájmeny (tos, komus) i jinými slovy (vždyťs, knihus)

3. zřídka i spojení slov s krátkým tvarem 2. osoby singuláru slovesa být odděleným apostrofem (či znakem apostrofu podobným): proto's, ty´s

4. spojení předložky se zájmenem co, copak a on: nač, očpak, zaň, doň

5. zcela výjimečně spojení předložky, zájmena a 2. osoby singuláru slovesa být: načs

Tokenizace a morfologické značkování

Uvedené agregáty zpracováváme tak, že původní slovo necháváme jako jeden token, ale tomuto tokenu přiřadíme dvě (tři) sady hodnot lemma + sublemma + tag + verbtag. V každém z těchto atributů jsou hodnoty z různých sad odděleny svislítkem.

Výsledek pak vypadá třeba takto:

word lemma sublemma tag verbtag
abych
aby|být
aby|být
J,-------------|Vc-S---1----I--
------|A----- 
ses
se|být
se|být
P7--4----------|VB-S---2P-AAI-1
------|A-----
naň
na|on
na|on
RR--4----------|P5MS2--3-------
------|------

Hodnoty atributů u agregátů jsou tedy tzv. multihodnoty (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je proč a zároveň být ([lemma = "proč" & lemma = "být"]) nebo je token adverbium a zároveň sloveso ([pos = "D" & pos = "V"]).

Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku & tag != ".+\|.+" (tag neobsahuje „svislítko“, tedy není to „multihodnota“, není to „agregát“), například [lemma = "být" & tag != ".+\|.+"] vypíše všechny tvary slovesa být kromě „agregátů“.

Syntaktické značkování

Při zobrazení syntaktických stromů se jednotlivé části agregátů chovají jako samostatná syntaktická slova.

Ve větě aby ses měla nač vymluvit jsou tři agregáty (aby: aby|být; ses: se|být; nač: na|co), celkem je tedy ve větě pět tokenů, ale osm syntaktických slov:

Zobrazení agregátů v syntaktickém stromu

» Zpět na hlavní stránku Korpus SYN2020