AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus SYN2020: Agregáty

Tato stránka zatím není v podobě pro uživatele.

V korpusu SYN2020 nově řešíme problematiku tzv. agregátů, slov, která se v češtině píšou jako jedno slovo, z pohledu syntaxe či určování gramatických kategorií se však chovají spíše jako slova dvě (výjimečně tři).

Jsou to tyto typy slov:

  • a) spojky „aby“, „kdyby“ a „jakoby“: chovají se jako spojky, ale zároveň obsahují kondicionálový tvar slovesa být
  • b) spojení víceméně jakýchkoli slov s krátkým tvarem druhé osoby sg. indikativu slovesa být : s, nejčastěji ses, sis, dále spojení l-ových příčestí a s (dělalas, viděls), méně často spojení se zájmeny (tos, komus) i jinými slovy (vždyťs, knihus)
  • c) zřídka i spojení slov s krátkými tvarem 2. sg. slovesa být odděleného od původního slovesa apostrofem (či znakem apostrofu podobným): ty´s
  • d) spojení předložky se zájmenem co, copak a on: nač, očpak, zaň, doň
  • e) zcela výjimečně spojení předložky, zájmena a tvaru s (2. sg. být): načs

Tyto agregáty řešíme tak, že původní slovo necháváme jako jeden token, ale tomuto tokenu přiřadíme dvě (tři) sady lemma+sublemma+tag+verbtag.

Výsledek pak vypadá třeba takto:

word lemma tag verbtag
ses se|být
P7--4----------|VB-S---2P-AAI-1
------|A-----
naň na|on
RR--4----------|P5MS2--3-------
------|------

Hodnoty atributů u agregátů jsou tedy tzv. „multihodnoty“ (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v Pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je „proč“ a zároveň „být“ ([lemma = "proč" & lemma = "být"]) nebo je token adverbium a zároveň sloveso ([pos = "D" & pos = "V"]). Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku & tag != ".+\|.+" (tag neobsahuje „svislítko“, tedy není to „multihodnota“, není to „agregát“), například [lemma = "být" & tag != ".+\|.+"] vypíše všechny tvary slovesa být kromě „agregátů“.

» Zpět na hlavní stránku Korpus SYN2020