Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
cnk:syn2020:agregat [2020/12/17 15:59] – jankrivan | cnk:syn2020:agregat [2021/01/13 09:42] – tomasjelinek | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Korpus SYN2020: Agregáty ====== | ====== Korpus SYN2020: Agregáty ====== | ||
- | V korpusu SYN2020 je nově řešena problematika tzv. agregátů, slov, která se v češtině píšou jako jedno slovo, z pohledu syntaxe či určování gramatických kategorií se však chovají spíše jako slova dvě (výjimečně tři).\\ | + | V korpusu SYN2020 je nově řešena problematika tzv. **agregátů**, slov, která se v češtině píšou jako jedno slovo, z pohledu syntaxe či určování gramatických kategorií se však chovají spíše jako slova dvě (výjimečně tři).\\ |
\\ | \\ | ||
- | Jsou to tyto typy slov:\\ | + | Jsou to tyto typy slov: |
- | | + | |
- | | + | 1. spojky |
- | | + | |
- | | + | 2. spojení víceméně jakýchkoli slov s **krátkým tvarem druhé osoby singuláru indikativu |
- | | + | * nejčastěji //ses//, //sis// (//smál ses//, //přála sis//), |
+ | * dále spojení l-ových příčestí a //s// (// | ||
+ | * méně často spojení se zájmeny (//tos//, //komus//) i jinými slovy (// | ||
+ | |||
+ | 3. zřídka i spojení slov s krátkým tvarem 2. osoby singuláru slovesa // | ||
+ | |||
+ | 4. spojení | ||
+ | |||
+ | 5. zcela výjimečně spojení | ||
Tyto agregáty řešíme tak, že původní slovo necháváme jako jeden token, ale tomuto tokenu přiřadíme dvě (tři) sady lemma + sublemma + tag + verbtag. V každém z těchto atributů jsou hodnoty z různých sad odděleny svislítkem. | Tyto agregáty řešíme tak, že původní slovo necháváme jako jeden token, ale tomuto tokenu přiřadíme dvě (tři) sady lemma + sublemma + tag + verbtag. V každém z těchto atributů jsou hodnoty z různých sad odděleny svislítkem. | ||
Řádek 14: | Řádek 22: | ||
Výsledek pak vypadá třeba takto:\\ | Výsledek pak vypadá třeba takto:\\ | ||
^ word ^ lemma ^ tag ^ verbtag^ | ^ word ^ lemma ^ tag ^ verbtag^ | ||
- | | < | + | | < |
| < | | < | ||
| < | | < | ||
Řádek 23: | Řádek 31: | ||
\\ | \\ | ||
+ | Při zobrazení syntaktických stromů se jednotlivé části agregátů chovají jako samostatná syntaktická slova. Ve větě //aby ses měla nač vymluvit// jsou tři agregáty (//aby: aby|být//; //ses: se|být//; //nač: na|co//), celkem je ve větě pět tokenů, ale osm syntaktických slov:\\ | ||
+ | {{: | ||
+ | \\ | ||
%%%% >> [[cnk: | %%%% >> [[cnk: | ||