Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
cnk:syn2020:agregat [2020/12/17 15:54] – jankrivan | cnk:syn2020:agregat [2022/01/03 14:05] (aktuální) – [Syntaktické značkování] jankrivan | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Korpus SYN2020: Agregáty ====== | ====== Korpus SYN2020: Agregáty ====== | ||
- | V korpusu SYN2020 je nově řešena problematika tzv. agregátů, slov, která se v češtině píšou jako jedno slovo, z pohledu syntaxe či určování gramatických kategorií se však chovají spíše jako slova dvě (výjimečně tři).\\ | + | V korpusu SYN2020 je nově řešena problematika tzv. **agregátů**, slov, která se v češtině píšou jako jedno slovo, z pohledu syntaxe či určování gramatických kategorií se však chovají spíše jako slova dvě (výjimečně tři). |
- | \\ | + | |
- | Jsou to tyto typy slov:\\ | + | |
- | - spojky | + | |
- | - spojení víceméně jakýchkoli slov s krátkým tvarem druhé osoby singuláru indikativu slovesa //být//: //s//, nejčastěji //ses//, //sis//, dále spojení l-ových příčestí a //s// (// | + | |
- | - zřídka i spojení slov s krátkým tvarem 2. osoby singuláru slovesa | + | |
- | - spojení předložky | + | |
- | - zcela výjimečně spojení předložky, zájmena a tvaru //s// (2. osoby singuláru //být//): //načs//\\ | + | |
- | Tyto agregáty | + | ===== Typy agregátů ===== |
+ | |||
+ | Mezi agregáty | ||
+ | |||
+ | 1. spojky **// | ||
+ | |||
+ | 2. spojení víceméně jakýchkoli slov s **krátkým tvarem druhé osoby singuláru indikativu prézentu slovesa //být//** (//s//): | ||
+ | * nejčastěji //ses//, //sis// (//smál ses//, //přála sis//), | ||
+ | * dále spojení l-ových příčestí a //s// (// | ||
+ | * méně často spojení se zájmeny (//tos//, //komus//) i jinými slovy (// | ||
+ | |||
+ | 3. zřídka i spojení slov s krátkým tvarem 2. osoby singuláru slovesa //být// **odděleným apostrofem** (či znakem apostrofu podobným): // | ||
+ | |||
+ | 4. spojení **předložky se zájmenem** //co//, //copak// a //on//: //nač//, //očpak//, //zaň//, // | ||
+ | |||
+ | 5. zcela výjimečně spojení **předložky, | ||
+ | |||
+ | ===== Tokenizace a morfologické značkování ===== | ||
+ | |||
+ | Uvedené agregáty zpracováváme | ||
Výsledek pak vypadá třeba takto:\\ | Výsledek pak vypadá třeba takto:\\ | ||
- | ^ word ^ lemma ^ tag ^ verbtag^ | + | ^ word ^ lemma ^sublemma |
- | | < | + | | < |
- | | < | + | | < |
+ | | < | ||
- | Hodnoty atributů u agregátů jsou tedy tzv. **multihodnoty** (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je //proč// a zároveň //být// (%%[lemma = " | + | |
+ | Hodnoty atributů u agregátů jsou tedy tzv. **multihodnoty** (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je //proč// a zároveň //být// (%%[lemma = " | ||
+ | |||
+ | Poznámka: K dispozici je i zvláštní atribut '' | ||
Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku %%& tag != " | Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku %%& tag != " | ||
- | \\ | ||
+ | ===== Syntaktické značkování ===== | ||
+ | |||
+ | Při zobrazení syntaktických stromů se jednotlivé části agregátů chovají jako samostatná syntaktická slova. | ||
+ | |||
+ | Ve větě //aby ses měla nač vymluvit// jsou tři agregáty (//aby: aby|být//; //ses: se|být//; //nač: na|co//), celkem je tedy ve větě pět tokenů, ale osm syntaktických slov (modrým písmem jsou v grafu vyznačeny hodnoty atributu '' | ||
+ | |||
+ | {{: | ||
+ | \\ | ||
%%%% >> [[cnk: | %%%% >> [[cnk: | ||