Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
cnk:syn2020:agregat [2020/12/17 19:46] – jankrivan | cnk:syn2020:agregat [2021/01/13 15:58] – jankrivan | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Korpus SYN2020: Agregáty ====== | ====== Korpus SYN2020: Agregáty ====== | ||
- | V korpusu SYN2020 je nově řešena problematika tzv. **agregátů**, | + | V korpusu SYN2020 je nově řešena problematika tzv. **agregátů**, |
- | \\ | + | |
- | Jsou to tyto typy slov: | + | |
- | 1. **spojky | + | ===== Typy agregátů ===== |
+ | |||
+ | Mezi agregáty lze rozlišit následující typy slov: | ||
+ | |||
+ | 1. spojky | ||
2. spojení víceméně jakýchkoli slov s **krátkým tvarem druhé osoby singuláru indikativu prézentu slovesa //být//** (//s//): | 2. spojení víceméně jakýchkoli slov s **krátkým tvarem druhé osoby singuláru indikativu prézentu slovesa //být//** (//s//): | ||
Řádek 12: | Řádek 14: | ||
* méně často spojení se zájmeny (//tos//, //komus//) i jinými slovy (// | * méně často spojení se zájmeny (//tos//, //komus//) i jinými slovy (// | ||
- | 3. zřídka i spojení slov s krátkým tvarem 2. osoby singuláru slovesa //být// **odděleného | + | 3. zřídka i spojení slov s krátkým tvarem 2. osoby singuláru slovesa //být// **odděleným |
4. spojení **předložky se zájmenem** //co//, //copak// a //on//: //nač//, //očpak//, //zaň//, //doň//\\ | 4. spojení **předložky se zájmenem** //co//, //copak// a //on//: //nač//, //očpak//, //zaň//, //doň//\\ | ||
Řádek 18: | Řádek 20: | ||
5. zcela výjimečně spojení **předložky, | 5. zcela výjimečně spojení **předložky, | ||
- | Tyto agregáty | + | ===== Tokenizace a morfologické značkování ===== |
+ | |||
+ | Uvedené | ||
Výsledek pak vypadá třeba takto:\\ | Výsledek pak vypadá třeba takto:\\ | ||
Řádek 26: | Řádek 30: | ||
| < | | < | ||
- | Hodnoty atributů u agregátů jsou tedy tzv. **multihodnoty** (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je //proč// a zároveň //být// (%%[lemma = " | + | |
+ | Hodnoty atributů u agregátů jsou tedy tzv. **multihodnoty** (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je //proč// a zároveň //být// (%%[lemma = " | ||
Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku %%& tag != " | Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku %%& tag != " | ||
- | \\ | ||
+ | ===== Syntaktické značkování ===== | ||
+ | |||
+ | Při zobrazení syntaktických stromů se jednotlivé části agregátů chovají jako samostatná syntaktická slova. | ||
+ | |||
+ | Ve větě //aby ses měla nač vymluvit// jsou tři agregáty (//aby: aby|být//; //ses: se|být//; //nač: na|co//), celkem je tedy ve větě pět tokenů, ale osm syntaktických slov: | ||
+ | |||
+ | {{: | ||
+ | \\ | ||
%%%% >> [[cnk: | %%%% >> [[cnk: | ||