Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
cnk:syn2020:agregat [2020/12/17 15:52] – jankrivan | cnk:syn2020:agregat [2021/01/14 11:21] – [Tokenizace a morfologické značkování] jankrivan | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Korpus SYN2020: Agregáty ====== | ====== Korpus SYN2020: Agregáty ====== | ||
- | **<fc # | + | V korpusu SYN2020 je nově řešena problematika tzv. **agregátů**, |
- | V korpusu SYN2020 je nově řešena problematika tzv. agregátů, slov, která se v češtině píšou jako jedno slovo, z pohledu syntaxe či určování gramatických kategorií se však chovají spíše jako slova dvě (výjimečně tři).\\ | + | ===== Typy agregátů |
- | \\ | + | |
- | Jsou to tyto typy slov:\\ | + | |
- | - spojky //aby//, //kdyby// a //jakoby//: chovají se jako spojky, ale zároveň obsahují kondicionálový tvar slovesa // | + | |
- | - spojení víceméně jakýchkoli slov s krátkým tvarem druhé osoby singuláru indikativu slovesa //být//: //s//, nejčastěji //ses//, //sis//, dále spojení l-ových příčestí a //s// (// | + | |
- | - zřídka i spojení slov s krátkým tvarem 2. osoby singuláru slovesa //být// odděleného od původního slovesa apostrofem (či znakem apostrofu podobným): //ty´s// | + | |
- | - spojení předložky se zájmenem //co//, //copak// a //on//: //nač//, //očpak//, //zaň//, // | + | |
- | - zcela výjimečně spojení předložky, | + | |
- | Tyto agregáty | + | Mezi agregáty |
+ | |||
+ | 1. spojky **// | ||
+ | |||
+ | 2. spojení víceméně jakýchkoli slov s **krátkým tvarem druhé osoby singuláru indikativu prézentu slovesa //být//** (//s//): | ||
+ | * nejčastěji //ses//, //sis// (//smál ses//, //přála sis//), | ||
+ | * dále spojení l-ových příčestí a //s// (// | ||
+ | * méně často spojení se zájmeny (//tos//, //komus//) i jinými slovy (// | ||
+ | |||
+ | 3. zřídka i spojení slov s krátkým tvarem 2. osoby singuláru slovesa //být// **odděleným apostrofem** (či znakem apostrofu podobným): // | ||
+ | |||
+ | 4. spojení **předložky se zájmenem** //co//, //copak// a //on//: //nač//, //očpak//, //zaň//, // | ||
+ | |||
+ | 5. zcela výjimečně spojení **předložky, | ||
+ | |||
+ | ===== Tokenizace a morfologické značkování ===== | ||
+ | |||
+ | Uvedené agregáty zpracováváme | ||
Výsledek pak vypadá třeba takto:\\ | Výsledek pak vypadá třeba takto:\\ | ||
- | ^ word ^ lemma ^ tag ^ verbtag^ | + | ^ word ^ lemma ^sublemma |
- | | < | + | | < |
- | | < | + | | < |
+ | | < | ||
- | Hodnoty atributů u agregátů jsou tedy tzv. **multihodnoty** (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je //proč// a zároveň //být// (%%[lemma = " | + | |
+ | Hodnoty atributů u agregátů jsou tedy tzv. **multihodnoty** (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je //proč// a zároveň //být// (%%[lemma = " | ||
Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku %%& tag != " | Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku %%& tag != " | ||
- | \\ | ||
+ | ===== Syntaktické značkování ===== | ||
+ | |||
+ | Při zobrazení syntaktických stromů se jednotlivé části agregátů chovají jako samostatná syntaktická slova. | ||
+ | |||
+ | Ve větě //aby ses měla nač vymluvit// jsou tři agregáty (//aby: aby|být//; //ses: se|být//; //nač: na|co//), celkem je tedy ve větě pět tokenů, ale osm syntaktických slov: | ||
+ | |||
+ | {{: | ||
+ | \\ | ||
%%%% >> [[cnk: | %%%% >> [[cnk: | ||