Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
cnk:syn2020:agregat [2021/01/14 11:21] – [Tokenizace a morfologické značkování] jankrivan | cnk:syn2020:agregat [2022/01/03 14:05] (aktuální) – [Syntaktické značkování] jankrivan | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Korpus SYN2020: Agregáty ====== | ====== Korpus SYN2020: Agregáty ====== | ||
- | V korpusu SYN2020 je nově řešena problematika tzv. **agregátů**, | + | V korpusu SYN2020 je nově řešena problematika tzv. **agregátů**, |
===== Typy agregátů ===== | ===== Typy agregátů ===== | ||
Řádek 32: | Řádek 32: | ||
Hodnoty atributů u agregátů jsou tedy tzv. **multihodnoty** (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je //proč// a zároveň //být// (%%[lemma = " | Hodnoty atributů u agregátů jsou tedy tzv. **multihodnoty** (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je //proč// a zároveň //být// (%%[lemma = " | ||
+ | |||
+ | Poznámka: K dispozici je i zvláštní atribut '' | ||
Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku %%& tag != " | Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku %%& tag != " | ||
Řádek 39: | Řádek 41: | ||
Při zobrazení syntaktických stromů se jednotlivé části agregátů chovají jako samostatná syntaktická slova. | Při zobrazení syntaktických stromů se jednotlivé části agregátů chovají jako samostatná syntaktická slova. | ||
- | Ve větě //aby ses měla nač vymluvit// jsou tři agregáty (//aby: aby|být//; //ses: se|být//; //nač: na|co//), celkem je tedy ve větě pět tokenů, ale osm syntaktických slov: | + | Ve větě //aby ses měla nač vymluvit// jsou tři agregáty (//aby: aby|být//; //ses: se|být//; //nač: na|co//), celkem je tedy ve větě pět tokenů, ale osm syntaktických slov (modrým písmem jsou v grafu vyznačeny hodnoty atributu '' |
{{: | {{: |