Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:syn2020:agregat [2020/12/17 19:46] – jankrivan | cnk:syn2020:agregat [2022/01/03 14:05] (aktuální) – [Syntaktické značkování] jankrivan |
---|
====== Korpus SYN2020: Agregáty ====== | ====== Korpus SYN2020: Agregáty ====== |
| |
V korpusu SYN2020 je nově řešena problematika tzv. **agregátů**, slov, která se v češtině píšou jako jedno slovo, z pohledu syntaxe či určování gramatických kategorií se však chovají spíše jako slova dvě (výjimečně tři).\\ | V korpusu SYN2020 je nově řešena problematika tzv. **agregátů**, slov, která se v češtině píšou jako jedno slovo, z pohledu syntaxe či určování gramatických kategorií se však chovají spíše jako slova dvě (výjimečně tři). V terminologii standardu [[https://universaldependencies.org/|Universal Dependencies]] se o těchto slovech mluví jako o "víceslovných tokenech", "multiword tokens". |
\\ | |
Jsou to tyto typy slov: | |
| |
1. **spojky //aby//, //kdyby//**: chovají se jako spojky, ale zároveň obsahují kondicionálový tvar slovesa //být// (//abych zjistila//, //kdyby pracoval//); podobně je značena **spojka //jako//** v případech, kdy tvoří pravopisný slitek s kondicionálovým tvarem (//jakoby se ztratil// odpovídající spojení //jako by se ztratil//) | ===== Typy agregátů ===== |
| |
| Mezi agregáty lze rozlišit následující typy slov: |
| |
| 1. spojky **//aby//**, **//kdyby//**: chovají se jako spojky, ale zároveň obsahují kondicionálový tvar slovesa //být// (//abych zjistila//, //kdyby pracoval//); podobně je značena spojka **//jako//** v případech, kdy tvoří pravopisný slitek s kondicionálovým tvarem (//jakoby se ztratil// odpovídající spojení //jako by se ztratil//) |
| |
2. spojení víceméně jakýchkoli slov s **krátkým tvarem druhé osoby singuláru indikativu prézentu slovesa //být//** (//s//): | 2. spojení víceméně jakýchkoli slov s **krátkým tvarem druhé osoby singuláru indikativu prézentu slovesa //být//** (//s//): |
* méně často spojení se zájmeny (//tos//, //komus//) i jinými slovy (//vždyťs//, //knihus//)\\ | * méně často spojení se zájmeny (//tos//, //komus//) i jinými slovy (//vždyťs//, //knihus//)\\ |
| |
3. zřídka i spojení slov s krátkým tvarem 2. osoby singuláru slovesa //být// **odděleného apostrofem** (či znakem apostrofu podobným): //proto's//, //ty´s// | 3. zřídka i spojení slov s krátkým tvarem 2. osoby singuláru slovesa //být// **odděleným apostrofem** (či znakem apostrofu podobným): //proto's//, //ty´s// |
| |
4. spojení **předložky se zájmenem** //co//, //copak// a //on//: //nač//, //očpak//, //zaň//, //doň//\\ | 4. spojení **předložky se zájmenem** //co//, //copak// a //on//: //nač//, //očpak//, //zaň//, //doň//\\ |
5. zcela výjimečně spojení **předložky, zájmena a 2. osoby singuláru slovesa //být//**: //načs//\\ | 5. zcela výjimečně spojení **předložky, zájmena a 2. osoby singuláru slovesa //být//**: //načs//\\ |
| |
Tyto agregáty řešíme tak, že původní slovo necháváme jako jeden token, ale tomuto tokenu přiřadíme dvě (tři) sady lemma + sublemma + tag + verbtag. V každém z těchto atributů jsou hodnoty z různých sad odděleny svislítkem. | ===== Tokenizace a morfologické značkování ===== |
| |
| Uvedené agregáty zpracováváme tak, že původní slovo necháváme jako jeden token, ale tomuto tokenu přiřadíme dvě (tři) sady hodnot lemma + sublemma + tag + verbtag. V každém z těchto atributů jsou hodnoty z různých sad odděleny svislítkem. |
| |
Výsledek pak vypadá třeba takto:\\ | Výsledek pak vypadá třeba takto:\\ |
^ word ^ lemma ^ tag ^ verbtag^ | ^ word ^ lemma ^sublemma ^ tag ^ verbtag^ |
| <code>abych</code> | <code>aby|být</code> | <code>J,-------------|Vc-S---1----I--</code> | <code>------|A----- </code> | | | <code>abych</code> | <code>aby|být</code> | <code>aby|být</code> | <code>J,-------------|Vc-S---1----I--</code> | <code>------|A----- </code> | |
| <code>ses</code> | <code>se|být</code> | <code>P7--4----------|VB-S---2P-AAI-1</code> | <code>------|A-----</code> | | | <code>ses</code> | <code>se|být</code> | <code>se|být</code> | <code>P7--4----------|VB-S---2P-AAI-1</code> | <code>------|A-----</code> | |
| <code>naň</code> | <code>na|on</code> | <code>RR--4----------|P5MS2--3-------</code> | <code>------|------</code> | | | <code>naň</code> | <code>na|on</code> | <code>na|on</code> | <code>RR--4----------|P5MS2--3-------</code> | <code>------|------</code> | |
| |
Hodnoty atributů u agregátů jsou tedy tzv. **multihodnoty** (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je //proč// a zároveň //být// (%%[lemma = "proč" & lemma = "být"]%%) nebo je token adverbium a zároveň sloveso (%%[pos = "D" & pos = "V"]%%). | |
| Hodnoty atributů u agregátů jsou tedy tzv. **multihodnoty** (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je //proč// a zároveň //být// (%%[lemma = "proč" & lemma = "být"]%%) nebo je token adverbium a zároveň sloveso (%%[pos = "D" & pos = "V"]%%). |
| |
| Poznámka: K dispozici je i zvláštní atribut ''sforma'' - syntaktický slovní tvar, který v rámci agregátu odpovídá jeho uspořádání (např. a|bych, se|s, na|ň), jinak je totožný s atributem ''word''. Atribut ''sforma'' je využit v syntaktickém značkování agregátů, viz níže. |
| |
Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku %%& tag != ".+\|.+"%% (tag neobsahuje "svislítko", tedy není to "multihodnota", není to "agregát"), například %%[lemma = "být" & tag != ".+\|.+"]%% vypíše všechny tvary slovesa //být// kromě "agregátů". | Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku %%& tag != ".+\|.+"%% (tag neobsahuje "svislítko", tedy není to "multihodnota", není to "agregát"), například %%[lemma = "být" & tag != ".+\|.+"]%% vypíše všechny tvary slovesa //být// kromě "agregátů". |
\\ | |
| |
| ===== Syntaktické značkování ===== |
| |
| Při zobrazení syntaktických stromů se jednotlivé části agregátů chovají jako samostatná syntaktická slova. |
| |
| Ve větě //aby ses měla nač vymluvit// jsou tři agregáty (//aby: aby|být//; //ses: se|být//; //nač: na|co//), celkem je tedy ve větě pět tokenů, ale osm syntaktických slov (modrým písmem jsou v grafu vyznačeny hodnoty atributu ''sforma''): |
| |
| {{:cnk:syn2020:agregaty_syntax.png?250|Zobrazení agregátů v syntaktickém stromu }}\\ |
| \\ |
%%%% >> [[cnk:syn2020|Zpět na hlavní stránku Korpus SYN2020]] | %%%% >> [[cnk:syn2020|Zpět na hlavní stránku Korpus SYN2020]] |
| |