AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
cnk:syn2020:agregat [2021/01/13 15:58]
Jan Křivan
cnk:syn2020:agregat [2022/01/03 14:05] (aktuální)
Jan Křivan [Syntaktické značkování]
Řádek 1: Řádek 1:
 ====== Korpus SYN2020: Agregáty ====== ====== Korpus SYN2020: Agregáty ======
  
-V korpusu SYN2020 je nově řešena problematika tzv. **agregátů**, slov, která se v češtině píšou jako jedno slovo, z pohledu syntaxe či určování gramatických kategorií se však chovají spíše jako slova dvě (výjimečně tři).+V korpusu SYN2020 je nově řešena problematika tzv. **agregátů**, slov, která se v češtině píšou jako jedno slovo, z pohledu syntaxe či určování gramatických kategorií se však chovají spíše jako slova dvě (výjimečně tři). V terminologii standardu [[https://universaldependencies.org/|Universal Dependencies]] se o těchto slovech mluví jako o "víceslovných tokenech", "multiword tokens".
  
 ===== Typy agregátů ===== ===== Typy agregátů =====
Řádek 25: Řádek 25:
  
 Výsledek pak vypadá třeba takto:\\ Výsledek pak vypadá třeba takto:\\
-^ word ^ lemma ^ tag ^ verbtag^ +^ word ^ lemma ^sublemma ^ tag ^ verbtag^ 
-| <code>abych</code> | <code>aby|být</code> | <code>J,-------------|Vc-S---1----I--</code> | <code>------|A----- </code>+| <code>abych</code> | <code>aby|být</code> | <code>aby|být</code> | <code>J,-------------|Vc-S---1----I--</code> | <code>------|A----- </code>
-| <code>ses</code> | <code>se|být</code> | <code>P7--4----------|VB-S---2P-AAI-1</code> | <code>------|A-----</code>+| <code>ses</code> | <code>se|být</code> | <code>se|být</code> | <code>P7--4----------|VB-S---2P-AAI-1</code> | <code>------|A-----</code>
-| <code>naň</code> | <code>na|on</code> | <code>RR--4----------|P5MS2--3-------</code> | <code>------|------</code> |+| <code>naň</code> | <code>na|on</code> | <code>na|on</code> | <code>RR--4----------|P5MS2--3-------</code> | <code>------|------</code> |
  
  
 Hodnoty atributů u agregátů jsou tedy tzv. **multihodnoty** (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je //proč// a zároveň //být// (%%[lemma = "proč" & lemma = "být"]%%) nebo je token adverbium a zároveň sloveso (%%[pos = "D" & pos = "V"]%%). Hodnoty atributů u agregátů jsou tedy tzv. **multihodnoty** (pro daný token platí zároveň více hodnot atributu). V důsledku tohoto řešení lze (v pokročilém dotazu) hledat tokeny, které splňují zdánlivě nesmyslné podmínky, např. lemma tokenu je //proč// a zároveň //být// (%%[lemma = "proč" & lemma = "být"]%%) nebo je token adverbium a zároveň sloveso (%%[pos = "D" & pos = "V"]%%).
 +
 +Poznámka: K dispozici je i zvláštní atribut ''sforma'' - syntaktický slovní tvar, který v rámci agregátu odpovídá jeho uspořádání (např. a|bych, se|s, na|ň), jinak je totožný s atributem ''word''. Atribut ''sforma'' je využit v syntaktickém značkování agregátů, viz níže.
  
 Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku %%& tag != ".+\|.+"%% (tag neobsahuje "svislítko", tedy není to "multihodnota", není to "agregát"), například %%[lemma = "být" & tag != ".+\|.+"]%% vypíše všechny tvary slovesa //být// kromě "agregátů". Chceme-li se z nějakého důvodu agregátům vyhnout, lze do pokročilého dotazu například přidat podmínku %%& tag != ".+\|.+"%% (tag neobsahuje "svislítko", tedy není to "multihodnota", není to "agregát"), například %%[lemma = "být" & tag != ".+\|.+"]%% vypíše všechny tvary slovesa //být// kromě "agregátů".
Řádek 39: Řádek 41:
 Při zobrazení syntaktických stromů se jednotlivé části agregátů chovají jako samostatná syntaktická slova.  Při zobrazení syntaktických stromů se jednotlivé části agregátů chovají jako samostatná syntaktická slova. 
  
-Ve větě //aby ses měla nač vymluvit// jsou tři agregáty (//aby: aby|být//; //ses: se|být//; //nač: na|co//), celkem je tedy ve větě pět tokenů, ale osm syntaktických slov:+Ve větě //aby ses měla nač vymluvit// jsou tři agregáty (//aby: aby|být//; //ses: se|být//; //nač: na|co//), celkem je tedy ve větě pět tokenů, ale osm syntaktických slov (modrým písmem jsou v grafu vyznačeny hodnoty atributu ''sforma''):
  
 {{:cnk:syn2020:agregaty_syntax.png?250|Zobrazení agregátů v syntaktickém stromu }}\\ {{:cnk:syn2020:agregaty_syntax.png?250|Zobrazení agregátů v syntaktickém stromu }}\\