Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:syn2020:agregat [2021/01/13 15:58] – jankrivan | cnk:syn2020:agregat [2021/01/21 09:16] – [Korpus SYN2020: Agregáty] tomasjelinek |
---|
====== Korpus SYN2020: Agregáty ====== | ====== Korpus SYN2020: Agregáty ====== |
| |
V korpusu SYN2020 je nově řešena problematika tzv. **agregátů**, slov, která se v češtině píšou jako jedno slovo, z pohledu syntaxe či určování gramatických kategorií se však chovají spíše jako slova dvě (výjimečně tři). | V korpusu SYN2020 je nově řešena problematika tzv. **agregátů**, slov, která se v češtině píšou jako jedno slovo, z pohledu syntaxe či určování gramatických kategorií se však chovají spíše jako slova dvě (výjimečně tři). V terminologii standardu [[https://universaldependencies.org/|Universal Dependencies]] se o těchto slovech mluví jako o "víceslovných tokenech", "multiword tokens". |
| |
===== Typy agregátů ===== | ===== Typy agregátů ===== |
| |
Výsledek pak vypadá třeba takto:\\ | Výsledek pak vypadá třeba takto:\\ |
^ word ^ lemma ^ tag ^ verbtag^ | ^ word ^ lemma ^sublemma ^ tag ^ verbtag^ |
| <code>abych</code> | <code>aby|být</code> | <code>J,-------------|Vc-S---1----I--</code> | <code>------|A----- </code> | | | <code>abych</code> | <code>aby|být</code> | <code>aby|být</code> | <code>J,-------------|Vc-S---1----I--</code> | <code>------|A----- </code> | |
| <code>ses</code> | <code>se|být</code> | <code>P7--4----------|VB-S---2P-AAI-1</code> | <code>------|A-----</code> | | | <code>ses</code> | <code>se|být</code> | <code>se|být</code> | <code>P7--4----------|VB-S---2P-AAI-1</code> | <code>------|A-----</code> | |
| <code>naň</code> | <code>na|on</code> | <code>RR--4----------|P5MS2--3-------</code> | <code>------|------</code> | | | <code>naň</code> | <code>na|on</code> | <code>na|on</code> | <code>RR--4----------|P5MS2--3-------</code> | <code>------|------</code> | |
| |
| |