| Následující verze | Předchozí verze |
| cnk:syn:verze14 [2026/01/17 21:07] – vytvořeno michalkren | cnk:syn:verze14 [2026/01/23 12:14] (aktuální) – [Struktura a anotace korpusu SYN verze 14] krivan |
|---|
| <WRAP right 35%> | <WRAP right 35%> |
| ^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 14</fs> ^ | ^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 14</fs> ^ |
| ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 6 400 899 055 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 6 616 455 821 | |
| ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 5 310 635 949 | | ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 5 488 909 099 | |
| ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 11 522 926 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 11 855 023 | |
| ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 7 655 932 | | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 7 869 983 | |
| ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] | 151 076 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] | 158 764 | |
| ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] | 19 363 730 | | ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] | 19 682 164 | |
| ^ ::: ^ Počet vět | 408 749 819 | | ^ ::: ^ Počet vět | 422 269 782 | |
| ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | | ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | |
| ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE (převažuje [[seznamy:txtype|publicistika]]) | | ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE (převažuje [[seznamy:txtype|publicistika]]) | |
| ^ ::: ^ Rok zveřejnění | 2024 | | ^ ::: ^ Rok zveřejnění | 2025 | |
| </WRAP> | </WRAP> |
| |
| ==== Publicistika v SYN verze 14 ==== | ==== Publicistika v SYN verze 14 ==== |
| |
| Složení publicistické části korpusu SYN verze 14 pokrývá produkci hlavních celostátních deníků (//Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport//), regionálních deníků (především //Deníky Bohemia// a //Moravia// z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (//Reflex, Respekt, Týden//) v letech 1998--2024; celkový počet publicistických titulů se blíží 200. Následující grafy ukazují složení korpusu SYN podle [[pojmy:txtype_group|hlavních textových typů]] v jednotlivých letech a nabízejí bližší pohled na složení publicistické části. | Složení publicistické části korpusu SYN verze 14 pokrývá produkci hlavních celostátních deníků (//Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport//), regionálních deníků (především //Deníky Bohemia// a //Moravia// z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (//Reflex, Respekt, Týden//) v letech 1998--2024; celkový počet publicistických titulů se blíží 200. Následující grafy ukazují složení korpusu SYN podle [[pojmy:txtype_group|hlavních textových typů]] v jednotlivých letech a nabízejí bližší pohled na složení publicistické části. |
| |
| [{{:cnk:syn:slozeni_syn_v14.png?400|Složení korpusu SYN verze 14}}] | [{{:cnk:syn:slozeni_syn_v14.png?400|Složení korpusu SYN verze 14}}] |
| ====== Struktura a anotace korpusu SYN verze 14 ====== | ====== Struktura a anotace korpusu SYN verze 14 ====== |
| |
| [[pojmy:atributy_strukturni|Strukturace]] a [[pojmy:anotace|anotace]] textů vycházejí ze SYN2025. [[cnk:syn2025#struktura_korpusu_syn2025_a_strukturni_znacky|Hierarchie strukturních značek]] korpusu SYN verze 14 je tedy shodná se SYN2025, stejně tak odpovídají korpusu SYN2025 také [[cnk:syn2025#anotace_syn2025zmeny_oproti_ostatnim_korpusum_rady_syn|lemmatizace a morfologické značkování]]. SYN verze 14 je tedy v tomto ohledu stejný jako jeho předchůdce, korpus [[cnk:syn:verze13|SYN verze 13]]. | [[pojmy:atributy_strukturni|Strukturace]] a [[pojmy:anotace|anotace]] textů vycházejí ze SYN2025. [[cnk:syn2025#struktura_korpusu_syn2025_a_strukturni_znacky|Hierarchie strukturních značek]] korpusu SYN verze 14 je shodná se SYN2025. Morfologické značkování, lemmatizace a tokenizace korpusu probíhá plně automaticky podle [[cnk:anotacni_standard_cnk|anotačního standardu ČNK]]. SYN verze 14 je v tomto ohledu stejný jako jeho předchůdce, korpus [[cnk:syn:verze13|SYN verze 13]]. |
| |
| Shoda struktury a anotace SYN verze 14 se [[cnk:syn2025|SYN2025]] má pouze tyto výjimky: | Shoda struktury a anotace SYN verze 14 se [[cnk:syn2025|SYN2025]] má pouze tyto výjimky: |
| |
| * podobně jako v jiných korpusech řady SYN přibyl i v korpusu SYN verze 14 atribut ''<doc syn>'' pro [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|vytváření subkorpusů odpovídajících původním referenčním korpusům]]; | * podobně jako v jiných korpusech řady SYN přibyl i v korpusu SYN verze 14 atribut ''<doc syn>'' pro [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|vytváření subkorpusů odpovídajících původním referenčním korpusům]]; |
| * [[pojmy:syntakticka_analyza|syntaktická anotace]] korpusu SYN2025 byla pro SYN verze 14 nahrazena zcela novou **[[seznamy:frazemy|anotací víceslovných jednotek]]**. | * [[pojmy:syntakticka_analyza|syntaktická anotace]] korpusu SYN2025 byla pro SYN verze 14 nahrazena (ve srovnání se SYN v13) **zcela novou [[seznamy:mwe|anotací víceslovných jednotek]]**. |
| |
| ====== Jak citovat SYN verze 14 ====== | ====== Jak citovat SYN verze 14 ====== |
| |
| <WRAP round tip 70%> | <WRAP round tip 70%> |
| Křen, M. – Čapka, T. – Hnátková, M. – Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H.: //Korpus SYN, verze 14 z 27. 12. 2025//. Ústav Českého národního korpusu FF UK, Praha 2025. Dostupný z WWW: https://www.korpus.cz | Křen, M. – Čapka, T. – Hnátková, M. – Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Vondřička, P.: //Korpus SYN, verze 14 z 30. 12. 2025//. Ústav Českého národního korpusu FF UK, Praha 2025. Dostupný z WWW: https://www.korpus.cz |
| |
| Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. | Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. |