~~NOTOC~~
====== Korpus SYN verze 12 ======
^ Název ^^ SYN verze 12 ^
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 6 238 142 297 |
^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 5 174 701 189 |
^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 11 384 712 |
^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 7 604 956 |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] | 144 755 |
^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] | 18 965 216 |
^ ::: ^ Počet vět | 398 423 123 |
^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO |
^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE (převažuje [[seznamy:txtype|publicistika]]) |
^ ::: ^ Rok zveřejnění | 2023 |
Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 12 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]], [[cnk:syn2015|SYN2015]] a [[cnk:syn2020|SYN2020]]; kromě nich je však jeho součástí také publicistika z let 2010–2021, která je již součástí korpusů [[cnk:syn:verze4|SYN verze 4]] až [[cnk:syn:verze11|verze 11]], a také **dosud nezveřejněná publicistika z roku 2022** v objemu téměř 150 mil. slov.
Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2022.
Korpus SYN verze 12 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:atributy_pozicni|poziční]] anotace, která z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu '''' rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 12 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn="v12"''.
===== Složení korpusu SYN verze 12 =====
^ Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku ^^^^^^
^ korpus ^ velikost (počet slov) ^ [[pojmy:lemma|lemmatizace]] ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
^ [[cnk:syn2015|SYN2020]] | 100 mil. | ✓ | ✓ | 2020 | reprezentativní korpus, převažují texty z let 2015–2019|
^ [[cnk:syn2015|SYN2015]] | 100 mil. | ✓ | ✓ | 2015 | reprezentativní korpus, převažují texty z let 2010–2014|
^ [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. | ✓ | ✓ | 2013 | korpus publicistických textů z let 2005–2009 |
^ [[cnk:syn2010|SYN2010]] | 100 mil. | ✓ | ✓ | 2010 | reprezentativní korpus, převažují texty z let 2005–2009|
^ [[cnk:syn2009PUB|SYN2009PUB]] | 700 mil. | ✓ | ✓ | 2010 | korpus publicistických textů z let 1995–2007 |
^ [[cnk:syn2006PUB|SYN2006PUB]] | 300 mil. | ✓ | ✓ | 2006 | korpus publicistických textů z let 1989–2004|
^ [[cnk:syn2005|SYN2005]] | 100 mil. | ✓ | ✓ | 2005 | reprezentativní korpus, převažují texty z let 2000–2004|
^ [[cnk:syn2000|SYN2000]] | 100 mil. | ✓ | ✓ | 2000 | reprezentativní korpus, převažují texty z let 1990–1999|
==== Publicistika v SYN verze 12 ====
Složení publicistické části korpusu SYN verze 12 pokrývá produkci hlavních celostátních deníků (//Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport//), regionálních deníků (především //Deníky Bohemia// a //Moravia// z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (//Reflex, Respekt, Týden//) v letech 1998--2022; celkový počet publicistických titulů se blíží 200. Následující grafy ukazují složení korpusu SYN podle [[pojmy:txtype_group|hlavních textových typů]] v jednotlivých letech a nabízejí bližší pohled na složení publicistické části.
[{{:cnk:syn:slozeni_syn_v12.png?400|Složení korpusu SYN verze 12}}]
[{{:cnk:syn:slozeni_syn_v12_pub.png?400|Složení publicistické části korpusu SYN verze 12}}]
====== Struktura a anotace korpusu SYN verze 12 ======
[[pojmy:atributy_strukturni|Strukturace]] a [[pojmy:anotace|anotace]] textů vycházejí ze SYN2020. [[cnk:syn2020#struktura_korpusu_syn2020_a_strukturni_znacky|Hierarchie strukturních značek]] korpusu SYN verze 12 je tedy shodná se SYN2020, stejně tak odpovídají korpusu SYN2020 také [[cnk:syn2020#anotace_syn2020zmeny_oproti_ostatnim_korpusum_rady_syn|lemmatizace a morfologické značkování]]. SYN verze 12 je tedy v tomto ohledu stejný jako jeho předchůdce, korpus [[cnk:syn:verze11|SYN verze 11]].
Shoda struktury a anotace SYN verze 12 se [[cnk:syn2020|SYN2020]] má pouze tyto výjimky:
* podobně jako v jiných korpusech řady SYN přibyl i v korpusu SYN verze 12 atribut '''' pro [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|vytváření subkorpusů odpovídajících původním referenčním korpusům]];
* [[pojmy:syntakticka_analyza|syntaktická anotace]] korpusu SYN2020 byla pro SYN verze 12 nahrazena **[[seznamy:frazemy|anotací frazémovou]]**, která odpovídá korpusům SYN verze 9, 10 a 11.
====== Jak citovat SYN verze 12 ======
Křen, M. – Cvrček, V. – Čapka, T. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Milička, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. – Škrabal, M.: //Korpus SYN, verze 12 ze 29. 12. 2023//. Ústav Českého národního korpusu FF UK, Praha 2023. Dostupný z WWW: https://www.korpus.cz
Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.
Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): [[https://doi.org/10.1007/978-3-030-83527-9_4|SYN2020: A new corpus of Czech with an innovated annotation]]. In: K. Ekštein – F. Pártl – M. Konopík (eds.), //Text, Speech, and Dialogue.// TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59.
Křivan, J. – Šindlerová, J. (2022): [[https://asjournals.lib.cas.cz/slovoaslovesnost/article/uuid:286197ce-8b36-43ac-9563-eba2abf8ca0e|Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu]]. //Slovo a slovesnost//, 83, 2/2022, 122–145.
--- //Michal Křen//
====== Související odkazy ======
[[cnk:syn|SYN]] • [[cnk:syn:verze11|SYN verze 11]] • [[cnk:syn:verze10|SYN verze 10]] • [[cnk:syn:verze9|SYN verze 9]] • [[cnk:syn:verze8|SYN verze 8]] • [[cnk:syn:verze7|SYN verze 7]] • [[cnk:syn:verze6|SYN verze 6]] • [[cnk:syn:verze5|SYN verze 5]] • [[cnk:syn:verze4|SYN verze 4]] • [[cnk:syn:verze3|SYN verze 3]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2005|SYN2005]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] • [[cnk:SYN2013PUB|SYN2013PUB]] • [[cnk:syn2015|SYN2015]] • [[cnk:syn2020|SYN2020]]