Toto je starší verze dokumentu!
Korpus SYN verze 7
Název | SYN verze 7 | |
---|---|---|
Pozice | Počet pozic (tokenů) | 5 100 437 261 |
Počet pozic (tokenů) bez interpunkce | 4 033 268 842 | |
Počet slovních tvarů (wordů) | 11 632 632 | |
Počet lemmat | 8 360 795 | |
Struktury | Počet dokumentů | 106 350 |
Počet textů | 16 377 839 | |
Počet vět | 325 540 933 | |
Další informace | Referenční | ANO |
Reprezentativní | NE (převažuje publicistika) | |
Rok zveřejnění | 2018 |
Každý korpus SYN obsahuje vždy všechny synchronní psané korpusy řady SYN (viz popis celé řady SYN) zveřejněné do doby vzniku dané verze. Korpus SYN verze 7 tedy zahrnuje korpusy SYN2000, SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN2013PUB a SYN2015; kromě nich je však jeho součástí také publicistika z let 2010–2016, která je již součástí korpusů SYN verze 4, verze 5 a verze 6, a také dosud nezveřejněná publicistika z roku 2017 v objemu více než 265 mil. slov.
Protože jsou všechny tyto složky navzájem disjunktní (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 7 dána součtem jejich velikostí, který činí 4,033 miliardy textových slov (tokenů bez interpunkce). Korpus SYN není reprezentativní; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů SYN2006PUB, SYN2009PUB, SYN2013PUB a publicistické složky z let 2010–2017.
Korpus SYN verze 7 je referenční, a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané strukturní a poziční anotace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu <doc syn>
rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například subkorpus odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 7 vytvořit zadáním podmínky syn="v7"
.
Složení korpusu SYN verze 7
Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku | |||||
---|---|---|---|---|---|
korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
SYN2015 | 100 mil. | ✓ | ✓ | 2015 | reprezentativní korpus, převažují texty z let 2010–2014 |
SYN2013PUB | 935 mil. | ✓ | ✓ | 2013 | korpus publicistických textů z let 2005–2009 |
SYN2010 | 100 mil. | ✓ | ✓ | 2010 | reprezentativní korpus, převažují texty z let 2005–2009 |
SYN2009PUB | 700 mil. | ✓ | ✓ | 2010 | korpus publicistických textů z let 1995–2007 |
SYN2006PUB | 300 mil. | ✓ | ✓ | 2006 | korpus publicistických textů z let 1989–2004 |
SYN2005 | 100 mil. | ✓ | ✓ | 2005 | reprezentativní korpus, převažují texty z let 2000–2004 |
SYN2000 | 100 mil. | ✓ | ✓ | 2000 | reprezentativní korpus, převažují texty z let 1990–1999 |
Publicistika v SYN verze 7
Složení publicistické části korpusu SYN verze 7 pokrývá produkci hlavních celostátních deníků (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport), regionálních deníků (především Deníky Bohemia a Moravia z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (Reflex, Respekt, Týden) v letech 1998–2017; celkový počet publicistických titulů je 176. Následující grafy ukazují složení korpusu SYN podle hlavních textových typů v jednotlivých letech a nabízejí bližší pohled na složení publicistické části.
Struktura a anotace korpusu SYN verze 7
Korpus SYN verze 7 je co do strukturace a anotace textů shodný se svými předchůdci: verzí 6, verzí 5 a verzí 4. Opírá se tudíž o hierarchii strukturních značek a jejich atributů a o klasifikaci textů podle korpusu SYN2015, až na dvě výjimky:
- přidání atributu
<doc syn>
pro vytváření subkorpusů odpovídajících původním referenčním korpusům; - nahrazení syntaktické anotace v korpusu SYN2015 pilotní verzí anotace frazémové.
Jak citovat SYN verze 7
Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: Korpus SYN, verze 7 z 29. 11. 2018. Ústav Českého národního korpusu FF UK, Praha 2018. Dostupný z WWW: http://www.korpus.cz.
Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): The SYN-series corpora of written Czech. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.
— Michal Křen, Olga Richterová, Michal Škrabal
Související odkazy
SYN • SYN verze 6 • SYN verze 5 • SYN verze 4 • SYN verze 3 • SYN2000 • SYN2005 • SYN2006PUB • SYN2009PUB • SYN2010 • SYN2013PUB • SYN2015