This is an old revision of the document!
Corpus SYN version 3
Name | SYN version 3 | |
---|---|---|
Position | Number of tokens | 2 685 127 310 |
Number of tokens without punctuation | 2 231 541 041 | |
Number of word forms | 7 604 328 | |
Number of lemmas | 5 170 696 | |
Structures | Number of opuses | 49 882 |
Number of documents | 9 163 021 | |
Number of sentences | 178 499 972 | |
Other information | Referential | YES |
Representative | NO (predominantly journalism) | |
Publication year | 2014 |
Every SYN corpus contains all the synchronic written corpora of the SYN series published up until the time of the given version's publication. The corpus SYN version 3 therefore contains the corpora SYN2000, SYN2005, SYN2006PUB, SYN2009PUB, SYN2010 and SYN2013PUB.
Protože jsou všechny tyto korpusy navzájem disjunktní (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 3 dána součtem jejich velikostí, který činí 2,232 miliardy textových slov (tokenů bez interpunkce). Korpus SYN není reprezentativní; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů SYN2006PUB, SYN2009PUB a SYN2013PUB.
Korpus SYN verze 3 je referenční, a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí. Je ovšem třeba upozornit na postupné zastarávání dodané lingvistické informace, které z referenčnosti zákonitě vyplývá.
Složení korpusu SYN verze 3
Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku | |||||
---|---|---|---|---|---|
korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
SYN2013PUB | 935 mil. | ANO | ANO | 2013 | korpus publicistických textů z let 2005-2009 |
SYN2010 | 100 mil. | ANO | ANO | 2010 | reprezentativní korpus, převažují texty z let 2005–2009 |
SYN2009PUB | 700 mil. | ANO | ANO | 2010 | korpus publicistických textů z let 1995–2007 |
SYN2006PUB | 300 mil. | ANO | ANO | 2006 | korpus publicistických textů z let 1989–2004 |
SYN2005 | 100 mil. | ANO | ANO | 2005 | reprezentativní korpus, převažují texty z let 2000–2004 |
SYN2000 | 100 mil. | ANO | ANO | 2000 | reprezentativní korpus, převažují texty z let 1990–1999 |
Složení publicistické části korpusu SYN verze 3 pokrývá produkci hlavních celostátních deníků (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk) a nespecializovaných časopisů (Reflex, Respekt, Týden) mezi lety 1998–2009. Tabulku s velikostí 15 titulů nejvíce zastoupených v publicistické části korpusu SYN verze 3 (s rozložením po jednotlivých letech; údaje jsou v milionech slov, tj. pozic bez započtení interpunkce) je možné stáhnout níže, náhled složení publicistické části je vidět na následujícím grafu.
How to cite SYN version 3
Křen, M. – Čermák, F. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Novotná, R. – Petkevič, V. – Procházka, P. – Schmiedtová, V. – Skoumalová, H. – Šulc, M.: Korpus SYN, verze 3 z 27. 1. 2014. Ústav Českého národního korpusu FF UK, Praha 2014. Available online: http://www.korpus.cz
Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): The SYN-series corpora of written Czech. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.
— Michal Křen, Olga Richterová
Related links
SYN • SYN verze 4 • SYN2000 • SYN2005 • SYN2006PUB • SYN2009PUB • SYN2010 • SYN2013PUB • SYN2015