Korpus SYN verze 3
Název | SYN verze 3 | |
---|---|---|
Pozice | Počet pozic (tokenů) | 2 685 127 310 |
Počet pozic (tokenů) bez interpunkce | 2 231 541 041 | |
Počet slovních tvarů (wordů) | 7 604 328 | |
Počet lemmat | 5 170 696 | |
Struktury | Počet opusů | 49 882 |
Počet dokumentů | 9 163 021 | |
Počet vět | 178 499 972 | |
Další informace | Referenční | ANO |
Reprezentativní | NE (převažuje publicistika) | |
Rok zveřejnění | 2014 |
Každý korpus SYN obsahuje vždy všechny synchronní psané korpusy řady SYN zveřejněné do doby vzniku dané verze. Korpus SYN verze 3 tedy zahrnuje korpusy SYN2000, SYN2005, SYN2006PUB, SYN2009PUB, SYN2010 a SYN2013PUB.
Protože jsou všechny tyto korpusy navzájem disjunktní (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 3 dána součtem jejich velikostí, který činí 2,232 miliardy textových slov (tokenů bez interpunkce). Korpus SYN není reprezentativní; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů SYN2006PUB, SYN2009PUB a SYN2013PUB.
Korpus SYN verze 3 je referenční, a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí. Je ovšem třeba upozornit na postupné zastarávání dodané lingvistické informace, které z referenčnosti zákonitě vyplývá.
Složení korpusu SYN verze 3
Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku | |||||
---|---|---|---|---|---|
korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
SYN2013PUB | 935 mil. | ✓ | ✓ | 2013 | korpus publicistických textů z let 2005-2009 |
SYN2010 | 100 mil. | ✓ | ✓ | 2010 | reprezentativní korpus, převažují texty z let 2005–2009 |
SYN2009PUB | 700 mil. | ✓ | ✓ | 2010 | korpus publicistických textů z let 1995–2007 |
SYN2006PUB | 300 mil. | ✓ | ✓ | 2006 | korpus publicistických textů z let 1989–2004 |
SYN2005 | 100 mil. | ✓ | ✓ | 2005 | reprezentativní korpus, převažují texty z let 2000–2004 |
SYN2000 | 100 mil. | ✓ | ✓ | 2000 | reprezentativní korpus, převažují texty z let 1990–1999 |
Složení publicistické části korpusu SYN verze 3 pokrývá produkci hlavních celostátních deníků (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk) a nespecializovaných časopisů (Reflex, Respekt, Týden) mezi lety 1998–2009. Tabulku s velikostí 15 titulů nejvíce zastoupených v publicistické části korpusu SYN verze 3 (s rozložením po jednotlivých letech; údaje jsou v milionech slov, tj. pozic bez započtení interpunkce) je možné stáhnout níže, náhled složení publicistické části je vidět na následujícím grafu.
Jak citovat SYN verze 3
Křen, M. – Čermák, F. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Novotná, R. – Petkevič, V. – Procházka, P. – Schmiedtová, V. – Skoumalová, H. – Šulc, M.: Korpus SYN, verze 3 z 27. 1. 2014. Ústav Českého národního korpusu FF UK, Praha 2014. Dostupný z WWW: http://www.korpus.cz
Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): The SYN-series corpora of written Czech. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.
— Michal Křen, Olga Richterová
Související odkazy
SYN • SYN verze 4 • SYN2000 • SYN2005 • SYN2006PUB • SYN2009PUB • SYN2010 • SYN2013PUB • SYN2015