Korpus SYN2000
Název | SYN2000 | |
---|---|---|
Pozice | Počet pozic (tokenů) | 120 908 724 |
Počet pozic (tokenů) bez interpunkce | 100 061 381 | |
Počet slovních tvarů (wordů) | 1 763 813 | |
Počet lemmat | 891 713 | |
Struktury | Počet dokumentů (nikoli opusů) | 233 797 |
Počet vět | 7 639 321 | |
Další informace | Referenční | ANO |
Reprezentativní | ANO (různé textové typy) | |
Rok zveřejnění | 2000 |
Korpus SYN2000 obsahuje 100 milionů textových slov a veřejnosti byl představen v říjnu roku 2000, tedy v době, kdy korpusový přístup k jazyku v českých zemích byl ještě takříkajíc v plenkách. Jedná se o vůbec první korpus psané češtiny, který vznikl v rámci projektu ČNK a který byl vytvořen jako referenční a neměnná entita reprezentující stav jazyka v roce 2000.
Inspirací korpusu SYN2000 byl British National Corpus, práce na BNC však ustaly v roce 1994.
Složení tohoto korpusu bylo, stejně jako složení následujících reprezentativních korpusů SYN2005 a SYN2010, stanoveno na základě výzkumů recepce psaného jazyka tak, aby korpus pokrýval co nejširší žánrové rozvrstvení češtiny. SYN2000 zachycuje současný jazyk, byly do něj tedy zařazeny převážně texty, které vznikly v letech 1990 až 1999. Pro publicistiku a odbornou literaturu byl rok 1990 zvolen jako přirozená hranice synchronie; rok 1990 tvoří zároveň hranici jádra synchronie pro beletrii, ovšem s tím, že toto jádro může být doplněno i texty staršími, pokud byly vydány (ne nutně poprvé) po roce 1945 a jejich autor se narodil po roce 1880. SYN2000 tak například obsahuje texty K. Čapka nebo J. Haška, které jsou stále recipované, a tedy na současný jazyk působí.
Korpus SYN2000 je lemmatizovaný a morfologicky označkovaný. Upozorňujeme však, že vzhledem k tomu, že SYN2000 je také korpusem referenčním, jsou jeho lemmatizace a značkování na úrovni roku 2000, tedy nutně zastaralé a nespolehlivé. Kromě toho je pro identifikaci textu, ve kterém se vyskytl vyhledaný výraz, nezbytné použít seznam zdrojových textů, což je velice nepohodlné a zdlouhavé. Všem zájemcům o práci s texty korpusu SYN2000 proto doporučujeme pracovat namísto toho se subkorpusem korpusu SYN; ten lze pomocí strukturního atributu <opus.syn>
snadno navolit tak, aby obsahoval právě texty korpusu SYN2000, ovšem s nejnovější lemmatizací, morfologickým značkováním a se snadno dostupnými bibliografickými údaji.
Upravenou podobou korpusu SYN2000 s vylepšenou lemmatizací je korpus FSC2000, který posloužil jako zdroj Frekvenčního slovníku češtiny.
Změny v korpusech řady SYN
Upozorňujeme na výrazné změny ve složení i způsobu zpracování mezi korpusy SYN2000 a SYN2005 (a tedy také SYN2000 a SYN2010), které jsou shrnuty na stránce věnované korpusu SYN2005. Důsledkem těchto změn je mj. přímá nesrovnatelnost frekvenčních údajů (viz srovnávací frekvenční seznamy).
Proměnu v pojetí reprezentativnosti korpusu, z níž vyplývají významné rozdíly ve složení ve srovnání s následujícími korpusy řady SYN, je vidět na následující tabulce srovnávající složení korpusů SYN2000 a SYN2005 po hlavních textových typech.
SYN2005 | SYN2000 | |
---|---|---|
beletrie | 40 % | 15 % |
odborná lit. | 27 % | 25 % |
publicistika | 33 % | 60 % |
Složení korpusu SYN2000
Struktura korpusu SYN2000
Mezi strukturní jednotky používané v tomto korpusu patří <doc>
a <s>
, tedy dokument a věta - a pak každá jednotlivá pozice. Zobrazit si je můžete v položce menu Zobrazení. V následujících korpusech řady SYN přibyla ještě hierarchicky nejvyšší struktura <opus>
(tento rozdíl je velmi důležitý např. při vyhledávání pomocí podmínek within
).
K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.
Jak citovat SYN2000
Čermák, F. – Blatná, R. – Hlaváčová, J. – Klímová, J. – Kocek, J. – Kopřivová, M. – Křen, M. – Petkevič, V. – Schmiedtová, V. – Šulc, M.: SYN2000: žánrově vyvážený korpus psané češtiny. Ústav Českého národního korpusu FF UK, Praha 2000. Dostupný z WWW: http://www.korpus.cz
— Michal Křen, Olga Richterová
Související odkazy
SYN • FSC2000 • SYN2005 • SYN2006PUB • SYN2009PUB • SYN2010 • SYN2013PUB