AplikaceAplikace
Nastavení

Korpus SYN2000

Název SYN2000
Pozice Počet pozic (tokenů) 120 908 724
Počet pozic (tokenů) bez interpunkce 100 061 381
Počet slovních tvarů (wordů) 1 763 813
Počet lemmat 891 713
Struktury Počet dokumentů (nikoli opusů) 233 797
Počet vět 7 639 321
Další informace Referenční ANO
Reprezentativní ANO (různé textové typy)
Rok zveřejnění 2000

Korpus SYN2000 obsahuje 100 milionů textových slov a veřejnosti byl představen v říjnu roku 2000, tedy v době, kdy korpusový přístup k jazyku v českých zemích byl ještě takříkajíc v plenkách. Jedná se o vůbec první korpus psané češtiny, který vznikl v rámci projektu ČNK a který byl vytvořen jako referenční a neměnná entita reprezentující stav jazyka v roce 2000.

Inspirací korpusu SYN2000 byl British National Corpus, práce na BNC však ustaly v roce 1994.

Složení tohoto korpusu bylo, stejně jako složení následujících reprezentativních korpusů SYN2005 a SYN2010, stanoveno na základě výzkumů recepce psaného jazyka tak, aby korpus pokrýval co nejširší žánrové rozvrstvení češtiny. SYN2000 zachycuje současný jazyk, byly do něj tedy zařazeny převážně texty, které vznikly v letech 1990 až 1999. Pro publicistiku a odbornou literaturu byl rok 1990 zvolen jako přirozená hranice synchronie; rok 1990 tvoří zároveň hranici jádra synchronie pro beletrii, ovšem s tím, že toto jádro může být doplněno i texty staršími, pokud byly vydány (ne nutně poprvé) po roce 1945 a jejich autor se narodil po roce 1880. SYN2000 tak například obsahuje texty K. Čapka nebo J. Haška, které jsou stále recipované, a tedy na současný jazyk působí.

Korpus SYN2000 je lemmatizovaný a morfologicky označkovaný. Upozorňujeme však, že vzhledem k tomu, že SYN2000 je také korpusem referenčním, jsou jeho lemmatizace a značkování na úrovni roku 2000, tedy nutně zastaralé a nespolehlivé. Kromě toho je pro identifikaci textu, ve kterém se vyskytl vyhledaný výraz, nezbytné použít seznam zdrojových textů, což je velice nepohodlné a zdlouhavé. Všem zájemcům o práci s texty korpusu SYN2000 proto doporučujeme pracovat namísto toho se subkorpusem korpusu SYN; ten lze pomocí strukturního atributu <opus.syn> snadno navolit tak, aby obsahoval právě texty korpusu SYN2000, ovšem s nejnovější lemmatizací, morfologickým značkováním a se snadno dostupnými bibliografickými údaji.

Upravenou podobou korpusu SYN2000 s vylepšenou lemmatizací je korpus FSC2000, který posloužil jako zdroj Frekvenčního slovníku češtiny.

Změny v korpusech řady SYN

Upozorňujeme na výrazné změny ve složení i způsobu zpracování mezi korpusy SYN2000 a SYN2005 (a tedy také SYN2000 a SYN2010), které jsou shrnuty na stránce věnované korpusu SYN2005. Důsledkem těchto změn je mj. přímá nesrovnatelnost frekvenčních údajů (viz srovnávací frekvenční seznamy).

Proměnu v pojetí reprezentativnosti korpusu, z níž vyplývají významné rozdíly ve složení ve srovnání s následujícími korpusy řady SYN, je vidět na následující tabulce srovnávající složení korpusů SYN2000 a SYN2005 po hlavních textových typech.

SYN2005 SYN2000
beletrie 40 % 15 %
odborná lit. 27 % 25 %
publicistika 33 % 60 %

Složení korpusu SYN2000

Složení korpusu SYN2000 na nejobecnější úrovni textové klasifikace

Struktura korpusu SYN2000

Mezi strukturní jednotky používané v tomto korpusu patří <doc> a <s>, tedy dokument a věta - a pak každá jednotlivá pozice. Zobrazit si je můžete v položce menu Zobrazení. V následujících korpusech řady SYN přibyla ještě hierarchicky nejvyšší struktura <opus> (tento rozdíl je velmi důležitý např. při vyhledávání pomocí podmínek within).

Strukturní jednotky v korpusu SYN2000.

K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.

Jak citovat SYN2000

Čermák, F. – Blatná, R. – Hlaváčová, J. – Klímová, J. – Kocek, J. – Kopřivová, M. – Křen, M. – Petkevič, V. – Schmiedtová, V. – Šulc, M.: SYN2000: žánrově vyvážený korpus psané češtiny. Ústav Českého národního korpusu FF UK, Praha 2000. Dostupný z WWW: http://www.korpus.cz

Michal Křen, Olga Richterová

Související odkazy