Toto je starší verze dokumentu!
Korpus SYN2000
Název | SYN2000 | |
---|---|---|
Pozice | Počet pozic (tokenů) | 120 908 724 |
Počet pozic (tokenů) bez interpunkce | 100 061 381 | |
Počet slovních tvarů (wordů) | 1 763 813 | |
Počet lemmat | 891 713 | |
Struktury | Počet dokumentů (nikoli opusů) | 233 797 |
Počet vět | 7 639 321 | |
Další informace | Referenční | ANO |
Reprezentativní | ANO (různé textové typy) | |
Rok zveřejnění | 2000 |
Korpus SYN2000 obsahuje 100 milionů textových slov a veřejnosti byl představen v říjnu roku 2000, tedy v době, kdy korpusový přístup k jazyku v českých zemích byl ještě takříkajíc v plenkách. Jedná se o vůbec první korpus psané češtiny, který vznikl v rámci projektu ČNK a který byl vytvořen jako referenční a neměnná entita reprezentující stav jazyka v roce 2000.
Inspirací korpusu SYN2000 byl British National Corpus, práce na BNC však ustaly v roce 1994.
Složení tohoto korpusu bylo, stejně jako složení následujících reprezentativních korpusů SYN2005 a SYN2010, stanoveno na základě výzkumů recepce psaného jazyka tak, aby korpus pokrýval co nejširší žánrové rozvrstvení češtiny. SYN2000 zachycuje současný jazyk, byly do něj tedy zařazeny převážně texty, které vznikly v letech 1990 až 1999. Pro publicistiku a odbornou literaturu byl rok 1990 zvolen jako přirozená hranice synchronie; rok 1990 tvoří zároveň hranici jádra synchronie pro beletrii, ovšem s tím, že toto jádro může být doplněno i texty staršími, pokud byly vydány (ne nutně poprvé) po roce 1945 a jejich autor se narodil po roce 1880. SYN2000 tak například obsahuje texty K. Čapka nebo J. Haška, které jsou stále recipované, a tedy na současný jazyk působí.
Korpus SYN2000 je lemmatizovaný a morfologicky označkovaný. Upozorňujeme však, že vzhledem k tomu, že SYN2000 je také korpusem referenčním, jsou jeho lemmatizace a značkování na úrovni roku 2000, tedy nutně zastaralé a nespolehlivé. Kromě toho je pro identifikaci textu, ve kterém se vyskytl vyhledaný výraz, nezbytné použít seznam zdrojových textů, což je velice nepohodlné a zdlouhavé. Všem zájemcům o práci s texty korpusu SYN2000 proto doporučujeme pracovat namísto toho se subkorpusem korpusu SYN; ten lze pomocí strukturního atributu <syn>
snadno navolit tak, aby obsahoval právě texty korpusu SYN2000, ovšem s nejnovější lemmatizací, morfologickým značkováním a se snadno dostupnými bibliografickými údaji.
Změny v následujících korpusech řady SYN
Obecné korpusy mapující psanou současnou češtinu jsou lemmatizované či značkované stále lepšími nástroji, tudíž např. korpusy SYN2010 a SYN2005 se SYN2000 nejsou snadno srovnatelné (viz srovnávací frekvenční seznamy). Důležitý rozdíl je i přidání strukturní značky <opus>
.
Proměnilo se též pojetí reprezentativnosti korpusu, z něhož vyplývají významné rozdíly ve složení ve srovnání s následujícími korpusy řady SYN.
Nejjasněji to je vidět na tabulce srovnávající složení korpusů SYN2000 a SYN2005.
SYN2005 | SYN2000 | |
---|---|---|
beletrie | 40 % | 15 % |
odborná lit. | 27 % | 25 % |
publicistika | 33 % | 60 % |
Složení korpusu SYN2000
Zdrojové texty
Korpus je vytvořen jako referenční a neměnná entita, která by měla reprezentovat stav jazyka v dané době. Pro účely specifického výzkumu je ovšem třeba z takového korpusu vybrat podmnožinu textů, subkorpus, který pak slouží jako datová základna pro bádání. V takovém případě je třeba konzultovat složení korpusu se seznamem zdrojových textů, který obsahuje vedle autora a názvu i další podrobnější informacemi o všech textech v korpusu SYN2000.
Struktura korpusu SYN2000
Mezi strukturní jednotky používané v tomto korpusu patří <doc>
a <s>
, tedy dokument a věta - a pak každá jednotlivá pozice. Zobrazit si je můžete v položce menu Možnosti zobrazení. V následujících korpusech řady SYN přibyla ještě hierarchicky nejvyšší struktura <opus>
(tento rozdíl je velmi důležitý např. při vyhledávání pomocí podmínek within
).
K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.
Jak citovat SYN2000
Český národní korpus - SYN2000. Ústav Českého národního korpusu FF UK, Praha 2000. Dostupný z WWW: <http://www.korpus.cz>. Michal Křen
— Michal Křen, Olga Richterová
Související odkazy
SYN • SYN2005 • SYN2006PUB • SYN2009PUB • SYN2010