Toto je starší verze dokumentu!
Korpus SYN2000
Název | SYN2000 | |
---|---|---|
Pozice | Počet pozic (tokenů) | 120 908 724 |
Počet pozic (tokenů) bez interpunkce | 100 061 381 | |
Počet slovních tvarů (wordů) | 1 763 813 | |
Počet lemmat | 891 713 | |
Struktury | Počet dokumentů (nikoli opusů) | 233 797 |
Počet vět | 7 639 321 | |
Další informace | Referenční | ANO |
Reprezentativní | ANO (různé textové typy) | |
Rok zveřejnění | 2000 |
Korpus SYN2000 obsahuje 100 milionů textových slov a veřejnosti byl představen v říjnu roku 2000, tedy v době, kdy korpusový přístup k jazyku v českých zemích byl ještě takříkajíc v plenkách. Jedná se o vůbec první korpus psané češtiny vytvořený v rámci projektu ČNK.
Tento korpus je, stejně jako následující SYN2005 a SYN2010 vytvořený z celých textů, které do něj byly zařazeny na základě výzkumů recepce psaného jazyka tak, aby pokrývaly co nejširší žánrové rozvrstvení češtiny. SYN2000 zachycuje současný jazyk, byly do něj tedy zařazeny převážně texty, které vznikly v letech 1990 až 1999. Pro publicistiku a odbornou literaturu byl rok 1990 zvolen jako přirozená hranice synchronie; rok 1990 tvoří zároveň hranici jádra synchronie pro beletrii, ovšem s tím, že toto jádro může být doplněno i texty staršími, pokud byly vydány (ne nutně poprvé) po roce 1945 a jejich autor se narodil po roce 1880. SYN2000 tak například obsahuje texty K. Čapka nebo J. Haška, které jsou stále recipované, a tedy působí na současný jazyk.
Korpus SYN2000 je lemmatizovaný a morfologicky označkovaný. To znamená, že u každého slovního tvaru lze zobrazit morfologickou značku, která vyjadřuje jeho gramatické kategorie (slovní druh, číslo, pád atd.), a tzv. lemma. Kromě toho je možné jednoznačně identifikovat text, ve kterém se vyhledané slovo vyskytlo.
Inspirací korpusu SYN2000 byl British National Corpus, práce na tomto projektu však ustaly v roce 1994.
Změny v následujících korpusech řady SYN
Obecné korpusy mapující psanou současnou češtinu jsou lemmatizované či značkované stále lepšími nástroji, tudíž např. korpusy SYN2010 a SYN2005 se SYN2000 nejsou snadno srovnatelné (viz srovnávací frekvenční seznamy). Důležitý rozdíl je i přidání strukturní značky <opus>
.
Proměnilo se též pojetí reprezentativnosti korpusu, z něhož vyplývají významné rozdíly ve složení ve srovnání s následujícími korpusy řady SYN.
Nejjasněji to je vidět na tabulce srovnávající složení korpusů SYN2000 a SYN2005.
SYN2005 | SYN2000 | |
---|---|---|
beletrie | 40 % | 15 % |
odborná lit. | 27 % | 25 % |
publicistika | 33 % | 60 % |
Složení korpusu SYN2000
Zdrojové texty
Korpus je vytvořen jako referenční a neměnná entita, která by měla reprezentovat stav jazyka v dané době. Pro účely specifického výzkumu je ovšem třeba z takového korpusu vybrat podmnožinu textů, subkorpus, který pak slouží jako datová základna pro bádání. V takovém případě je třeba konzultovat složení korpusu se seznamem zdrojových textů, který obsahuje vedle autora a názvu i další podrobnější informacemi o všech textech v korpusu SYN2000.
Struktura korpusu SYN2000
Mezi strukturní jednotky používané v tomto korpusu patří <doc>
a <s>
, tedy dokument a věta - a pak každá jednotlivá pozice. Zobrazit si je můžete v položce menu Možnosti zobrazení. V následujících korpusech řady SYN přibyla ještě hierarchicky nejvyšší struktura <opus>
(tento rozdíl je velmi důležitý např. při vyhledávání pomocí podmínek within
).
K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.
Jak citovat SYN2000
Český národní korpus - SYN2000. Ústav Českého národního korpusu FF UK, Praha 2000. Dostupný z WWW: <http://www.korpus.cz>. Michal Křen
— Michal Křen, Olga Richterová
Související odkazy
SYN • SYN2005 • SYN2006PUB • SYN2009PUB • SYN2010