Toto je starší verze dokumentu!

Korpus SYN2000

Název		SYN2000
Pozice	Počet pozic (tokenů)	120 908 724
	Počet pozic (tokenů) bez interpunkce	100 061 381
	Počet slovních tvarů (wordů)	1 763 813
	Počet lemmat	891 713
Struktury	Počet dokumentů (nikoli opusů)	233 797
Struktury	Počet vět	7 639 321
Další informace	Referenční	ANO
	Reprezentativní	ANO (různé textové typy)
	Rok zveřejnění	2000

Korpus SYN2000 obsahuje 100 milionů textových slov a veřejnosti byl představen v říjnu roku 2000, tedy v době, kdy korpusový přístup k jazyku v českých zemích byl ještě takříkajíc v plenkách. Jedná se o vůbec první korpus psané češtiny vytvořený v rámci projektu ČNK.

Tento korpus je, stejně jako následující SYN2005 a SYN2010 vytvořený z celých textů, které do něj byly zařazeny na základě výzkumů recepce psaného jazyka tak, aby pokrývaly co nejširší žánrové rozvrstvení češtiny. SYN2000 zachycuje současný jazyk, byly do něj tedy zařazeny převážně texty, které vznikly v letech 1990 až 1999. Vzhledem k tomu, že jde o první korpus psané češtiny o takovémto rozsahu, obsahuje SYN2000 i významná díla české literatury, která vznikla před rokem 1990 (například Krakatit Karla Čapka, nebo román Zbabělci Josefa Škvoreckého). Pro tyto starší texty platí zásada, že autor textu musí být narozený po roce 1880 (tj. SYN2000 například obsahuje texty K. Čapka a J. Haška - proto, že významně působí na současný jazyk díky tomu, že jsou stále recipované).

Korpus SYN2000 je lemmatizovaný a morfologicky označkovaný. To znamená, že u každého slovního tvaru lze zobrazit morfologickou značku, která vyjadřuje jeho gramatické kategorie (slovní druh, číslo, pád atd.), a tzv. lemma. Kromě toho je možné jednoznačně identifikovat text, ve kterém se vyhledané slovo vyskytlo.

Inspirací korpusu SYN2000 byl British National Corpus, práce na tomto projektu však ustaly v roce 1994.

Změny v následujících korpusech řady SYN

Obecné korpusy mapující psanou současnou češtinu jsou lemmatizované či značkované stále lepšími nástroji, tudíž např. korpusy SYN2010 a SYN2005 se SYN2000 nejsou snadno srovnatelné (viz frekvenční seznamy). Důležitý rozdíl je i přidání strukturní značky <opus>.

Proměnilo se též pojetí reprezentativnosti korpusu, z něhož vyplývají významné rozdíly ve složení ve srovnání s následujícími korpusy řady SYN.

Nejjasněji to je vidět na tabulce srovnávající složení korpusů SYN2000 a SYN2005.

	SYN2005	SYN2000
beletrie	40 %	15 %
odborná lit.	27 %	25 %
publicistika	33 %	60 %

Složení korpusu SYN2000

grafy

Zdrojové texty

Seznam všech zdrojových textů korpusu SYN2000 naleznete zde!!!

Struktura korpusu SYN2000

Mezi strukturní jednotky používané v tomto korpusu patří <doc> a <s>, tedy dokument a věta - a pak každá jednotlivá pozice. Zobrazit si je můžete v položce menu Možnosti zobrazení. V následujících korpusech řady SYN přibyla ještě hierarchicky nejvyšší struktura <opus> (tento rozdíl je velmi důležitý např. při vyhledávání pomocí podmínek within).