Nastavení

Korpus SYN2005

Korpus SYN2005 je synchronní reprezentativní korpus psané češtiny obsahující 100 milionů textových slov (tokenů). V těchto základních charakteristikách se tedy shodne se svým předchůdcem, korpusem SYN2000, i následovníkem, korpusem SYN2010. Především mezi korpusy SYN2005 a SYN2000 však najdeme i velké množství rozdílů, které je nutné brát v úvahu mimo jiné při jakémkoli srovnávání, protože pouhé mechanické srovnávání frekvencí může vést k mylným závěrům. Dále je třeba zdůraznit, že všechny korpusy řady SYN jsou co se zařazených textů týče disjunktní, tj. žádný z textů korpusu SYN2005 nebyl použit v jiném korpusu této řady.

Název SYN2005
Pozice Počet pozic (tokenů) 122 419 382
Počet pozic (tokenů) bez interpunkce 101 355 116
Počet slovních tvarů (wordů) 1 778 142
Počet lemmat 825 142
Struktury Počet opusů 2 382
Počet dokumentů 132 353
Počet vět 7 945 998
Další informace Referenční ANO
Reprezentativní ANO (různé textové typy)
Rok zveřejnění 2005

Změny oproti korpusu SYN2000

Nový přístup k reprezentativnosti – složení korpusu

Reprezentativnost korpusu SYN2005 se opírá o nový výzkum recepce psaného jazyka, jeho složení se proto v některých ohledech od korpusu SYN2000 značně liší. Srovnání obou korpusů podle hlavních oborů uvádíme v následující tabulce:

SYN2005 SYN2000
beletrie 40 % 15 %
odborná lit. 27 % 25 %
publicistika 33 % 60 %

Další rozdíly lze pozorovat i v rámci hlavních oborů: zatímco rozdělení odborné literatury podle jejího tematického zaměření se změnilo jen málo, složení publicistiky se změnilo naopak výrazně. Pro korpus SYN2005 především platí, že veškeré publicistické texty jsou z let 2000 - 2004, přičemž každý rok má v rámci publicistiky stejné zastoupení; dále se oproti korpusu SYN2000 proměnilo i zastoupení jednotlivých titulů, k nimž některé další přibyly - svým podílem je mezi nimi významný zejména deník Blesk. Nezměnilo se však vymezení synchronie v ostatních dvou hlavních oborech, v korpusu SYN2005 tak najdeme odbornou literaturu z let 1990 - 2004, beletrie může být dokonce i starší; v obou případech však byl kladen důraz na to, aby starších textů bylo co nejméně.

Složení korpusu SYN2005

Co způsobují rozdíly mezi korpusy

Například výrazně vyšší frekvence určitého slova nemusí být způsobena novějším korpusem, ale pouze vyšším podílem beletrie v něm; zastoupení tohoto slova v psaném jazyce se přitom nemuselo vůbec změnit. Protože si však uvědomujeme nevýhody, které vyplývají z nemožnosti přímého srovnávání frekvencí mezi oběma korpusy, zveřejnili jsme srovnávací frekvenční seznamy slovních tvarů z reprezentativních korpusů SYN2000, SYN2005 a SYN2010. Tyto seznamy obsahují kromě běžných frekvenčních údajů také frekvence přepočítané, jejichž hodnoty jsou již mezi korpusy srovnatelné.

Nová lemmatizace a morfologická anotace

Od června 2006 je korpus SYN2005 lemmatizován a morfologicky označkován. Pro tento korpus byla oproti korpusu SYN2000 použita výrazně vylepšená verze lemmatizace a morfologického značkování. Vlastní systém morfologických značek však zůstává víceméně stejný, přibyla pouze pozice č. 16 vyjadřující slovesný vid.

S novou lemmatizací a morfologickým značkováním korpusu SYN2005 dále souvisí také ve srovnání s korpusem SYN2000 nová a vylepšená tokenizace (rozdělení vstupních textů na slova) a segmentace (rozdělení na věty). Například slovo česko-polský bylo v SYN2000 rozloženo na tři pozice (česko - polský), zatímco v SYN2005 jde již o pozici jedinou (česko-polský).

Přehledné informace o zdrojích

U korpusu SYN2000 je nutné dohledávat bibliografické informace v seznamu zdrojů na základě kódů. V korpusu SYN2005 jsou již veškeré relevantní informace o textu (autor, název, nakladatel, rok vydání atd.) k dispozici přímo prostřednictvím korpusového rozhraní KonText, zobrazit se dají buď klepnutím pravým tlačítkem myši na KWIC, nebo v menu Zobrazení.

Struktura korpusu SYN2005

Mezi strukturní jednotky používané v tomto korpusu patří <opus>, <doc> a <s>, tedy opus, dokument a věta - a pak každá jednotlivá pozice. Zobrazit si je můžete v položce menu Možnosti zobrazení

Strukturní jednotky v korpusu SYN2005.

K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.

Jak citovat SYN2005

Čermák, F. – Doležalová-Spoustová, D. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Křen, M. – Novotná, R. – Petkevič, V. – Schmiedtová, V. – Skoumalová, H. – Šulc, M. – Velíšek, Z.: SYN2005: žánrově vyvážený korpus psané češtiny. Ústav Českého národního korpusu FF UK, Praha 2005. Dostupný z WWW: http://www.korpus.cz

Michal Křen, Olga Richterová

Související odkazy