AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus SYN2005

Korpus SYN2005 je synchronní reprezentativní korpus psané češtiny obsahující 100 milionů textových slov (tokenů). V těchto základních charakteristikách se tedy shodne se svým předchůdcem, korpusem SYN2000, i následovníkem, korpusem SYN2010. Především mezi korpusy SYN2005 a SYN2000 však najdeme i velké množství rozdílů, které je nutné brát v úvahu mimo jiné při jakémkoli srovnávání, protože pouhé mechanické srovnávání frekvencí může vést k mylným závěrům. Dále je třeba zdůraznit, že všechny korpusy řady SYN jsou co se zařazených textů týče disjunktní, tj. žádný z textů korpusu SYN2005 nebyl použit v jiném korpusu této řady.

Název SYN2005
Pozice Počet pozic (tokenů) 122 419 382
Počet pozic (tokenů) bez interpunkce 101 355 116
Počet slovních tvarů (wordů) 1 778 142
Počet lemmat 825 142
Struktury Počet opusů 2 382
Počet dokumentů 132 353
Počet vět 7 945 998
Další informace Referenční ANO
Reprezentativní ANO (různé textové typy)
Rok zveřejnění 2005

Změny oproti korpusu SYN2000

Nový přístup k reprezentativnosti – složení korpusu

Reprezentativnost korpusu SYN2005 se opírá o nový výzkum recepce psaného jazyka, jeho složení se proto v některých ohledech od korpusu SYN2000 značně liší. Srovnání obou korpusů podle hlavních oborů uvádíme v následující tabulce:

SYN2005 SYN2000
beletrie 40 % 15 %
odborná lit. 27 % 25 %
publicistika 33 % 60 %

Další rozdíly lze pozorovat i v rámci hlavních oborů: zatímco rozdělení odborné literatury podle jejího tematického zaměření se změnilo jen málo, složení publicistiky se změnilo naopak výrazně. Pro korpus SYN2005 především platí, že veškeré publicistické texty jsou z let 2000 - 2004, přičemž každý rok má v rámci publicistiky stejné zastoupení; dále se oproti korpusu SYN2000 proměnilo i zastoupení jednotlivých titulů, k nimž některé další přibyly - svým podílem je mezi nimi významný zejména deník Blesk. Nezměnilo se však vymezení synchronie v ostatních dvou hlavních oborech, v korpusu SYN2005 tak najdeme odbornou literaturu z let 1990 - 2004, beletrie může být dokonce i starší; v obou případech však byl kladen důraz na to, aby starších textů bylo co nejméně.

složení korpusu - grafy

Co způsobují rozdíly mezi korpusy

Například výrazně vyšší frekvence určitého slova nemusí být způsobena novějším korpusem, ale pouze vyšším podílem beletrie v něm; zastoupení tohoto slova v psaném jazyce se přitom nemuselo vůbec změnit. Protože si však uvědomujeme nevýhody, které vyplývají z nemožnosti přímého srovnávání frekvencí mezi oběma korpusy, zveřejnili jsme srovnávací frekvenční seznamy slovních tvarů z reprezentativních korpusů SYN2000, SYN2005 a SYN2010. Tyto seznamy obsahují kromě běžných frekvenčních údajů také frekvence přepočítané, jejichž hodnoty jsou již mezi korpusy srovnatelné.

Nová lemmatizace a morfologická anotace

Od června 2006 je korpus SYN2005 lemmatizován a morfologicky označkován. Pro tento korpus byla oproti korpusu SYN2000 použita výrazně vylepšená verze lemmatizace a morfologického značkování. Vlastní systém morfologických značek však zůstává víceméně stejný, přibyla pouze pozice č. 16 vyjadřující slovesný vid.

S novou lemmatizací a morfologickým značkováním korpusu SYN2005 dále souvisí také ve srovnání s korpusem SYN2000 nová a vylepšená tokenizace (rozdělení vstupních textů na slova) a segmentace (rozdělení na věty). Například slovo česko-polský bylo v SYN2000 rozloženo na tři pozice (česko - polský), zatímco v SYN2005 jde již o pozici jedinou (česko-polský).

Přehledné informace o zdrojích

U korpusu SYN2000 je nutné dohledávat bibliografické informace v seznamu zdrojů na základě kódů. V korpusu SYN2005 jsou již veškeré relevantní informace o textu (autor, název, nakladatel, rok vydání atd.) k dispozici přímo prostřednictvím korpusového rozhraní XX, zobrazit se dají buď klepnutím pravým tlačítkem myši na KWIC, nebo v menu Zobrazení.

Struktura korpusu SYN2005

Mezi strukturní jednotky používané v tomto korpusu patří <opus>, <doc> a <s>, tedy opus, dokument a věta - a pak každá jednotlivá pozice. Zobrazit si je můžete v položce menu Možnosti zobrazení

Strukturní jednotky v korpusu SYN2005.

K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.

Jak citovat SYN2005

Český národní korpus - SYN2005. Ústav Českého národního korpusu FF UK, Praha 2005. Dostupný z WWW: <http://www.korpus.cz>.

Michal Křen, Olga Richterová

Související odkazy