Skrýt
Nastavení

Korpus SYN2006PUB

Korpus SYN2006PUB je synchronní korpus psané publicistiky o rozsahu 300 milionů textových slov (tokenů). Obsahuje výhradně publicistiku od listopadu 1989 do konce roku 2004, tedy z období, jež pokrývají též korpusy SYN2000 a SYN2005. Všechny korpusy řady SYN jsou však co se zařazených textů týče disjunktní, tj. každý text může být zařazen pouze do jednoho z nich.

Název SYN2006PUB
Pozice Počet pozic (tokenů) 361 224 456
Počet pozic (tokenů) bez interpunkce 305 785 705
Počet slovních tvarů (wordů) 2 554 069
Počet lemmat 1 381 900
Struktury Počet opusů 8 922
Počet dokumentů 1 218 300
Počet vět 22 339 344
Další informace Referenční ANO
Reprezentativní NE (publicistika)
Rok zveřejnění 2006

Změny oproti korpusu SYN2005

Lemmatizace a morfologické značkování korpusu SYN2006PUB jsou oproti korpusu SYN2005 opět vylepšené, i když rozdíl již není tak výrazný jako mezi korpusy SYN2000 a SYN2005. Vlastní systém morfologických značek, tokenizace (rozdělení korpusu na slova) i segmentace (rozdělení na věty) zůstávají stejné jako v případě korpusu SYN2005.

Složení korpusu SYN2006PUB

Je třeba zdůraznit, že korpus SYN2006PUB si v žádném ohledu nečiní nárok na reprezentativnost. Z grafů je zřejmé, že je nevyvážené jak složení korpusu podle roku vydání, tak podle titulů. Korpus SYN2006PUB tedy ocení především uživatelé, kteří potřebují pracovat s velkými objemy dat.

Složení korpusu SYN2006PUB podle let (počet slov v mil.).
Složení korpusu SYN2006PUB podle titulů (počet slov v mil.).

Struktura korpusu SYN2006PUB

Mezi strukturní jednotky používané v tomto korpusu patří <opus>, <doc> a <s>, tedy text, dokument a věta - a pak každá jednotlivá pozice. Zobrazit si je můžete v položce menu Zobrazení.

Strukturní jednotky korpusu SYN2006PUB.

K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.

Jak citovat SYN2006PUB

Čermák, F. – Doležalová-Spoustová, D. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Křen, M. – Novotná, R. – Petkevič, V. – Schmiedtová, V. – Skoumalová, H. – Šulc, M. – Velíšek, Z.: SYN2006PUB: korpus psané publicistiky. Ústav Českého národního korpusu FF UK, Praha 2006. Dostupný z WWW: http://www.korpus.cz

Michal Křen, Olga Richterová

Související odkazy