Nastavení

Toto je starší verze dokumentu!


Korpus SYN2006PUB

Korpus SYN2006PUB je synchronní korpus psané publicistiky o rozsahu 300 milionů textových slov (tokenů). Obsahuje výhradně publicistiku od listopadu 1989 do konce roku 2004, tedy z období, jež pokrývají též korpusy SYN2000 a SYN2005. Všechny tři korpusy jsou však co se zařazených textů týče disjunktní, tj. každý text může být zařazen pouze do jednoho z nich. Celkem tedy korpusy SYN2000, SYN2005 a SYN2006PUB obsahují 500 milionů textových slov, korpusy celé řady SYN pak obsahují 1,3 miliardy slov.

Změny oproti korpusu SYN2005

Lemmatizace a morfologické značkování korpusu SYN2006PUB jsou oproti korpusu SYN2005 opět vylepšené, i když rozdíl již není tak výrazný jako mezi korpusy SYN2000 a SYN2005. Vlastní systém morfologických značek, tokenizace (rozdělení korpusu na slova) i segmentace (rozdělení na věty) zůstávají stejné jako v případě korpusu SYN2005.

Složení korpusu SYN2006PUB

Je třeba zdůraznit, že korpus SYN2006PUB si v žádném ohledu nečiní nárok na reprezentativnost. Z grafů je zřejmé, že je nevyvážené jak složení korpusu podle roku vydání, tak podle titulů. Korpus SYN2006PUB tedy ocení především uživatelé, kteří potřebují pracovat s velkými objemy dat.

Grafy

Struktura korpusu

Mezi strukturní jednotky používané v tomto korpusu patří <opus>, <doc> a <s>, tedy text, dokument a věta. Zobrazit si je můžete v položce menu Možnosti zobrazení

Michal Křen, Olga Richterová

Související odkazy