Nastavení

Toto je starší verze dokumentu!


Korpus SYN2006PUB

Korpus SYN2006PUB je synchronní korpus psané publicistiky o rozsahu 300 milionů textových slov (tokenů). Obsahuje výhradně publicistiku od listopadu 1989 do konce roku 2004, tedy z období, jež pokrývají též korpusy SYN2000 a SYN2005. Všechny tři korpusy jsou však co se zařazených textů týče disjunktní, tj. každý text může být zařazen pouze do jednoho z nich. Celkem tedy korpusy SYN2000, SYN2005 a SYN2006PUB obsahují 500 milionů textových slov, korpusy celé řady SYN pak obsahují 1,3 miliardy slov.

Název SYN2006PUB
Pozice Počet pozic (tokenů) 361 224 456
Počet pozic (tokenů) bez interpunkce 305 785 705
Počet slovních tvarů (wordů) 2 554 069
Počet lemmat 1 381 900
Struktury Počet opusů 8 922
Počet dokumentů 1 218 300
Počet vět 22 339 344
Další informace Referenční ANO
Reprezentativní NE (publicistika)
Rok zveřejnění 2006

Změny oproti korpusu SYN2005

Lemmatizace a morfologické značkování korpusu SYN2006PUB jsou oproti korpusu SYN2005 opět vylepšené, i když rozdíl již není tak výrazný jako mezi korpusy SYN2000 a SYN2005. Vlastní systém morfologických značek, tokenizace (rozdělení korpusu na slova) i segmentace (rozdělení na věty) zůstávají stejné jako v případě korpusu SYN2005.

Složení korpusu SYN2006PUB

Je třeba zdůraznit, že korpus SYN2006PUB si v žádném ohledu nečiní nárok na reprezentativnost. Z grafů je zřejmé, že je nevyvážené jak složení korpusu podle roku vydání, tak podle titulů. Korpus SYN2006PUB tedy ocení především uživatelé, kteří potřebují pracovat s velkými objemy dat.

Grafy

Struktura korpusu

Mezi strukturní jednotky používané v tomto korpusu patří <opus>, <doc> a <s>, tedy text, dokument a věta. Zobrazit si je můžete v položce menu Možnosti zobrazení

Michal Křen, Olga Richterová

Související odkazy