Toto je starší verze dokumentu!
Korpus SYN2006PUB
Korpus SYN2006PUB je synchronní korpus psané publicistiky o rozsahu 300 milionů textových slov (tokenů). Obsahuje výhradně publicistiku od listopadu 1989 do konce roku 2004, tedy z období, jež pokrývají též korpusy SYN2000 a SYN2005. Všechny tři korpusy jsou však co se zařazených textů týče disjunktní, tj. každý text může být zařazen pouze do jednoho z nich. Celkem tedy korpusy SYN2000, SYN2005 a SYN2006PUB obsahují 500 milionů textových slov, korpusy celé řady SYN pak obsahují 1,3 miliardy slov.
Název | SYN2006PUB | |
---|---|---|
Pozice | Počet pozic (tokenů) | 361 224 456 |
Počet pozic (tokenů) bez interpunkce | 305 785 705 | |
Počet slovních tvarů (wordů) | 2 554 069 | |
Počet lemmat | 1 381 900 | |
Struktury | Počet opusů | 8 922 |
Počet dokumentů | 1 218 300 | |
Počet vět | 22 339 344 | |
Další informace | Referenční | ANO |
Reprezentativní | NE (publicistika) | |
Rok zveřejnění | 2006 |
Změny oproti korpusu SYN2005
Lemmatizace a morfologické značkování korpusu SYN2006PUB jsou oproti korpusu SYN2005 opět vylepšené, i když rozdíl již není tak výrazný jako mezi korpusy SYN2000 a SYN2005. Vlastní systém morfologických značek, tokenizace (rozdělení korpusu na slova) i segmentace (rozdělení na věty) zůstávají stejné jako v případě korpusu SYN2005.
Složení korpusu SYN2006PUB
Je třeba zdůraznit, že korpus SYN2006PUB si v žádném ohledu nečiní nárok na reprezentativnost. Z grafů je zřejmé, že je nevyvážené jak složení korpusu podle roku vydání, tak podle titulů. Korpus SYN2006PUB tedy ocení především uživatelé, kteří potřebují pracovat s velkými objemy dat.
Struktura korpusu SYN2006PUB
Mezi strukturní jednotky používané v tomto korpusu patří <opus>
, <doc>
a <s>
, tedy text, dokument a věta - a pak každá jednotlivá pozice.
Zobrazit si je můžete v položce menu Možnosti zobrazení
K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.
Jak citovat SYN2006PUB
— Michal Křen, Olga Richterová