Toto je starší verze dokumentu!
Korpus SYN2009PUB
Korpus SYN2009PUB je podobně jako korpus SYN2006PUB synchronní korpus psané publicistiky. Obsahuje výhradně publicistiku od roku 1995 do roku 2007, celková velikost korpusu je 700 milionů textových slov (tokenů). I nadále platí, že všechny korpusy řady SYN jsou disjunktní, tj. každý text může být zařazen pouze do jednoho z nich. Celkem tedy korpusy řady SYN obsahují 1 300 milionů textových slov (tokenů).
Název | SYN2009PUB | |
---|---|---|
Pozice | Počet pozic (tokenů) | 844 881 368 |
Počet pozic (tokenů) bez interpunkce | 717 156 997 | |
Počet slovních tvarů (wordů) | 3 705 028 | |
Počet lemmat | 2 268 070 | |
Struktury | Počet opusů | 11 176 |
Počet dokumentů | 3 262 815 | |
Počet vět | 55 670 721 | |
Další informace | Referenční | ANO |
Reprezentativní | NE (publicistika) | |
Rok zveřejnění | 2010 |
Změny oproti korpusu SYN2006PUB
Lemmatizace a morfologické značkování korpusu SYN2009PUB jsou oproti starším korpusům opět vylepšené. Toto vylepšení se týká hlavně:
- lemmatizace osobních a přivlastňovacích zájmen
- neurčování gramatických kategorií u zkratek a cizích slov
- tokenizace (rozdělení korpusu na slova) - tady jde hlavně o zkratky a slova psaná se spojovníkem
- mírně zjednodušena byla také používaná sada morfologických značek (změny se týkaly odstranění některých hodnot, které souhrnně označovaly více kategorií)
Složení korpusu SYN2009PUB
Stejně jako korpus SYN2006PUB si ani SYN2009PUB v žádném ohledu nečiní nárok na reprezentativnost. Ačkoli do něj byly zařazeny desítky nezávislých regionálních novin a dalších titulů (také jako jistá protiváha k Deníkům Bohemia a Deníkům Moravia), jejich celkový podíl na korpusu je velice malý. Z přiložených grafů je zřejmé, že složení korpusu není vyvážené ani podle roku vydání, ani podle titulů. Korpus SYN2009PUB tedy ocení především uživatelé, kteří potřebují pracovat s velkými objemy dat.
Struktura korpusu SYN2009PUB
Mezi strukturní jednotky používané v tomto korpusu patří <opus>
, <doc>
a <s>
, tedy text, dokument a věta - a pak každá jednotlivá pozice.
Zobrazit si je můžete v položce menu Možnosti zobrazení
K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.
Jak citovat SYN2009PUB
Český národní korpus - SYN2009PUB. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: <http://www.korpus.cz>. Michal Křen
— Michal Křen, Olga Richterová