Korpus SYN2009PUB
Korpus SYN2009PUB je podobně jako korpus SYN2006PUB synchronní korpus psané publicistiky. Obsahuje výhradně publicistiku od roku 1995 do roku 2007, celková velikost korpusu je 700 milionů textových slov (tokenů). Všechny korpusy řady SYN jsou disjunktní, tj. každý text může být zařazen pouze do jednoho z nich.
Název | SYN2009PUB | |
---|---|---|
Pozice | Počet pozic (tokenů) | 844 881 368 |
Počet pozic (tokenů) bez interpunkce | 717 156 997 | |
Počet slovních tvarů (wordů) | 3 705 028 | |
Počet lemmat | 2 268 070 | |
Struktury | Počet opusů | 11 176 |
Počet dokumentů | 3 262 815 | |
Počet vět | 55 670 721 | |
Další informace | Referenční | ANO |
Reprezentativní | NE (publicistika) | |
Rok zveřejnění | 2010 |
Změny oproti korpusu SYN2006PUB
Lemmatizace a morfologické značkování korpusu SYN2009PUB jsou oproti starším korpusům opět vylepšené. Toto vylepšení se týká hlavně:
- lemmatizace osobních a přivlastňovacích zájmen
- neurčování gramatických kategorií u zkratek a cizích slov
- tokenizace (rozdělení korpusu na slova) - tady jde hlavně o zkratky a slova psaná se spojovníkem
- mírně zjednodušena byla také používaná sada morfologických značek (změny se týkaly odstranění některých hodnot, které souhrnně označovaly více kategorií)
Složení korpusu SYN2009PUB
Stejně jako korpus SYN2006PUB si ani SYN2009PUB v žádném ohledu nečiní nárok na reprezentativnost. Ačkoli do něj byly zařazeny desítky nezávislých regionálních novin a dalších titulů (také jako jistá protiváha k Deníkům Bohemia a Deníkům Moravia), jejich celkový podíl na korpusu je velice malý. Z přiložených grafů je zřejmé, že složení korpusu není vyvážené ani podle roku vydání, ani podle titulů. Korpus SYN2009PUB tedy ocení především uživatelé, kteří potřebují pracovat s velkými objemy dat.
Struktura korpusu SYN2009PUB
Mezi strukturní jednotky používané v tomto korpusu patří <opus>
, <doc>
a <s>
, tedy text, dokument a věta - a pak každá jednotlivá pozice.
Zobrazit si je můžete v položce menu Zobrazení.
K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.
Jak citovat SYN2009PUB
Křen, M. – Bartoň, T. – Hnátková, M. – Jelínek, T. – Petkevič, V. – Procházka, P. – Skoumalová, H.: SYN2009PUB: korpus psané publicistiky. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz
Křen, M. (2009): The SYN Concept: Towards One-Billion Corpus of Czech. In Mahlberg, M. – González-Díaz, V. – Smith, C. (eds), Proceedings of the Corpus Linguistics Conference. Liverpool.
— Michal Křen, Olga Richterová
Související odkazy
SYN • SYN2000 • SYN2005 • SYN2006PUB • SYN2010 • SYN2013PUB