Skrýt
Nastavení

Korpus SYN2009PUB

Korpus SYN2009PUB je podobně jako korpus SYN2006PUB synchronní korpus psané publicistiky. Obsahuje výhradně publicistiku od roku 1995 do roku 2007, celková velikost korpusu je 700 milionů textových slov (tokenů). Všechny korpusy řady SYN jsou disjunktní, tj. každý text může být zařazen pouze do jednoho z nich.

Název SYN2009PUB
Pozice Počet pozic (tokenů) 844 881 368
Počet pozic (tokenů) bez interpunkce 717 156 997
Počet slovních tvarů (wordů) 3 705 028
Počet lemmat 2 268 070
Struktury Počet opusů 11 176
Počet dokumentů 3 262 815
Počet vět 55 670 721
Další informace Referenční ANO
Reprezentativní NE (publicistika)
Rok zveřejnění 2010

Změny oproti korpusu SYN2006PUB

Lemmatizace a morfologické značkování korpusu SYN2009PUB jsou oproti starším korpusům opět vylepšené. Toto vylepšení se týká hlavně:

  • lemmatizace osobních a přivlastňovacích zájmen
  • neurčování gramatických kategorií u zkratek a cizích slov
  • tokenizace (rozdělení korpusu na slova) - tady jde hlavně o zkratky a slova psaná se spojovníkem
  • mírně zjednodušena byla také používaná sada morfologických značek (změny se týkaly odstranění některých hodnot, které souhrnně označovaly více kategorií)

Složení korpusu SYN2009PUB

Stejně jako korpus SYN2006PUB si ani SYN2009PUB v žádném ohledu nečiní nárok na reprezentativnost. Ačkoli do něj byly zařazeny desítky nezávislých regionálních novin a dalších titulů (také jako jistá protiváha k Deníkům Bohemia a Deníkům Moravia), jejich celkový podíl na korpusu je velice malý. Z přiložených grafů je zřejmé, že složení korpusu není vyvážené ani podle roku vydání, ani podle titulů. Korpus SYN2009PUB tedy ocení především uživatelé, kteří potřebují pracovat s velkými objemy dat.

Složení korpusu SYN2009PUB podle let (počet slov v mil.).
Složení korpusu SYN2009PUB podle titulů (počet slov v mil.).

Struktura korpusu SYN2009PUB

Mezi strukturní jednotky používané v tomto korpusu patří <opus>, <doc> a <s>, tedy text, dokument a věta - a pak každá jednotlivá pozice. Zobrazit si je můžete v položce menu Zobrazení.

FIXME Strukturní jednotky korpusu SYN2009PUB.

K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.

Jak citovat SYN2009PUB

Křen, M. – Bartoň, T. – Hnátková, M. – Jelínek, T. – Petkevič, V. – Procházka, P. – Skoumalová, H.: SYN2009PUB: korpus psané publicistiky. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz

Křen, M. (2009): The SYN Concept: Towards One-Billion Corpus of Czech. In Mahlberg, M. – González-Díaz, V. – Smith, C. (eds), Proceedings of the Corpus Linguistics Conference. Liverpool.

Michal Křen, Olga Richterová

Související odkazy