AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus SYN2009PUB

Korpus SYN2009PUB je podobně jako korpus SYN2006PUB synchronní korpus psané publicistiky. Obsahuje výhradně publicistiku od roku 1995 do roku 2007, celková velikost korpusu je 700 milionů textových slov (tokenů). I nadále platí, že všechny korpusy řady SYN jsou disjunktní, tj. každý text může být zařazen pouze do jednoho z nich. Celkem tedy korpusy řady SYN obsahují 1 300 milionů textových slov (tokenů).

Název SYN2009PUB
Pozice Počet pozic (tokenů) 844 881 368
Počet pozic (tokenů) bez interpunkce 717 156 997
Počet slovních tvarů (wordů) 3 705 028
Počet lemmat 2 268 070
Struktury Počet opusů 11 176
Počet dokumentů 3 262 815
Počet vět 55 670 721
Další informace Referenční ANO
Reprezentativní NE (PUB)
Rok zveřejnění 2010

Změny oproti korpusu SYN2006PUB

Lemmatizace a morfologické značkování korpusu SYN2009PUB jsou oproti starším korpusům opět vylepšené. Toto vylepšení se týká hlavně:

  • lemmatizace osobních a přivlastňovacích zájmen
  • neurčování gramatických kategorií u zkratek a cizích slov
  • tokenizace (rozdělení korpusu na slova) - tady jde hlavně o zkratky a slova psaná se spojovníkem
  • mírně zjednodušena byla také používaná sada morfologických značek (změny se týkaly odstranění některých hodnot, které souhrnně označovaly více kategorií)

Složení korpusu SYN2009PUB

Stejně jako korpus SYN2006PUB si ani SYN2009PUB v žádném ohledu nečiní nárok na reprezentativnost. Ačkoli do něj byly zařazeny desítky nezávislých regionálních novin a dalších titulů (také jako jistá protiváha k Deníkům Bohemia a Deníkům Moravia), jejich celkový podíl na korpusu je velice malý. Z přiložených grafů je zřejmé, že složení korpusu není vyvážené ani podle roku vydání, ani podle titulů. Korpus SYN2009PUB tedy ocení především uživatelé, kteří potřebují pracovat s velkými objemy dat.

Grafy

Struktura korpusu

Mezi strukturní jednotky používané v tomto korpusu patří <opus>, <doc> a <s>, tedy text, dokument a věta. Zobrazit si je můžete v položce menu Možnosti zobrazení

Michal Křen, Olga Richterová

Související odkazy