Nastavení

Korpus SYN2013PUB

Korpus SYN2013PUB je podobně jako korpusy SYN2006PUB a SYN2009PUB synchronní korpus psané publicistiky. Obsahuje výhradně publicistiku z let 2005 až 2009 ve 44 různých titulech, celková velikost korpusu je 935 milionů textových slov (tokenů). Všechny korpusy řady SYN jsou disjunktní, tj. každý text může být zařazen pouze do jednoho z nich.

Název SYN2013PUB
Pozice Počet pozic (tokenů) 1 120 014 835
Počet pozic (tokenů) bez interpunkce 934 781 949
Počet slovních tvarů (wordů) 4 200 464
Počet lemmat 2 549 185
Struktury Počet opusů 21 469
Počet dokumentů 4 172 882
Počet vět 76 681 361
Další informace Referenční ANO
Reprezentativní NE (publicistika)
Rok zveřejnění 2013

Změny oproti předchozím publicistickým korpusům

Lemmatizace a morfologické značkování korpusu SYN2013PUB jsou oproti starším korpusům opět vylepšené. Kromě toho došlo k dalšímu zjednodušení používané sady morfologických značek v případech, kdy byla informace uváděná ve značce nadbytečná, v kontextu velice obtížně rozpoznatelná, a v důsledku toho nespolehlivá. Konkrétně se změny týkaly:

  • odstranění čísla u reflexivních zájmen
  • odstranění rodu posesora u zájmen jeho, jejich
  • odstranění osoby a čísla u tvaru by

Složení korpusu SYN2013PUB

Stejně jako ostatní publicistické korpusy řady SYN si ani SYN2013PUB v žádném ohledu nečiní nárok na reprezentativnost. Hlavním důvodem jeho vzniku byla kromě zveřejnění dalšího velkého balíku dat především potřeba doplnit a vyrovnat složení publicistiky v korpusu SYN tak, aby ve verzi 3, tj. po zařazení korpusu SYN2013PUB, obsahoval kompletní ročníky 2000–2009 významných publicistických titulů vydávaných v ČR. Na doplnění nabídky synchronních psaných korpusů o novější data se již pracuje.

Složení korpusu SYN2013PUB podle let
Složení korpusu SYN2013PUB podle titulů

Struktura korpusu SYN2013PUB

Mezi strukturní jednotky používané v tomto korpusu patří <opus>, <doc> a <s>, tedy text, dokument a věta - a pak každá jednotlivá pozice. Zobrazit si je můžete v položce menu Možnosti zobrazení

FIXME Strukturní jednotky korpusu SYN2013PUB.

K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.

Jak citovat SYN2013PUB

Křen, M. – Hnátková, M. – Jelínek, T. – Petkevič, V. – Procházka, P. – Skoumalová, H.: SYN2013PUB: korpus psané publicistiky. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz

Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): The SYN-series corpora of written Czech. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.

Michal Křen, Olga Richterová

Související odkazy