~~NOTOC~~
====== Korpus SYN2013PUB ======
Korpus SYN2013PUB je podobně jako korpusy [[SYN2006PUB]] a [[SYN2009PUB]] [[pojmy:synchronni|synchronní]] korpus psané publicistiky. Obsahuje výhradně publicistiku z let 2005 až 2009 ve 44 různých titulech, celková velikost korpusu je 935 milionů textových slov ([[[[pojmy:token|tokenů]]). Všechny korpusy řady [[SYN]] jsou **disjunktní**, tj. každý text může být zařazen pouze do jednoho z nich.
^ Název ^^ [[cnk:syn2013pub|SYN2013PUB]] ^
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 1 120 014 835 |
^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 934 781 949 |
^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 4 200 464 |
^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 2 549 185 |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] | 21 469 |
^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] | 4 172 882 |
^ ::: ^ Počet vět | 76 681 361 |
^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO |
^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE ([[seznamy:txtype|publicistika]]) |
^ ::: ^ Rok zveřejnění | 2013 |
===== Změny oproti předchozím publicistickým korpusům =====
[[pojmy:lemma|Lemmatizace]] a [[pojmy:tag|morfologické značkování]] korpusu SYN2013PUB jsou oproti starším korpusům opět vylepšené. Kromě toho došlo k dalšímu zjednodušení používané sady morfologických značek v případech, kdy byla informace uváděná ve značce nadbytečná, v kontextu velice obtížně rozpoznatelná, a v důsledku toho nespolehlivá. Konkrétně se změny týkaly:
* odstranění čísla u reflexivních zájmen
* odstranění rodu posesora u zájmen //jeho//, //jejich//
* odstranění osoby a čísla u tvaru //by//
===== Složení korpusu SYN2013PUB =====
Stejně jako ostatní publicistické korpusy řady [[SYN]] si ani SYN2013PUB v žádném ohledu nečiní nárok na reprezentativnost. Hlavním důvodem jeho vzniku byla kromě zveřejnění dalšího velkého balíku dat především potřeba doplnit a vyrovnat složení publicistiky v korpusu SYN tak, aby ve verzi 3, tj. po zařazení korpusu SYN2013PUB, obsahoval kompletní ročníky 2000–2009 významných publicistických titulů vydávaných v ČR. Na doplnění nabídky synchronních psaných korpusů o novější data se již pracuje.
[{{:cnk:syn2013pub-roky.png?direct&325|Složení korpusu SYN2013PUB podle let}}]
[{{:cnk:syn2013pub-tituly.png?direct&500|Složení korpusu SYN2013PUB podle titulů}}]
===== Struktura korpusu SYN2013PUB =====
Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří '''', '''' a '''', tedy text, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]].
Zobrazit si je můžete v položce menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]]
[{{:cnk:struktur_znacky.png?direct&400| Strukturní jednotky korpusu SYN2013PUB.}}]
K těmto strukturním jednotkám náležejí [[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|následující atributy]], na obrázku patrné pod nadpisem Reference.
====== Jak citovat SYN2013PUB ======
Křen, M. – Hnátková, M. – Jelínek, T. – Petkevič, V. – Procházka, P. – Skoumalová, H.: //SYN2013PUB: korpus psané publicistiky//. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz
Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.
--- //Michal Křen, Olga Richterová//
====== Související odkazy ======
[[cnk:syn|SYN]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2005|SYN2005]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]]