~~NOTOC~~ ====== Korpus SYN2013PUB ====== Korpus SYN2013PUB je podobně jako korpusy [[SYN2006PUB]] a [[SYN2009PUB]] [[pojmy:synchronni|synchronní]] korpus psané publicistiky. Obsahuje výhradně publicistiku z let 2005 až 2009 ve 44 různých titulech, celková velikost korpusu je 935 milionů textových slov ([[[[pojmy:token|tokenů]]). Všechny korpusy řady [[SYN]] jsou **disjunktní**, tj. každý text může být zařazen pouze do jednoho z nich. ^ Název ^^ [[cnk:syn2013pub|SYN2013PUB]] ^ ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 1 120 014 835 | ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 934 781 949 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 4 200 464 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 2 549 185 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] | 21 469 | ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] | 4 172 882 | ^ ::: ^ Počet vět | 76 681 361 | ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE ([[seznamy:txtype|publicistika]]) | ^ ::: ^ Rok zveřejnění | 2013 | ===== Změny oproti předchozím publicistickým korpusům ===== [[pojmy:lemma|Lemmatizace]] a [[pojmy:tag|morfologické značkování]] korpusu SYN2013PUB jsou oproti starším korpusům opět vylepšené. Kromě toho došlo k dalšímu zjednodušení používané sady morfologických značek v případech, kdy byla informace uváděná ve značce nadbytečná, v kontextu velice obtížně rozpoznatelná, a v důsledku toho nespolehlivá. Konkrétně se změny týkaly: * odstranění čísla u reflexivních zájmen * odstranění rodu posesora u zájmen //jeho//, //jejich// * odstranění osoby a čísla u tvaru //by// ===== Složení korpusu SYN2013PUB ===== Stejně jako ostatní publicistické korpusy řady [[SYN]] si ani SYN2013PUB v žádném ohledu nečiní nárok na reprezentativnost. Hlavním důvodem jeho vzniku byla kromě zveřejnění dalšího velkého balíku dat především potřeba doplnit a vyrovnat složení publicistiky v korpusu SYN tak, aby ve verzi 3, tj. po zařazení korpusu SYN2013PUB, obsahoval kompletní ročníky 2000–2009 významných publicistických titulů vydávaných v ČR. Na doplnění nabídky synchronních psaných korpusů o novější data se již pracuje. [{{:cnk:syn2013pub-roky.png?direct&325|Složení korpusu SYN2013PUB podle let}}] [{{:cnk:syn2013pub-tituly.png?direct&500|Složení korpusu SYN2013PUB podle titulů}}] ===== Struktura korpusu SYN2013PUB ===== Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří '''', '''' a '''', tedy text, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. Zobrazit si je můžete v položce menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]] [{{:cnk:struktur_znacky.png?direct&400| Strukturní jednotky korpusu SYN2013PUB.}}] K těmto strukturním jednotkám náležejí [[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|následující atributy]], na obrázku patrné pod nadpisem Reference. ====== Jak citovat SYN2013PUB ====== Křen, M. – Hnátková, M. – Jelínek, T. – Petkevič, V. – Procházka, P. – Skoumalová, H.: //SYN2013PUB: korpus psané publicistiky//. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. --- //Michal Křen, Olga Richterová// ====== Související odkazy ====== [[cnk:syn|SYN]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2005|SYN2005]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]]