Korpus SYN2013PUB
Korpus SYN2013PUB je podobně jako korpusy SYN2006PUB a SYN2009PUB synchronní korpus psané publicistiky. Obsahuje výhradně publicistiku z let 2005 až 2009 ve 44 různých titulech, celková velikost korpusu je 935 milionů textových slov (tokenů). Všechny korpusy řady SYN jsou disjunktní, tj. každý text může být zařazen pouze do jednoho z nich.
Název | SYN2013PUB | |
---|---|---|
Pozice | Počet pozic (tokenů) | 1 120 014 835 |
Počet pozic (tokenů) bez interpunkce | 934 781 949 | |
Počet slovních tvarů (wordů) | 4 200 464 | |
Počet lemmat | 2 549 185 | |
Struktury | Počet opusů | 21 469 |
Počet dokumentů | 4 172 882 | |
Počet vět | 76 681 361 | |
Další informace | Referenční | ANO |
Reprezentativní | NE (publicistika) | |
Rok zveřejnění | 2013 |
Změny oproti předchozím publicistickým korpusům
Lemmatizace a morfologické značkování korpusu SYN2013PUB jsou oproti starším korpusům opět vylepšené. Kromě toho došlo k dalšímu zjednodušení používané sady morfologických značek v případech, kdy byla informace uváděná ve značce nadbytečná, v kontextu velice obtížně rozpoznatelná, a v důsledku toho nespolehlivá. Konkrétně se změny týkaly:
- odstranění čísla u reflexivních zájmen
- odstranění rodu posesora u zájmen jeho, jejich
- odstranění osoby a čísla u tvaru by
Složení korpusu SYN2013PUB
Stejně jako ostatní publicistické korpusy řady SYN si ani SYN2013PUB v žádném ohledu nečiní nárok na reprezentativnost. Hlavním důvodem jeho vzniku byla kromě zveřejnění dalšího velkého balíku dat především potřeba doplnit a vyrovnat složení publicistiky v korpusu SYN tak, aby ve verzi 3, tj. po zařazení korpusu SYN2013PUB, obsahoval kompletní ročníky 2000–2009 významných publicistických titulů vydávaných v ČR. Na doplnění nabídky synchronních psaných korpusů o novější data se již pracuje.
Struktura korpusu SYN2013PUB
Mezi strukturní jednotky používané v tomto korpusu patří <opus>
, <doc>
a <s>
, tedy text, dokument a věta - a pak každá jednotlivá pozice.
Zobrazit si je můžete v položce menu Zobrazení
K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.
Jak citovat SYN2013PUB
Křen, M. – Hnátková, M. – Jelínek, T. – Petkevič, V. – Procházka, P. – Skoumalová, H.: SYN2013PUB: korpus psané publicistiky. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz
Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): The SYN-series corpora of written Czech. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.
— Michal Křen, Olga Richterová
Související odkazy
SYN • SYN2000 • SYN2005 • SYN2006PUB • SYN2009PUB • SYN2010