Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzePoslední revizeObě strany příští revize |
cnk:syn2013pub [2013/12/16 15:30] – michalkren | cnk:syn2013pub [2021/03/16 11:26] – [Struktura korpusu SYN2013PUB] jankocek |
---|
| ~~NOTOC~~ |
====== Korpus SYN2013PUB ====== | ====== Korpus SYN2013PUB ====== |
| |
</WRAP> | </WRAP> |
| |
===== Změny oproti korpusu SYN2009PUB ===== | ===== Změny oproti předchozím publicistickým korpusům ===== |
| |
[[pojmy:lemma|Lemmatizace]] a [[pojmy:tag|morfologické značkování]] korpusu SYN2013PUB jsou oproti starším korpusům opět vylepšené. Kromě toho došlo k dalšímu zjednodušení používané sady morfologických značek v případech, kdy byla informace uváděná ve značce nadbytečná, v kontextu velice obtížně rozpoznatelná, a v důsledku toho nespolehlivá. Konkrétně se změny týkaly: | [[pojmy:lemma|Lemmatizace]] a [[pojmy:tag|morfologické značkování]] korpusu SYN2013PUB jsou oproti starším korpusům opět vylepšené. Kromě toho došlo k dalšímu zjednodušení používané sady morfologických značek v případech, kdy byla informace uváděná ve značce nadbytečná, v kontextu velice obtížně rozpoznatelná, a v důsledku toho nespolehlivá. Konkrétně se změny týkaly: |
* odstranění osoby a čísla u tvaru //by// | * odstranění osoby a čísla u tvaru //by// |
| |
| ===== Složení korpusu SYN2013PUB ===== |
| |
| Stejně jako ostatní publicistické korpusy řady [[SYN]] si ani SYN2013PUB v žádném ohledu nečiní nárok na reprezentativnost. Hlavním důvodem jeho vzniku byla kromě zveřejnění dalšího velkého balíku dat především potřeba doplnit a vyrovnat složení publicistiky v korpusu SYN tak, aby ve verzi 3, tj. po zařazení korpusu SYN2013PUB, obsahoval kompletní ročníky 2000–2009 významných publicistických titulů vydávaných v ČR. Na doplnění nabídky synchronních psaných korpusů o novější data se již pracuje. |
| |
| [{{:cnk:syn2013pub-roky.png?direct&325|Složení korpusu SYN2013PUB podle let}}] |
| [{{:cnk:syn2013pub-tituly.png?direct&500|Složení korpusu SYN2013PUB podle titulů}}] |
| |
| ===== Struktura korpusu SYN2013PUB ===== |
| |
| Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří ''<opus>'', ''<doc>'' a ''<s>'', tedy text, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. |
| Zobrazit si je můžete v položce menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]] |
| |
| [{{:cnk:struktur_znacky.png?direct&400| Strukturní jednotky korpusu SYN2013PUB.}}] |
| |
| K těmto strukturním jednotkám náležejí [[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|následující atributy]], na obrázku patrné pod nadpisem Reference. |
| |
| ====== Jak citovat SYN2013PUB ====== |
| <WRAP round tip 70%> |
| Křen, M. – Hnátková, M. – Jelínek, T. – Petkevič, V. – Procházka, P. – Skoumalová, H.: //SYN2013PUB: korpus psané publicistiky//. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz |
| |
| Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. |
| </WRAP> |
| |
| |
| --- //Michal Křen, Olga Richterová// |
| ====== Související odkazy ====== |
| <WRAP round box 49%> |
| [[cnk:syn|SYN]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2005|SYN2005]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] |
| </WRAP> |