~~NOTOC~~ ====== Korpus SYN2010 ====== Korpus SYN2010 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] korpus současné [[pojmy:psany|psané]] češtiny obsahující 100 milionů textových slov ([[pojmy:token|tokenů]]). Navazuje tak na korpusy [[SYN2000|SYN2000]] a [[SYN2005|SYN2005]] a tvoří s nimi [[cnk:syn|řadu synchronních reprezentativních korpusů]] pokrývajících tři po sobě jdoucí časová období. **Všechny korpusy obsahují rozdílné texty, tedy jsou disjunktní**. Základní charakteristiky korpusu SYN2010 jsou shodné s korpusem [[SYN2005|SYN2005]], což se týká zejména stejného pojetí [[pojmy:reprezentativnost|reprezentativnosti]] založeného na recepci psaného jazyka a z něho vyplývajícího složení korpusu. Korpus SYN2010 je [[pojmy:lemma|lemmatizovaný]] a [[pojmy:tag|tagovaný]]. ^ Název ^^ SYN2010 ^ ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 121 667 413 | ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 101 219 603 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 1 706 345 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 785 580 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] | 2 649 | ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] | 152 634 | ^ ::: ^ Počet vět | 8 172 649 | ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | ANO ([[seznamy:txtype|různé textové typy]]) | ^ ::: ^ Rok zveřejnění | 2010 | ====== Změny oproti korpusu SYN2005 ====== Oproti korpusu [[SYN2005|SYN2005]] byla v korpusu SYN2010 **výrazně vylepšena lemmatizace** a **[[pojmy:tag|slovnědruhové značkování]]**; obojí je v zásadě shodné se zpracováním korpusu [[SYN2009PUB|SYN2009PUB]]. Ačkoli se tedy [[SYN2005|SYN2005]] a SYN2010 navzájem neliší pojetím [[pojmy:reprezentativnost|reprezentativnosti]], při případném srovnávání lexikálních frekvencí mezi nimi **je třeba brát v úvahu také tyto rozdíly**. Proto jsme zveřejnili [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]] slovních tvarů a lemmat, která obsahuje zcela nová data ze všech tří synchronních reprezentativních korpusů [[SYN2000|SYN2000]], [[SYN2005|SYN2005]] a SYN2010, zlemmatizovaných a morfologicky označkovaných na úrovni korpusu SYN2010. Tato data obsahují také údaje o tzv. přepočítaných frekvencích, které jsou navzájem přímo srovnatelné, a umožňují tudíž studium změn, kterými čeština za posledních 20 let prošla. ====== Složení korpusu SYN2010 ====== V SYN2010 došlo ke změnám ve [[cnk:SYN2010#slozeni_publicistiky|složení publicistiky]], nezměnilo se ale vymezení [[pojmy:synchronni|synchronie]] v beletrii a odborné literatuře; v korpusu SYN2010 tak najdeme pouze odbornou literaturu publikovanou po roce 1989. Beletrie sice může být i starší, přesto však pro odbornou literaturu i beletrii obecně platí, že největší podíl na korpusu mají novější texty, zatímco zastoupení starších textů klesá. ===== Obecné složení korpusu SYN2010 ===== {{:cnk:syn2010_slozeni.png?direct}} ==== Složení publicistiky ==== Veškeré publicistické texty v korpusu SYN2010 jsou z let 2005-2009, přičemž každý rok má -- stejně jako v korpusu [[SYN2005|SYN2005]] -- v publicistice stejné zastoupení (i když se samozřejmě v rámci těchto let změnily podíly jednotlivých titulů). [{{{:cnk:rok_s10.gif?direct|Složení publicistiky podle roku vydání}}] [{{:cnk:odborna_s05.gif?direct|Složení odborné a další specializované literatury podle tematického zaměření}}] [{{:cnk:titul_s10.gif?direct|Složení publicistiky podle titulů}}] ===== Struktura korpusu SYN2010 ===== Mezi [[pojmy:atributy_strukturni|strukturní jednotky]], na něž se člení tento korpus, patří '''', '''' a '''', tedy celý text, dokument (část textu) a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. Jejich seznam lze zobrazit pomocí položky menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]], sekce //Struktury//. [{{:cnk:strukturni_znacky.png?direct&400|Strukturní jednotky a jejich atributy v korpusovém manažeru }}] K těmto strukturním jednotkám náležejí [[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|následující atributy]], na obrázku seřazené pod nadpisem //Metainformace//. --- //Michal Křen, Olga Richterová// ====== Jak citovat SYN2010 ====== Křen, M. – Bartoň, T. – Cvrček, V. – Hnátková, M. – Jelínek, T. – Kocek, J. – Novotná, R. – Petkevič, V. – Procházka, P. – Schmiedtová, V. – Skoumalová, H.: //SYN2010: žánrově vyvážený korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz ====== Související odkazy ====== [[cnk:syn|SYN]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2005|SYN2005]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]]