AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus SYN2010

Korpus SYN2010 je synchronní reprezentativní korpus současné psané češtiny obsahující 100 milionů textových slov (tokenů). Navazuje tak na korpusy SYN2000 a SYN2005 a tvoří s nimi řadu synchronních reprezentativních korpusů pokrývajících tři po sobě jdoucí časová období. Všechny korpusy obsahují rozdílné texty, tedy jsou disjunktní. Základní charakteristiky korpusu SYN2010 jsou shodné s korpusem SYN2005, což se týká zejména stejného pojetí reprezentativnosti založeného na recepci psaného jazyka a z něho vyplývajícího složení korpusu. Korpus SYN2010 je lemmatizovaný a tagovaný.

Název SYN2010
Pozice Počet pozic (tokenů) 121 667 413
Počet pozic (tokenů) bez interpunkce 101 219 603
Počet slovních tvarů (wordů) 1 706 345
Počet lemmat 785 580
Struktury Počet opusů 2 649
Počet dokumentů 152 634
Počet vět 8 172 649
Další informace Referenční ANO
Reprezentativní ANO (různé textové typy)
Rok zveřejnění 2010

Změny oproti korpusu SYN2005

Oproti korpusu SYN2005 byla v korpusu SYN2010 výrazně vylepšena lemmatizace a slovnědruhové značkování; obojí je v zásadě shodné se zpracováním korpusu SYN2009PUB. Ačkoli se tedy SYN2005 a SYN2010 navzájem neliší pojetím reprezentativnosti, při případném srovnávání lexikálních frekvencí mezi nimi je třeba brát v úvahu také tyto rozdíly. Proto jsme zveřejnili srovnávací frekvenční seznamy slovních tvarů a lemmat, která obsahuje zcela nová data ze všech tří synchronních reprezentativních korpusů SYN2000, SYN2005 a SYN2010, zlemmatizovaných a morfologicky označkovaných na úrovni korpusu SYN2010. Tato data obsahují také údaje o tzv. přepočítaných frekvencích, které jsou navzájem přímo srovnatelné, a umožňují tudíž studium změn, kterými čeština za posledních 20 let prošla.

Složení korpusu SYN2010

V SYN2010 došlo ke změnám ve složení publicistiky, nezměnilo se ale vymezení synchronie v beletrii a odborné literatuře; v korpusu SYN2010 tak najdeme pouze odbornou literaturu publikovanou po roce 1989. Beletrie sice může být i starší, přesto však pro odbornou literaturu i beletrii obecně platí, že největší podíl na korpusu mají novější texty, zatímco zastoupení starších textů klesá.

Obecné složení korpusu SYN2010

Podrobnější informace o žánrovém složení korpusu SYN2010 zachycuje interaktivní graf.

Složení publicistiky

Veškeré publicistické texty v korpusu SYN2010 jsou z let 2005-2009, přičemž každý rok má – stejně jako v korpusu SYN2005 – v publicistice stejné zastoupení (i když se samozřejmě v rámci těchto let změnily podíly jednotlivých titulů).

Složení publicistiky podle roku vydání
Složení odborné a další specializované literatury podle tematického zaměření
Složení publicistiky podle titulů

Struktura korpusu SYN 2010

Mezi strukturní jednotky, na něž se člení tento korpus, patří <opus>, <doc> a <s>, tedy celý text, dokument (část textu) a věta - a pak každá jednotlivá pozice. Jejich seznam lze zobrazit pomocí položky menu Možnosti zobrazení, sekce Struktury.

Strukturní jednotky a jejich atributy v korpusovém manažeru

K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Metainformace.

Michal Křen, Olga Richterová

Jak citovat SYN2010

Křen, M. – Bartoň, T. – Cvrček, V. – Hnátková, M. – Jelínek, T. – Kocek, J. – Novotná, R. – Petkevič, V. – Procházka, P. – Schmiedtová, V. – Skoumalová, H.: SYN2010: žánrově vyvážený korpus psané češtiny. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz

Související odkazy