Korpus SYN2005 je synchronní reprezentativní korpus psané češtiny obsahující 100 milionů textových slov (tokenů). V těchto základních charakteristikách se tedy shodne se svým předchůdcem, korpusem SYN2000, i následovníkem, korpusem SYN2010. Především mezi korpusy SYN2005 a SYN2000 však najdeme i velké množství rozdílů, které je nutné brát v úvahu mimo jiné při jakémkoli srovnávání, protože pouhé mechanické srovnávání frekvencí může vést k mylným závěrům. Dále je třeba zdůraznit, že všechny korpusy řady SYN jsou co se zařazených textů týče disjunktní, tj. žádný z textů korpusu SYN2005 nebyl použit v jiném korpusu této řady.
Název | SYN2005 | |
---|---|---|
Pozice | Počet pozic (tokenů) | 122 419 382 |
Počet pozic (tokenů) bez interpunkce | 101 355 116 | |
Počet slovních tvarů (wordů) | 1 778 142 | |
Počet lemmat | 825 142 | |
Struktury | Počet opusů | 2 382 |
Počet dokumentů | 132 353 | |
Počet vět | 7 945 998 | |
Další informace | Referenční | ANO |
Reprezentativní | ANO (různé textové typy) | |
Rok zveřejnění | 2005 |
Reprezentativnost korpusu SYN2005 se opírá o nový výzkum recepce psaného jazyka, jeho složení se proto v některých ohledech od korpusu SYN2000 značně liší. Srovnání obou korpusů podle hlavních oborů uvádíme v následující tabulce:
SYN2005 | SYN2000 | |
---|---|---|
beletrie | 40 % | 15 % |
odborná lit. | 27 % | 25 % |
publicistika | 33 % | 60 % |
Další rozdíly lze pozorovat i v rámci hlavních oborů: zatímco rozdělení odborné literatury podle jejího tematického zaměření se změnilo jen málo, složení publicistiky se změnilo naopak výrazně. Pro korpus SYN2005 především platí, že veškeré publicistické texty jsou z let 2000 - 2004, přičemž každý rok má v rámci publicistiky stejné zastoupení; dále se oproti korpusu SYN2000 proměnilo i zastoupení jednotlivých titulů, k nimž některé další přibyly - svým podílem je mezi nimi významný zejména deník Blesk. Nezměnilo se však vymezení synchronie v ostatních dvou hlavních oborech, v korpusu SYN2005 tak najdeme odbornou literaturu z let 1990 - 2004, beletrie může být dokonce i starší; v obou případech však byl kladen důraz na to, aby starších textů bylo co nejméně.
Například výrazně vyšší frekvence určitého slova nemusí být způsobena novějším korpusem, ale pouze vyšším podílem beletrie v něm; zastoupení tohoto slova v psaném jazyce se přitom nemuselo vůbec změnit. Protože si však uvědomujeme nevýhody, které vyplývají z nemožnosti přímého srovnávání frekvencí mezi oběma korpusy, zveřejnili jsme srovnávací frekvenční seznamy slovních tvarů z reprezentativních korpusů SYN2000, SYN2005 a SYN2010. Tyto seznamy obsahují kromě běžných frekvenčních údajů také frekvence přepočítané, jejichž hodnoty jsou již mezi korpusy srovnatelné.
Od června 2006 je korpus SYN2005 lemmatizován a morfologicky označkován. Pro tento korpus byla oproti korpusu SYN2000 použita výrazně vylepšená verze lemmatizace a morfologického značkování. Vlastní systém morfologických značek však zůstává víceméně stejný, přibyla pouze pozice č. 16 vyjadřující slovesný vid.
S novou lemmatizací a morfologickým značkováním korpusu SYN2005 dále souvisí také ve srovnání s korpusem SYN2000 nová a vylepšená tokenizace (rozdělení vstupních textů na slova) a segmentace (rozdělení na věty). Například slovo česko-polský bylo v SYN2000 rozloženo na tři pozice (česko - polský
), zatímco v SYN2005 jde již o pozici jedinou (česko-polský
).
U korpusu SYN2000 je nutné dohledávat bibliografické informace v seznamu zdrojů na základě kódů. V korpusu SYN2005 jsou již veškeré relevantní informace o textu (autor, název, nakladatel, rok vydání atd.) k dispozici přímo prostřednictvím korpusového rozhraní KonText, zobrazit se dají buď klepnutím pravým tlačítkem myši na KWIC, nebo v menu Zobrazení.
Mezi strukturní jednotky používané v tomto korpusu patří <opus>
, <doc>
a <s>
, tedy opus, dokument a věta - a pak každá jednotlivá pozice.
Zobrazit si je můžete v položce menu Zobrazení
K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.
Čermák, F. – Doležalová-Spoustová, D. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Křen, M. – Novotná, R. – Petkevič, V. – Schmiedtová, V. – Skoumalová, H. – Šulc, M. – Velíšek, Z.: SYN2005: žánrově vyvážený korpus psané češtiny. Ústav Českého národního korpusu FF UK, Praha 2005. Dostupný z WWW: http://www.korpus.cz
— Michal Křen, Olga Richterová
SYN • SYN2000 • SYN2006PUB • SYN2009PUB • SYN2010 • SYN2013PUB • Seznam zdrojů