Korpus SYN2005
Korpus SYN2005 je synchronní reprezentativní korpus psané češtiny obsahující 100 milionů textových slov (tokenů). V těchto základních charakteristikách se tedy shodne se svým předchůdcem, korpusem SYN2000, i následovníkem, korpusem SYN2010. Především mezi korpusy SYN2005 a SYN2000 však najdeme i velké množství rozdílů, které je nutné brát v úvahu mimo jiné při jakémkoli srovnávání, protože pouhé mechanické srovnávání frekvencí může vést k mylným závěrům. Dále je třeba zdůraznit, že všechny korpusy řady SYN jsou co se zařazených textů týče disjunktní, tj. žádný z textů korpusu SYN2005 nebyl použit v jiném korpusu této řady.
Název | SYN2005 | |
---|---|---|
Pozice | Počet pozic (tokenů) | 122 419 382 |
Počet pozic (tokenů) bez interpunkce | 101 355 116 | |
Počet slovních tvarů (wordů) | 1 778 142 | |
Počet lemmat | 825 142 | |
Struktury | Počet opusů | 2 382 |
Počet dokumentů | 132 353 | |
Počet vět | 7 945 998 | |
Další informace | Referenční | ANO |
Reprezentativní | ANO (různé textové typy) | |
Rok zveřejnění | 2005 |
Změny oproti korpusu SYN2000
Nový přístup k reprezentativnosti – složení korpusu
Reprezentativnost korpusu SYN2005 se opírá o nový výzkum recepce psaného jazyka, jeho složení se proto v některých ohledech od korpusu SYN2000 značně liší. Srovnání obou korpusů podle hlavních oborů uvádíme v následující tabulce:
SYN2005 | SYN2000 | |
---|---|---|
beletrie | 40 % | 15 % |
odborná lit. | 27 % | 25 % |
publicistika | 33 % | 60 % |
Další rozdíly lze pozorovat i v rámci hlavních oborů: zatímco rozdělení odborné literatury podle jejího tematického zaměření se změnilo jen málo, složení publicistiky se změnilo naopak výrazně. Pro korpus SYN2005 především platí, že veškeré publicistické texty jsou z let 2000 - 2004, přičemž každý rok má v rámci publicistiky stejné zastoupení; dále se oproti korpusu SYN2000 proměnilo i zastoupení jednotlivých titulů, k nimž některé další přibyly - svým podílem je mezi nimi významný zejména deník Blesk. Nezměnilo se však vymezení synchronie v ostatních dvou hlavních oborech, v korpusu SYN2005 tak najdeme odbornou literaturu z let 1990 - 2004, beletrie může být dokonce i starší; v obou případech však byl kladen důraz na to, aby starších textů bylo co nejméně.
Co způsobují rozdíly mezi korpusy
Například výrazně vyšší frekvence určitého slova nemusí být způsobena novějším korpusem, ale pouze vyšším podílem beletrie v něm; zastoupení tohoto slova v psaném jazyce se přitom nemuselo vůbec změnit. Protože si však uvědomujeme nevýhody, které vyplývají z nemožnosti přímého srovnávání frekvencí mezi oběma korpusy, zveřejnili jsme srovnávací frekvenční seznamy slovních tvarů z reprezentativních korpusů SYN2000, SYN2005 a SYN2010. Tyto seznamy obsahují kromě běžných frekvenčních údajů také frekvence přepočítané, jejichž hodnoty jsou již mezi korpusy srovnatelné.
Nová lemmatizace a morfologická anotace
Od června 2006 je korpus SYN2005 lemmatizován a morfologicky označkován. Pro tento korpus byla oproti korpusu SYN2000 použita výrazně vylepšená verze lemmatizace a morfologického značkování. Vlastní systém morfologických značek však zůstává víceméně stejný, přibyla pouze pozice č. 16 vyjadřující slovesný vid.
S novou lemmatizací a morfologickým značkováním korpusu SYN2005 dále souvisí také ve srovnání s korpusem SYN2000 nová a vylepšená tokenizace (rozdělení vstupních textů na slova) a segmentace (rozdělení na věty). Například slovo česko-polský bylo v SYN2000 rozloženo na tři pozice (česko - polský
), zatímco v SYN2005 jde již o pozici jedinou (česko-polský
).
Přehledné informace o zdrojích
U korpusu SYN2000 je nutné dohledávat bibliografické informace v seznamu zdrojů na základě kódů. V korpusu SYN2005 jsou již veškeré relevantní informace o textu (autor, název, nakladatel, rok vydání atd.) k dispozici přímo prostřednictvím korpusového rozhraní KonText, zobrazit se dají buď klepnutím pravým tlačítkem myši na KWIC, nebo v menu Zobrazení.
Struktura korpusu SYN2005
Mezi strukturní jednotky používané v tomto korpusu patří <opus>
, <doc>
a <s>
, tedy opus, dokument a věta - a pak každá jednotlivá pozice.
Zobrazit si je můžete v položce menu Zobrazení
K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.
Jak citovat SYN2005
Čermák, F. – Doležalová-Spoustová, D. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Křen, M. – Novotná, R. – Petkevič, V. – Schmiedtová, V. – Skoumalová, H. – Šulc, M. – Velíšek, Z.: SYN2005: žánrově vyvážený korpus psané češtiny. Ústav Českého národního korpusu FF UK, Praha 2005. Dostupný z WWW: http://www.korpus.cz
— Michal Křen, Olga Richterová
Související odkazy
SYN • SYN2000 • SYN2006PUB • SYN2009PUB • SYN2010 • SYN2013PUB • Seznam zdrojů