~~NOTOC~~
====== Korpus SYN2005 ======
Korpus SYN2005 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] korpus psané češtiny obsahující 100 milionů textových slov ([[pojmy:token|tokenů]]). V těchto základních charakteristikách se tedy shodne se svým předchůdcem, korpusem [[SYN2000|SYN2000]], i následovníkem, korpusem [[SYN2010]]. Především mezi korpusy [[SYN2005]] a [[SYN2000]] však najdeme i velké [[cnk:syn2005#zmeny_oproti_korpusu_syn2000|množství rozdílů]], které je nutné brát v úvahu mimo jiné při jakémkoli srovnávání, protože pouhé mechanické srovnávání frekvencí může vést k mylným závěrům. Dále je třeba zdůraznit, že všechny korpusy [[cnk:syn|řady SYN]] jsou co se zařazených textů týče disjunktní, tj. žádný z textů korpusu SYN2005 nebyl použit v jiném korpusu této řady.
^ Název ^^ [[cnk:syn2005|SYN2005]] ^
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 122 419 382 |
^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 101 355 116 |
^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 1 778 142 |
^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 825 142 |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] | 2 382 |
^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] | 132 353 |
^ ::: ^ Počet vět | 7 945 998 |
^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO |
^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | ANO ([[seznamy:txtype|různé textové typy]]) |
^ ::: ^ Rok zveřejnění | 2005 |
====== Změny oproti korpusu SYN2000 ======
==== Nový přístup k reprezentativnosti – složení korpusu ====
[[pojmy:reprezentativnost|Reprezentativnost]] korpusu SYN2005 se opírá o nový výzkum recepce psaného jazyka, jeho složení se proto v některých ohledech od korpusu SYN2000 značně liší. Srovnání obou korpusů podle hlavních oborů uvádíme v následující tabulce:
| ^ SYN2005 ^ SYN2000 ^
^ beletrie | 40 %| 15 %|
^ odborná lit. | 27 %| 25 %|
^ publicistika | 33 % | 60 % |
Další rozdíly lze pozorovat i v rámci hlavních oborů: zatímco rozdělení odborné literatury podle jejího tematického zaměření se změnilo jen málo, složení publicistiky se změnilo naopak výrazně. Pro korpus SYN2005 především platí, že veškeré publicistické texty jsou z let 2000 - 2004, přičemž každý rok má v rámci publicistiky stejné zastoupení; dále se oproti korpusu [[SYN2000|SYN2000]] proměnilo i zastoupení jednotlivých titulů, k nimž některé další přibyly - svým podílem je mezi nimi významný zejména deník Blesk. Nezměnilo se však vymezení [[pojmy:synchronni|synchronie]] v ostatních dvou hlavních oborech, v korpusu SYN2005 tak najdeme odbornou literaturu z let 1990 - 2004, beletrie může být dokonce i starší; v obou případech však byl kladen důraz na to, aby starších textů bylo co nejméně.
{{:cnk:syn2010_slozeni.png|Složení korpusu SYN2005}}
==== Co způsobují rozdíly mezi korpusy ====
Například výrazně **vyšší frekvence určitého slova** nemusí být způsobena novějším korpusem, ale pouze **vyšším podílem beletrie** v něm; zastoupení tohoto slova v psaném jazyce se přitom nemuselo vůbec změnit. Protože si však uvědomujeme nevýhody, které vyplývají z nemožnosti přímého srovnávání frekvencí mezi oběma korpusy, zveřejnili jsme [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]] slovních tvarů z reprezentativních korpusů SYN2000, SYN2005 a SYN2010. Tyto seznamy obsahují kromě běžných frekvenčních údajů také frekvence přepočítané, jejichž hodnoty jsou již mezi korpusy srovnatelné.
==== Nová lemmatizace a morfologická anotace ====
Od června 2006 je korpus SYN2005 [[pojmy:lemma|lemmatizován]] a morfologicky [[pojmy:tag|označkován]]. Pro tento korpus byla oproti korpusu [[SYN2000|SYN2000]] použita výrazně vylepšená verze lemmatizace a morfologického značkování. Vlastní systém morfologických značek však zůstává víceméně stejný, přibyla pouze pozice č. 16 vyjadřující slovesný vid.
S novou lemmatizací a morfologickým značkováním korpusu SYN2005 dále souvisí také ve srovnání s korpusem [[SYN2000|SYN2000]] nová a vylepšená [[pojmy:token|tokenizace]] (rozdělení vstupních textů na slova) a segmentace (rozdělení na věty). Například slovo //česko-polský// bylo v [[SYN2000|SYN2000]] rozloženo na tři pozice (''česko - polský''), zatímco v SYN2005 jde již o pozici jedinou (''česko-polský'').
==== Přehledné informace o zdrojích ====
U korpusu [[SYN2000|SYN2000]] je nutné dohledávat bibliografické informace v [[seznamy:index#zdrojove_texty_korpusu|seznamu zdrojů]] na základě kódů. V korpusu SYN2005 jsou již veškeré relevantní informace o textu (autor, název, nakladatel, rok vydání atd.) k dispozici přímo prostřednictvím korpusového rozhraní [[manualy:kontext:index|KonText]], zobrazit se dají buď klepnutím pravým tlačítkem myši na [[pojmy:kwic|KWIC]], nebo v menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]].
===== Struktura korpusu SYN2005 =====
Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří '''', '''' a '''', tedy opus, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]].
Zobrazit si je můžete v položce menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]]
[{{ :cnk:struktur_znacky.jpg?300 |Strukturní jednotky v korpusu SYN2005.}}]
K těmto strukturním jednotkám náležejí [[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|následující atributy]], na obrázku patrné pod nadpisem Reference.
===== Jak citovat SYN2005 =====
Čermák, F. – Doležalová-Spoustová, D. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Křen, M. – Novotná, R. – Petkevič, V. – Schmiedtová, V. – Skoumalová, H. – Šulc, M. – Velíšek, Z.: //SYN2005: žánrově vyvážený korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2005. Dostupný z WWW: http://www.korpus.cz
--- //Michal Křen, Olga Richterová//
===== Související odkazy =====
[[cnk:syn|SYN]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] • [[cnk:SYN2013PUB|SYN2013PUB]] • [[seznamy:index#zdrojove_texty_korpusu|Seznam zdrojů]]