Toto je starší verze dokumentu!

Korpus SYN2025

Korpus SYN2025 je synchronní reprezentativní a referenční korpus současné psané češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce (tokenů). Navazuje na předchozí korpusy řady SYN (SYN2000, SYN2005, SYN2010, SYN2015 a SYN2020), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, která předcházela jeho zveřejnění; SYN2025 je tak zaměřen na období 2020–2024. Žádný z textů v SYN2025 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2025 je lemmatizovaný a morfologicky tagovaný, stejně jako korpusy SYN2020 a SYN2015 obsahuje i syntaktické značkování, ve srovnání s předchozími korpusy však v anotaci přináší některé dílčí změny (viz samostatná sekce níže).

Korpus SYN2025 vychází z hlediska složení, klasifikace textů a pojetí synchronie z korpusů SYN2015 a SYN2020. Malé rozdíly jsou pouze v několika parametrech složení korpusu a jsou označeny v této tabulce.

Název		SYN2025
Pozice	Počet pozic (tokenů)	122 072 831
	Počet pozic bez interpunkce	100 006 172
	Počet slovních tvarů (wordů)	1 678 186
	Počet lemmat	708 674
Struktury	Počet dokumentů <doc>	3 943
	Počet textů <text>	103 937
	Počet odstavců <p>	2 776 291
	Počet vět <s>	7 725 939
Další informace	Referenční	ANO
	Reprezentativní	ANO (viz klasifikace textů)
	Rok zveřejnění	2025

Složení korpusu SYN2025

Reprezentativnost

Z hlediska reprezentativnosti je složení textů v korpusu SYN2025 arbitrární: tři hlavní textové makrotypy – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem (tj. vždy jednou třetinou). Cílem bylo zahrnout co nejširší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci. Platí přitom, že pojetí psanosti bylo počínaje korpusem SYN2015 zúženo pouze na jazyk tištěný a veřejně publikovaný; ani korpus SYN2025 tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera a nejsou do něj zahrnuty ani texty publikované pouze na internetu (pro ty existují speciální korpusy internetové češtiny, např. NET či ONLINE)

Klasifikace textů

Klasifikace textů v SYN2025 je založena na externích, mimotextových kritériích a je hierarchická. Nejvyšší úroveň txtype_group určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje txtype, vydělující např. v rámci beletrie prózu (romány vedle povídek), poezii a drama. Nejjemnější úroveň klasifikace textů pak představuje tzv. genre, jemuž je u textů oborové literatury (NFC) ještě nadřazena souhrnná kategorie genre_group – takto jsou třeba matematika (MAT), technika (TEC) a výpočetní technika (ICT) sloučeny jako jednotlivé disciplíny formálních a technických věd (FTS).

Podrobnosti o složení a klasifikaci najdete zde: přehledný souhrn jednotlivých kategorií včetně zkratek.

Txtype_group	Podíl
FIC: beletrie	33,33 %
NFC: oborová literatura	33,33 %
NMG: publicistika	33,33 %

Pojetí synchronie

Vycházíme z předpokladu, že za synchronní lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší:

pro beletrii platí strategie 25 + 75, tj. doba od prvního vydání nepřesahuje 75 let (přibližně tři žijící generace) a konkrétní vydání díla zařazovaného do korpusu není starší 25 let (zajištění současné recepce),
u odborných textů platí požadavek prvního vydání v posledních 25 letech,
hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2025 je to období let 2020 až 2024).

Struktura korpusu SYN2025 a strukturní značky

Nejvyšší strukturní jednotkou je ve shodě s mezinárodní konvencí dokument <doc>, který se skládá z jednoho nebo několika textů <text> (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců <p> a vět <s>. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.

`<doc>`	Poznámka	`<text>`	Poznámka	`<p>`	Poznámka	`<s>`	Poznámka
title	název dokumentu nebo periodika	section	generovaný typ rubriky (u vybraných periodik)	id	jednoznačný identifikátor	id	jednoznačný identifikátor
subtitle	podtitul	section_orig	původní název rubriky (u vybraných periodik)
author	autor dokumentu	author	autor článku (u vybraných periodik)
issue	vydání (u periodik)	id	jednoznačný identifikátor
publisher	vydavatel
pubplace	místo vydání
pubyear	rok vydání
first_published	rok 1. vydání
translator	překladatel
srclang	zdrojový jazyk
authsex	pohlaví autora
transsex	pohlaví překladatele
txtype_group	skupina textových typů
txtype	textový typ
genre_group	skupina oborů
genre	tematická oblast
medium	médium
periodicity	periodicita
audience	adresát
isbnissn	ISBN/ISSN
biblio	generovaný bibliografický údaj
id	jednoznačný identifikátor

Kromě výše uvedených hierarchických struktur jsou v korpusu zaznamenány také následující struktury:

<hi>: zvýraznění a řezy písma (pouze tam, kde byly zachyceny ve vstupním formátu);
<lb>: označení hranice verše v poezii;
<note>: označení poznámek pod čarou (pouze tam, kde byly zachyceny ve vstupním formátu);
<table/> místo, kde byla v původním textu tabulka (nepárová struktura);
<ref/> místo, kde byl v původním textu webový odkaz (nepárová struktura);
<email/> místo, kde byla v původním textu e-mailová adresa (nepárová struktura);
<graphic/> místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura);
<geo/> místo, kde byly v původním textu GPS souřadnice (nepárová struktura)
<g/> místo, kde mezi dvěma po sobě následujícími tokeny nebyla v textu mezera (nepárová struktura), např. „70<g/>. léta“.

Změny ve struktuře SYN2025 oproti předchozím korpusům:

poznámky pod čarou (<note>) se v korpusu SYN2025 objevují nově a jsou přesunuty vždy na konec dané struktury <text>; nepřerušují tak souvislost textu v místě, kde byla poznámka učiněna;
nadpisy již nejsou označeny zvláštní strukturou <head>, ale stejně jako v novějších korpusech řady SYN (např. SYN v13) je namísto toho zavedena hodnota atributu type struktury <p>; ten odlišuje nadpis (<p type=„head“>) od běžného textu (<p type=„normal“>).

Anotace SYN2025

Morfologické značkování, lemmatizace a tokenizace korpusu SYN2025 probíhá plně automaticky podle anotačního standardu ČNK, který byl aplikován již na korpus SYN2020.

Jak citovat SYN2025

Křen, M. – Cvrček, V. – Čapka, T. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Marklová, A. – Petkevič, V. – Skoumalová, H. – Škrabal, M.: SYN2025: reprezentativní korpus psané češtiny. Ústav Českého národního korpusu FF UK, Praha 2025. Dostupný z WWW: http://www.korpus.cz

Cvrček, V. – Čermáková, A. – Křen, M. (2016): Nová koncepce synchronních korpusů psané češtiny. Slovo a slovesnost, 77 (2), 83–101.

Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): SYN2020: A new corpus of Czech with an innovated annotation. In: K. Ekštein – F. Pártl – M. Konopík (eds.), Text, Speech, and Dialogue. TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59.

Křivan, J. – Šindlerová, J. (2022): Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu. Slovo a slovesnost, 83 (2), 122–145.

Historie: • syn2025