Toto je starší verze dokumentu!
Korpus SYN2025
Korpus SYN2025 je synchronní reprezentativní a referenční korpus současné psané češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce (tokenů). Navazuje na předchozí korpusy řady SYN (SYN2000, SYN2005, SYN2010, SYN2015 a SYN2020), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, která předcházela jeho zveřejnění; SYN2025 je tak zaměřen na období 2020–2024. Žádný z textů v SYN2025 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2025 je lemmatizovaný a morfologicky tagovaný, stejně jako korpusy SYN2020 a SYN2015 obsahuje i syntaktické značkování, ve srovnání s předchozími korpusy však v anotaci přináší některé dílčí změny (viz samostatná sekce níže).
Korpus SYN2025 vychází z hlediska složení, klasifikace textů a pojetí synchronie z korpusů SYN2015 a SYN2020. Malé rozdíly jsou pouze v několika parametrech složení korpusu a jsou popsány níže.
| Název | SYN2025 | |
|---|---|---|
| Pozice | Počet pozic (tokenů) | 122 072 831 |
| Počet pozic bez interpunkce | 100 006 172 | |
| Počet slovních tvarů (wordů) | 1 678 186 | |
| Počet lemmat | 708 674 | |
| Struktury | Počet dokumentů <doc> | 3 943 |
| Počet textů <text> | 103 937 | |
| Počet odstavců <p> | 2 776 291 | |
| Počet vět <s> | 7 725 939 | |
| Další informace | Referenční | ANO |
| Reprezentativní | ANO (viz klasifikace textů) | |
| Rok zveřejnění | 2025 | |
Složení korpusu SYN2025
Reprezentativnost
Z hlediska reprezentativnosti je složení textů v korpusu SYN2025 arbitrární: tři hlavní textové makrotypy – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem (tj. vždy jednou třetinou). Cílem bylo zahrnout co nejširší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci. Platí přitom, že pojetí psanosti bylo počínaje korpusem SYN2015 zúženo pouze na jazyk tištěný a veřejně publikovaný; ani korpus SYN2025 tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera a nejsou do něj zahrnuty ani texty publikované pouze na internetu (pro ty existují speciální korpusy internetové češtiny, např. NET či ONLINE)
Klasifikace textů
Klasifikace textů v SYN2025 je založena na externích, mimotextových kritériích a je hierarchická. Nejvyšší úroveň txtype_group určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje txtype, vydělující např. v rámci beletrie prózu (romány vedle povídek), poezii a drama. Nejjemnější úroveň klasifikace textů pak představuje tzv. genre, jemuž je u textů oborové literatury (NFC) ještě nadřazena souhrnná kategorie genre_group – takto jsou třeba matematika (MAT), technika (TEC) a výpočetní technika (ICT) sloučeny jako jednotlivé disciplíny formálních a technických věd (FTS).
Podrobnosti o složení a klasifikaci najdete zde: přehledný souhrn jednotlivých kategorií včetně zkratek.
| Txtype_group | Podíl |
|---|---|
| FIC: beletrie | 33,33 % |
| NFC: oborová literatura | 33,33 % |
| NMG: publicistika | 33,33 % |
Pojetí synchronie
Vycházíme z předpokladu, že za synchronní lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší:
- pro beletrii platí strategie 25 + 75, tj. doba od prvního vydání nepřesahuje 75 let (přibližně tři žijící generace) a konkrétní vydání díla zařazovaného do korpusu není starší 25 let (zajištění současné recepce),
- u odborných textů platí požadavek prvního vydání v posledních 25 letech,
- hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2025 je to období let 2020 až 2024).
Struktura korpusu SYN2025 a strukturní značky
Nejvyšší strukturní jednotkou je ve shodě s mezinárodní konvencí dokument <doc>, který se skládá z jednoho nebo několika textů <text> (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců <p> a vět <s>. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.
<doc> | Poznámka | <text> | Poznámka | <p> | Poznámka | <s> | Poznámka |
|---|---|---|---|---|---|---|---|
| title | název dokumentu nebo periodika | section | generovaný typ rubriky (u vybraných periodik) | id | jednoznačný identifikátor | id | jednoznačný identifikátor |
| subtitle | podtitul | section_orig | původní název rubriky (u vybraných periodik) | ||||
| author | autor dokumentu | author | autor článku (u vybraných periodik) | ||||
| issue | vydání (u periodik) | id | jednoznačný identifikátor | ||||
| publisher | vydavatel | ||||||
| pubplace | místo vydání | ||||||
| pubyear | rok vydání | ||||||
| first_published | rok 1. vydání | ||||||
| translator | překladatel | ||||||
| srclang | zdrojový jazyk | ||||||
| authsex | pohlaví autora | ||||||
| transsex | pohlaví překladatele | ||||||
| txtype_group | skupina textových typů | ||||||
| txtype | textový typ | ||||||
| genre_group | skupina oborů | ||||||
| genre | tematická oblast | ||||||
| medium | médium | ||||||
| periodicity | periodicita | ||||||
| audience | adresát | ||||||
| isbnissn | ISBN/ISSN | ||||||
| biblio | generovaný bibliografický údaj | ||||||
| id | jednoznačný identifikátor |
Kromě výše uvedených hierarchických struktur jsou v korpusu zaznamenány také následující struktury:
<hi>: zvýraznění a řezy písma (pouze tam, kde byly zachyceny ve vstupním formátu);<lb>: označení hranice verše v poezii;<note>: označení poznámek pod čarou (pouze tam, kde byly zachyceny ve vstupním formátu);<table/>místo, kde byla v původním textu tabulka (nepárová struktura);<ref/>místo, kde byl v původním textu webový odkaz (nepárová struktura);<email/>místo, kde byla v původním textu e-mailová adresa (nepárová struktura);<graphic/>místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura);<geo/>místo, kde byly v původním textu GPS souřadnice (nepárová struktura)<g/>místo, kde mezi dvěma po sobě následujícími tokeny nebyla v textu mezera (nepárová struktura), např. „70<g/>. léta“.
Změny ve struktuře SYN2025 oproti předchozím korpusům:
- poznámky pod čarou (
<note>) se v korpusu SYN2025 objevují nově a jsou přesunuty vždy na konec dané struktury<text>; nepřerušují tak souvislost textu v místě, kde byla poznámka učiněna; - nadpisy již nejsou označeny zvláštní strukturou
<head>, ale stejně jako v novějších korpusech řady SYN (např. SYN v13) je namísto toho zavedena hodnota atribututypestruktury<p>; ten odlišuje nadpis (<p type=„head“>) od běžného textu (<p type=„normal“>).
Anotace SYN2025
Morfologické značkování, lemmatizace a tokenizace korpusu SYN2025 probíhá plně automaticky podle anotačního standardu ČNK, který byl aplikován již na korpus SYN2020.
Jak citovat SYN2025
Křen, M. – Cvrček, V. – Čapka, T. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Marklová, A. – Petkevič, V. – Skoumalová, H. – Škrabal, M.: SYN2025: reprezentativní korpus psané češtiny. Ústav Českého národního korpusu FF UK, Praha 2025. Dostupný z WWW: http://www.korpus.cz
Cvrček, V. – Čermáková, A. – Křen, M. (2016): Nová koncepce synchronních korpusů psané češtiny. Slovo a slovesnost, 77 (2), 83–101.
Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): SYN2020: A new corpus of Czech with an innovated annotation. In: K. Ekštein – F. Pártl – M. Konopík (eds.), Text, Speech, and Dialogue. TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59.
Křivan, J. – Šindlerová, J. (2022): Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu. Slovo a slovesnost, 83 (2), 122–145.