AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus SYN2025

Korpus SYN2025 je synchronní reprezentativní a referenční korpus současné psané češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce (tokenů). Navazuje na předchozí korpusy řady SYN (SYN2000, SYN2005, SYN2010, SYN2015 a SYN2020), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, která předcházela jeho zveřejnění; SYN2025 je tak zaměřen na období 2020–2024. Žádný z textů v SYN2025 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2025 je lemmatizovaný a morfologicky tagovaný, stejně jako korpusy SYN2020 a SYN2015 obsahuje i syntaktické značkování, ve srovnání s předchozími korpusy však v anotaci přináší některé dílčí změny (viz samostatná sekce níže).

Korpus SYN2025 vychází z hlediska složení, klasifikace textů a pojetí synchronie z korpusů SYN2015 a SYN2020. Malé rozdíly jsou pouze v několika parametrech složení korpusu a jsou označeny v této tabulce.

Název SYN2025
Pozice Počet pozic (tokenů) 122 072 831
Počet pozic bez interpunkce 100 006 172
Počet slovních tvarů (wordů) 1 678 186
Počet lemmat 708 674
Struktury Počet dokumentů <doc> 3 943
Počet textů <text> 103 937
Počet odstavců <p> 2 776 291
Počet vět <s> 7 725 939
Další informace Referenční ANO
Reprezentativní ANO (viz klasifikace textů)
Rok zveřejnění 2025

Složení korpusu SYN2025

Reprezentativnost

Z hlediska reprezentativnosti je složení textů v korpusu SYN2025 arbitrární: tři hlavní textové makrotypy – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem (tj. vždy jednou třetinou). Cílem bylo zahrnout co nejširší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci. Platí přitom, že pojetí psanosti bylo počínaje korpusem SYN2015 zúženo pouze na jazyk tištěný a veřejně publikovaný; ani korpus SYN2025 tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera a nejsou do něj zahrnuty ani texty publikované pouze na internetu (pro ty existují speciální korpusy internetové češtiny, např. NET či ONLINE)

Klasifikace textů

Klasifikace textů v SYN2025 je založena na externích, mimotextových kritériích a je hierarchická. Nejvyšší úroveň txtype_group určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje txtype, vydělující např. v rámci beletrie prózu (romány vedle povídek), poezii a drama. Nejjemnější úroveň klasifikace textů pak představuje tzv. genre, jemuž je u textů oborové literatury (NFC) ještě nadřazena souhrnná kategorie genre_group – takto jsou třeba matematika (MAT), technika (TEC) a výpočetní technika (ICT) sloučeny jako jednotlivé disciplíny formálních a technických věd (FTS).

Podrobnosti o složení a klasifikaci najdete zde: přehledný souhrn jednotlivých kategorií včetně zkratek.

Txtype_group Podíl
FIC: beletrie 33,33 %
NFC: oborová literatura 33,33 %
NMG: publicistika 33,33 %

Pojetí synchronie

Vycházíme z předpokladu, že za synchronní lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší:

  • pro beletrii platí strategie 25 + 75, tj. doba od prvního vydání nepřesahuje 75 let (přibližně tři žijící generace) a konkrétní vydání díla zařazovaného do korpusu není starší 25 let (zajištění současné recepce),
  • u odborných textů platí požadavek prvního vydání v posledních 25 letech,
  • hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2025 je to období let 2020 až 2024).

Struktura korpusu SYN2025 a strukturní značky

Nejvyšší strukturní jednotkou je ve shodě s mezinárodní konvencí dokument <doc>, který se skládá z jednoho nebo několika textů <text> (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců <p> a vět <s>. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.

<doc> Poznámka <text> Poznámka <p> Poznámka <s> Poznámka
title název dokumentu nebo periodika section generovaný typ rubriky (u vybraných periodik) id jednoznačný identifikátor id jednoznačný identifikátor
subtitle podtitul section_orig původní název rubriky (u vybraných periodik)
author autor dokumentu author autor článku (u vybraných periodik)
issue vydání (u periodik) id jednoznačný identifikátor
publisher vydavatel
pubplace místo vydání
pubyear rok vydání
first_published rok 1. vydání
translator překladatel
srclang zdrojový jazyk
authsex pohlaví autora
transsex pohlaví překladatele
txtype_group skupina textových typů
txtype textový typ
genre_group skupina oborů
genre tematická oblast
medium médium
periodicity periodicita
audience adresát
isbnissn ISBN/ISSN
biblio generovaný bibliografický údaj
id jednoznačný identifikátor

Kromě výše uvedených hierarchických struktur jsou v korpusu zaznamenány také následující struktury:

  • <hi>: zvýraznění a řezy písma (pouze tam, kde byly zachyceny ve vstupním formátu);
  • <lb>: označení hranice verše v poezii;
  • <note>: označení poznámek pod čarou (pouze tam, kde byly zachyceny ve vstupním formátu);
  • <table/> místo, kde byla v původním textu tabulka (nepárová struktura);
  • <ref/> místo, kde byl v původním textu webový odkaz (nepárová struktura);
  • <email/> místo, kde byla v původním textu e-mailová adresa (nepárová struktura);
  • <graphic/> místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura);
  • <geo/> místo, kde byly v původním textu GPS souřadnice (nepárová struktura)
  • <g/> místo, kde mezi dvěma po sobě následujícími tokeny nebyla v textu mezera (nepárová struktura), např. „70<g/>. léta“.

Změny ve struktuře SYN2025 oproti předchozím korpusům:

  • poznámky pod čarou (<note>) se v korpusu SYN2025 objevují nově a jsou přesunuty vždy na konec dané struktury <text>; nepřerušují tak souvislost textu v místě, kde byla poznámka učiněna;
  • nadpisy již nejsou označeny zvláštní strukturou <head>, ale stejně jako v novějších korpusech řady SYN (např. SYN v13) je namísto toho zavedena hodnota atributu type struktury <p>; ten odlišuje nadpis (<p type=„head“>) od běžného textu (<p type=„normal“>).

Anotace SYN2025

Morfologické značkování, lemmatizace a tokenizace korpusu SYN2025 probíhá plně automaticky podle anotačního standardu ČNK, který byl aplikován již na korpus SYN2020.

Jak citovat SYN2025

Křen, M. – Cvrček, V. – Čapka, T. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Marklová, A. – Petkevič, V. – Skoumalová, H. – Škrabal, M.: SYN2025: reprezentativní korpus psané češtiny. Ústav Českého národního korpusu FF UK, Praha 2025. Dostupný z WWW: http://www.korpus.cz

Cvrček, V. – Čermáková, A. – Křen, M. (2016): Nová koncepce synchronních korpusů psané češtiny. Slovo a slovesnost, 77 (2), 83–101.

Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): SYN2020: A new corpus of Czech with an innovated annotation. In: K. Ekštein – F. Pártl – M. Konopík (eds.), Text, Speech, and Dialogue. TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59.

Křivan, J. – Šindlerová, J. (2022): Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu. Slovo a slovesnost, 83 (2), 122–145.