~~NOTOC~~ ====== Korpus SYN2025 ====== Korpus SYN2025 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]] korpus současné [[pojmy:psany|psané]] češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:token|tokenů]]). Navazuje na předchozí korpusy [[cnk:syn|řady SYN]] ([[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]], [[cnk:syn2015|SYN2015]] a [[cnk:syn2020|SYN2020]]), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, která předcházela jeho zveřejnění; SYN2025 je tak zaměřen na období 2020–2024. Žádný z textů v SYN2025 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2025 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]], stejně jako korpusy SYN2020 a SYN2015 obsahuje i [[pojmy:syntakticka_analyza|syntaktické značkování]], ve srovnání s předchozími korpusy však v anotaci přináší některé dílčí změny (viz samostatná sekce níže). Korpus SYN2025 vychází z hlediska složení, klasifikace textů a pojetí synchronie z korpusů SYN2015 a SYN2020. Malé rozdíly jsou pouze v několika parametrech složení korpusu a jsou označeny v této [[cnk:klasifikace_textu_syn2015#podily_jednotlivych_typu_textu|tabulce]]. ^ Název ^^ SYN2025 ^ ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 122 072 831 | ^ ::: ^ Počet pozic bez interpunkce | 100 006 172 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 1 678 186 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 708 674 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] | 3 943 | ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] | 103 937 | ^ ::: ^ Počet odstavců

| 2 776 291 | ^ ::: ^ Počet vět | 7 725 939 | ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | ANO (viz [[cnk:klasifikace_textu_syn2015|klasifikace textů]]) | ^ ::: ^ Rok zveřejnění | 2025 | ====== Složení korpusu SYN2025 ====== ==== Reprezentativnost ==== Z hlediska [[pojmy:reprezentativnost|reprezentativnosti]] je složení textů v korpusu SYN2025 arbitrární: tři hlavní [[pojmy:txtype_group|textové makrotypy]] – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem (tj. vždy jednou třetinou). Cílem bylo zahrnout co nejširší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci. Platí přitom, že pojetí psanosti bylo počínaje korpusem SYN2015 zúženo pouze na jazyk tištěný a veřejně publikovaný; ani korpus SYN2025 tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera a nejsou do něj zahrnuty ani texty publikované pouze na internetu (pro ty existují speciální korpusy internetové češtiny, např. [[cnk:net|NET]] či [[cnk:online|ONLINE]]) ==== Klasifikace textů ==== Klasifikace textů v SYN2025 je založena na externích, mimotextových kritériích a je hierarchická. Nejvyšší úroveň ''[[pojmy:txtype_group|txtype_group]]'' určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje ''[[pojmy:txtype|txtype]]'', vydělující např. v rámci beletrie prózu (romány vedle povídek), poezii a drama. Nejjemnější úroveň klasifikace textů pak představuje tzv. ''[[pojmy:genre|genre]]'', jemuž je u textů oborové literatury (NFC) ještě nadřazena souhrnná kategorie ''[[pojmy:genre_group|genre_group]]'' -- takto jsou třeba matematika (MAT), technika (TEC) a výpočetní technika (ICT) sloučeny jako jednotlivé disciplíny formálních a technických věd (FTS). Podrobnosti o složení a klasifikaci najdete zde: [[cnk:klasifikace_textu_syn2015|přehledný souhrn jednotlivých kategorií včetně zkratek]]. ^ Txtype_group ^ Podíl ^ | FIC: beletrie | 33,33 % | | NFC: oborová literatura | 33,33 % | | NMG: publicistika | 33,33 % | ==== Pojetí synchronie ==== Vycházíme z předpokladu, že za [[pojmy:synchronni|synchronní]] lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší: * pro beletrii platí strategie 25 + 75, tj. doba od prvního vydání nepřesahuje 75 let (přibližně tři žijící generace) a konkrétní vydání díla zařazovaného do korpusu není starší 25 let (zajištění současné recepce), * u odborných textů platí požadavek prvního vydání v posledních 25 letech, * hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2025 je to období let 2020 až 2024). ===== Struktura korpusu SYN2025 a strukturní značky ===== Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument '''', který se skládá z jednoho nebo několika textů '''' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců ''

'' a vět ''''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce. ^ '''' ^ Poznámka ^ '''' ^ Poznámka ^ ''

'' ^ Poznámka ^'' '' ^ Poznámka ^ | title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky (u vybraných periodik) | id | jednoznačný identifikátor | id | jednoznačný identifikátor | | subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky (u vybraných periodik) | | author | autor dokumentu | author | autor článku (u vybraných periodik) | | | | | | issue | vydání (u periodik) | id | jednoznačný identifikátor | | | | | | publisher | vydavatel | | | | | | | | pubplace | místo vydání | | | | | | | | pubyear | rok vydání | | | | | | | | first_published | rok 1. vydání | | | | | | | | translator | překladatel | | | | | | | | [[seznamy:srclang|srclang]] | zdrojový jazyk | | | | | | | | [[seznamy:authsex-transsex|authsex]] | pohlaví autora | | | | | | | | [[seznamy:authsex-transsex|transsex]] | pohlaví překladatele | | | | | | | | [[seznamy:txtype_group|txtype_group]] | skupina textových typů | | | | | | | | [[seznamy:txtype|txtype]] | textový typ | | | | | | | | [[seznamy:genre_group|genre_group]] | skupina oborů | | | | | | | | [[seznamy:genre|genre]] | tematická oblast | | | | | | | | [[seznamy:med|medium]] | médium | | | | | | | | [[seznamy:periodicity|periodicity]] | periodicita | | | | | | | | [[seznamy:audience|audience]] | adresát | | | | | | | | isbnissn | ISBN/ISSN | | | | | | | | biblio | generovaný bibliografický údaj | | | | | | | | id | jednoznačný identifikátor | | | | | | | Kromě výše uvedených hierarchických struktur jsou v korpusu zaznamenány také následující struktury: * '''': zvýraznění a řezy písma (pouze tam, kde byly zachyceny ve vstupním formátu); * '''': označení hranice verše v poezii; * '''': označení poznámek pod čarou (pouze tam, kde byly zachyceny ve vstupním formátu); * '''' místo, kde byla v původním textu tabulka (nepárová struktura); * '''' místo, kde byl v původním textu webový odkaz (nepárová struktura); * '''' místo, kde byla v původním textu e-mailová adresa (nepárová struktura); * '''' místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura); * '''' místo, kde byly v původním textu GPS souřadnice (nepárová struktura) * '''' místo, kde mezi dvěma po sobě následujícími tokeny //nebyla// v textu mezera (nepárová struktura), např. "70''''. léta". **Změny ve struktuře SYN2025 oproti předchozím korpusům:** * poznámky pod čarou ('''') se v korpusu SYN2025 objevují nově a jsou přesunuty vždy na konec dané struktury ''''; nepřerušují tak souvislost textu v místě, kde byla poznámka učiněna; * nadpisy již nejsou označeny zvláštní strukturou '''', ale stejně jako v novějších korpusech řady SYN (např. SYN v13) je namísto toho zavedena hodnota atributu ''type'' struktury ''

''; ten odlišuje nadpis (''

'') od běžného textu (''

''). ===== Anotace SYN2025 ===== Morfologické značkování, lemmatizace a tokenizace korpusu SYN2025 probíhá plně automaticky podle [[cnk:anotacni_standard_cnk|anotačního standardu ČNK]], který byl aplikován již na korpus SYN2020. Tokenům jsou přiřazeny [[pojmy:atributy_pozicni|poziční atributy]]: [[pojmy:lemma|lemma]] a sublemma, [[pojmy:tag|tag]], [[pojmy:verbtag|verbtag]], pos a case.\\ Kromě toho je korpus SYN2025 (stejně jako korpus SYN2020) opatřen [[pojmy:syntakticka_analyza|syntaktickým značkováním]] s řadou [[pojmy:atributy_pozicni|pozičních atributů]] přiřazených tokenům, např. [[seznamy:parent|parent]], [[seznamy:afun|afun]], [[seznamy:p_tag|p_tag]] (viz [[seznamy:syntakticke_znacky]]). ====== Jak citovat SYN2025 ====== Křen, M. – Cvrček, V. – Čapka, T. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Marklová, A. – Petkevič, V. – Skoumalová, H. – Škrabal, M.: //SYN2025: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2025. Dostupný z WWW: http://www.korpus.cz Cvrček, V. – Čermáková, A. – Křen, M. (2016): Nová koncepce synchronních korpusů psané češtiny. //Slovo a slovesnost//, 77 (2), 83–101. Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): [[https://doi.org/10.1007/978-3-030-83527-9_4|SYN2020: A new corpus of Czech with an innovated annotation]]. In: K. Ekštein – F. Pártl – M. Konopík (eds.), //Text, Speech, and Dialogue.// TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59. Křivan, J. – Šindlerová, J. (2022): [[https://asjournals.lib.cas.cz/slovoaslovesnost/article/uuid:286197ce-8b36-43ac-9563-eba2abf8ca0e|Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu]]. //Slovo a slovesnost//, 83 (2), 122–145.