~~NOTOC~~
====== Korpus SYN2025 ======

Korpus SYN2025 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]] korpus současné [[pojmy:psany|psané]] češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:token|tokenů]]). Navazuje na předchozí korpusy [[cnk:syn|řady SYN]] ([[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]], [[cnk:syn2015|SYN2015]] a [[cnk:syn2020|SYN2020]]), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, která předcházela jeho zveřejnění; SYN2025 je tak zaměřen na období 2020–2024. Žádný z textů v SYN2025 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2025 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]], stejně jako korpusy SYN2020 a SYN2015 obsahuje i [[pojmy:syntakticka_analyza|syntaktické značkování]], ve srovnání s předchozími korpusy však v anotaci přináší některé dílčí změny (viz samostatná sekce níže).


<WRAP round tip 70%>
Korpus SYN2025 vychází z hlediska složení, klasifikace textů a pojetí synchronie z korpusů SYN2015 a SYN2020. Malé rozdíly jsou pouze v několika parametrech složení korpusu a jsou označeny v této [[cnk:klasifikace_textu_syn2015#podily_jednotlivych_typu_textu|tabulce]].
</WRAP>


<WRAP right 45%>
^ <fs medium>Název</fs> ^^ <fs medium>SYN2025</fs> ^
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  122 072 831 |  
^ ::: ^ Počet pozic bez interpunkce |  100 006 172 |  
^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  1 678 186 |  
^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  708 674 |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> |  3 943 |
^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] <text> |  103 937 |
^ ::: ^ Počet odstavců <p> |  2 776 291 |
^ ::: ^ Počet vět <s> |  7 725 939 |
^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |  
^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  ANO (viz [[cnk:klasifikace_textu_syn2015|klasifikace textů]]) |  
^ ::: ^ Rok zveřejnění |  2025 |
</WRAP>


====== Složení korpusu SYN2025 ======

==== Reprezentativnost ====

Z hlediska [[pojmy:reprezentativnost|reprezentativnosti]] je složení textů v korpusu SYN2025 arbitrární: tři hlavní [[pojmy:txtype_group|textové makrotypy]] – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem (tj. vždy jednou třetinou). Cílem bylo zahrnout co nejširší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci. Platí přitom, že pojetí psanosti bylo počínaje korpusem SYN2015 zúženo pouze na jazyk tištěný a veřejně publikovaný; ani korpus SYN2025 tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera a nejsou do něj zahrnuty ani texty publikované pouze na internetu (pro ty existují speciální korpusy internetové češtiny, např. [[cnk:net|NET]] či [[cnk:online|ONLINE]])

==== Klasifikace textů ====

Klasifikace textů v SYN2025 je založena na externích, mimotextových kritériích a je hierarchická. Nejvyšší úroveň ''[[pojmy:txtype_group|txtype_group]]'' určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje ''[[pojmy:txtype|txtype]]'', vydělující např. v rámci beletrie prózu (romány vedle povídek), poezii a drama. Nejjemnější úroveň klasifikace textů pak představuje tzv. ''[[pojmy:genre|genre]]'', jemuž je u textů oborové literatury (NFC) ještě nadřazena souhrnná kategorie ''[[pojmy:genre_group|genre_group]]'' -- takto jsou třeba matematika (MAT), technika (TEC) a výpočetní technika (ICT) sloučeny jako jednotlivé disciplíny formálních a technických věd (FTS).

Podrobnosti o složení a klasifikaci najdete zde: [[cnk:klasifikace_textu_syn2015|přehledný souhrn jednotlivých kategorií včetně zkratek]].

^ Txtype_group ^ Podíl ^
| FIC: beletrie |  33,33 % |
| NFC: oborová literatura |  33,33 % |
| NMG: publicistika |  33,33 % |

==== Pojetí synchronie ====

Vycházíme z předpokladu, že za [[pojmy:synchronni|synchronní]] lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší:

  * pro beletrii platí strategie 25 + 75, tj. doba od prvního vydání nepřesahuje 75 let (přibližně tři žijící generace) a konkrétní vydání díla zařazovaného do korpusu není starší 25 let (zajištění současné recepce),
  * u odborných textů platí požadavek prvního vydání v posledních 25 letech,
  * hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2025 je to období let 2020 až 2024).

===== Struktura korpusu SYN2025 a strukturní značky =====

Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument ''<doc>'', který se skládá z jednoho nebo několika textů ''<text>'' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.

^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^
| title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky (u vybraných periodik) | id | jednoznačný identifikátor | id | jednoznačný identifikátor |
| subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky (u vybraných periodik) | 
| author | autor dokumentu | author | autor článku (u vybraných periodik) |  |  |  |  |
| issue | vydání (u periodik) | id | jednoznačný identifikátor |  |  |  |  |
| publisher | vydavatel |  |  |  |  |  |  |
| pubplace | místo vydání |  |  |  |  |  |  |
| pubyear | rok vydání |  |  |  |  |  |  |
| first_published | rok 1. vydání |  |  |  |  |  |  |
| translator | překladatel |  |  |  |  |  |  |
| [[seznamy:srclang|srclang]] | zdrojový jazyk |  |  |  |  |  |  |
| [[seznamy:authsex-transsex|authsex]] | pohlaví autora |  |  |  |  |  |  |
| [[seznamy:authsex-transsex|transsex]] | pohlaví překladatele |  |  |  |  |  |  |
| [[seznamy:txtype_group|txtype_group]] | skupina textových typů |  |  |  |  |  |  |
| [[seznamy:txtype|txtype]] | textový typ |  |  |  |  |  |  |
| [[seznamy:genre_group|genre_group]] | skupina oborů |  |  |  |  |  |  |
| [[seznamy:genre|genre]] | tematická oblast |  |  |  |  |  |  |
| [[seznamy:med|medium]] | médium |  |  |  |  |  |  |
| [[seznamy:periodicity|periodicity]] | periodicita |  |  |  |  |  |  |
| [[seznamy:audience|audience]] | adresát |  |  |  |  |  |  |
| isbnissn | ISBN/ISSN |  |  |  |  |  |  |
| biblio | generovaný bibliografický údaj |  |  |  |  |  |  |
| id | jednoznačný identifikátor |  |  |  |  |  |  |

Kromě výše uvedených hierarchických struktur jsou v korpusu zaznamenány také následující struktury:
  * ''<hi>'': zvýraznění a řezy písma (pouze tam, kde byly zachyceny ve vstupním formátu);
  * ''<lb>'': označení hranice verše v poezii;
  * ''<note>'': označení poznámek pod čarou (pouze tam, kde byly zachyceny ve vstupním formátu);
  * ''<table/>'' místo, kde byla v původním textu tabulka (nepárová struktura);
  * ''<ref/>'' místo, kde byl v původním textu webový odkaz (nepárová struktura);
  * ''<email/>'' místo, kde byla v původním textu e-mailová adresa (nepárová struktura);
  * ''<graphic/>'' místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura);
  * ''<geo/>'' místo, kde byly v původním textu GPS souřadnice (nepárová struktura)
  * ''<g/>'' místo, kde mezi dvěma po sobě následujícími tokeny //nebyla// v textu mezera (nepárová struktura), např. "70''<g/>''. léta".


**Změny ve struktuře SYN2025 oproti předchozím korpusům:**
  * poznámky pod čarou (''<note>'') se v korpusu SYN2025 objevují nově a jsou přesunuty vždy na konec dané struktury ''<text>''; nepřerušují tak souvislost textu v místě, kde byla poznámka učiněna;
  * nadpisy již nejsou označeny zvláštní strukturou ''<head>'', ale stejně jako v novějších korpusech řady SYN (např. SYN v13) je namísto toho zavedena hodnota atributu ''type'' struktury ''<p>''; ten odlišuje nadpis (''<p type="head">'') od běžného textu (''<p type="normal">'').

===== Anotace SYN2025 =====

Morfologické značkování, lemmatizace a tokenizace korpusu SYN2025 probíhá plně automaticky podle [[cnk:anotacni_standard_cnk|anotačního standardu ČNK]], který byl aplikován již na korpus SYN2020. Tokenům jsou přiřazeny [[pojmy:atributy_pozicni|poziční atributy]]: [[pojmy:lemma|lemma]] a sublemma, [[pojmy:tag|tag]], [[pojmy:verbtag|verbtag]], pos a case.\\
Kromě toho je korpus SYN2025 (stejně jako korpus SYN2020) opatřen [[pojmy:syntakticka_analyza|syntaktickým značkováním]] s řadou [[pojmy:atributy_pozicni|pozičních atributů]] přiřazených tokenům, např. [[seznamy:parent|parent]], [[seznamy:afun|afun]], [[seznamy:p_tag|p_tag]] (viz [[seznamy:syntakticke_znacky]]).

====== Jak citovat SYN2025 ======

<WRAP round tip 70%>
Křen, M. – Cvrček, V. – Čapka, T. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Marklová, A. – Petkevič, V. – Skoumalová, H. – Škrabal, M.: //SYN2025: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2025. Dostupný z WWW: http://www.korpus.cz

Cvrček, V. – Čermáková, A. – Křen, M. (2016): Nová koncepce synchronních korpusů psané češtiny. //Slovo a slovesnost//, 77 (2), 83–101.

Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): [[https://doi.org/10.1007/978-3-030-83527-9_4|SYN2020: A new corpus of Czech with an innovated annotation]]. In: K. Ekštein – F. Pártl – M. Konopík (eds.), //Text, Speech, and Dialogue.// TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59.

Křivan, J. – Šindlerová, J. (2022): [[https://asjournals.lib.cas.cz/slovoaslovesnost/article/uuid:286197ce-8b36-43ac-9563-eba2abf8ca0e|Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu]]. //Slovo a slovesnost//, 83 (2), 122–145.

</WRAP>