~~NOTOC~~
====== Korpus SYN2020 ======

Korpus SYN2020 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] a [[pojmy:referencni#referencni_korpus_jako_nemenna_entita|referenční]] korpus současné [[pojmy:psany|psané]] češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:token|tokenů]]). Navazuje na předchozí korpusy [[cnk:syn|řady SYN]] ([[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]]), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, která předcházela jeho zveřejnění; SYN2020 je tak zaměřen na období 2015–2019. Žádný z textů v SYN2020 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2020 je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]], stejně jako korpus SYN2015 obsahuje i [[pojmy:syntakticka_analyza|syntaktické značkování]], ve srovnání s ostatními korpusy však v anotaci přináší celou řadu změn (viz samostatná sekce níže).


<WRAP round tip 70%>
Koncepce SYN2020 se z hlediska složení korpusu, klasifikace textů a pojetí synchronie plně shoduje s korpusem SYN2015.
</WRAP>


<WRAP right 45%>
^ <fs medium>Název</fs> ^^ <fs medium>SYN2020</fs> ^
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  121 826 797 |  
^ ::: ^ Počet pozic bez interpunkce |  100 031 037 |  
^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  1 701 465 |  
^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  726 822 |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> |  3 910 |
^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] <text> |  114 211 |
^ ::: ^ Počet odstavců <p> |  2 855 289 |
^ ::: ^ Počet vět <s> |  7 997 312 |
^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |  
^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  ANO (viz [[cnk:klasifikace_textu_syn2015|klasifikace textů]]) |  
^ ::: ^ Rok zveřejnění |  2020 |
</WRAP>


====== Složení korpusu SYN2020 ======

==== Reprezentativnost ====

Z hlediska [[pojmy:reprezentativnost|reprezentativnosti]] je složení textů v korpusu SYN2020 arbitrární: tři hlavní [[pojmy:txtype_group|textové makrotypy]] – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem (tj. vždy jednou třetinou). Cílem bylo zahrnout co nejširší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci. Platí přitom, že pojetí psanosti bylo počínaje korpusem SYN2015 zúženo pouze na jazyk tištěný a veřejně publikovaný; ani korpus SYN2020 tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera a nejsou do něj zahrnuty ani texty publikované pouze na internetu (pro ty existují speciální korpusy internetové češtiny, např. [[cnk:net|NET]] či [[cnk:online|ONLINE]])

==== Klasifikace textů ====

Klasifikace textů v SYN2020 je založena na externích, mimotextových kritériích a je hierarchická. Nejvyšší úroveň ''[[pojmy:txtype_group|txtype_group]]'' určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje ''[[pojmy:txtype|txtype]]'', vydělující např. v rámci beletrie prózu (romány vedle povídek), poezii a drama. Nejjemnější úroveň klasifikace textů pak představuje tzv. ''[[pojmy:genre|genre]]'', jemuž je u textů oborové literatury (NFC) ještě nadřazena souhrnná kategorie ''[[pojmy:genre_group|genre_group]]'' -- takto jsou třeba matematika (MAT), technika (TEC) a výpočetní technika (ICT) sloučeny jako jednotlivé disciplíny formálních a technických věd (FTS).

Podrobnosti o složení a klasifikaci najdete zde: [[cnk:klasifikace_textu_syn2015|přehledný souhrn jednotlivých kategorií včetně zkratek]].

^ Txtype_group ^ Podíl ^
| FIC: beletrie |  33,33 % |
| NFC: oborová literatura |  33,33 % |
| NMG: publicistika |  33,33 % |

==== Pojetí synchronie ====

Vycházíme z předpokladu, že za [[pojmy:synchronni|synchronní]] lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší:

  * pro beletrii platí strategie 25 + 75, tj. doba od prvního vydání nepřesahuje 75 let (přibližně tři žijící generace) a konkrétní vydání díla zařazovaného do korpusu není starší 25 let (zajištění současné recepce),
  * u odborných textů platí požadavek prvního vydání v posledních 25 letech,
  * hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2020 je to období let 2015 až 2019).

==== Podíl originálů a překladů ====

Do korpusu SYN2020 jsou (stejně jako do ostatních korpusů řady SYN) kromě původních českých textů zařazeny také překlady. Jejich podíl se v různých částech korpusu liší, následující tabulka uvádí **//procento českých originálů v jednotlivých typech textu//**.

^  txtype  ^  kategorie  ^    ^
| **Beletrie** ||  **24 %** |
| NOV | próza |  17 % |
| COL | kratší próza |  50 % |
| VER | poezie |  97 % |
| SCR | drama |  16 % |
| **Oborová literatura** ||  **72 %** |
| SCI | odborná literatura |  79 % |
| PRO | profesní literatura |  99 % |
| POP | populárně naučná literatura |  62 % |
| MEM | memoáry, autobiografie |  40 % |
| ADM | administrativa |  100 % |
| **Publicistika** ||  **100 %** |
| NEW | tradiční publicistika |  100 % |
| LEI | volnočasová publicistika |  100 % |

Poznámka: u periodik je zdrojovým jazykem velké většiny textů čeština. Protože ale není realistické to pro každý jednotlivý článek ověřovat, je čeština jako zdrojový jazyk periodik uvedena paušálně. Je tedy třeba počítat s tím, že v oborech s významým zastoupením periodik (publicistika, profesní literatura) tím může být uváděné procento českých originálů ovlivněno.

===== Struktura korpusu SYN2020 a strukturní značky =====

Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument ''<doc>'', který se skládá z jednoho nebo několika textů ''<text>'' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.

^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^
| title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky (u vybraných periodik) | id | jednoznačný identifikátor | id | jednoznačný identifikátor |
| subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky (u vybraných periodik) | 
| author | autor dokumentu | author | autor článku (u vybraných periodik) |  |  |  |  |
| issue | vydání (u periodik) | id | jednoznačný identifikátor |  |  |  |  |
| publisher | vydavatel |  |  |  |  |  |  |
| pubplace | místo vydání |  |  |  |  |  |  |
| pubyear | rok vydání |  |  |  |  |  |  |
| first_published | rok 1. vydání |  |  |  |  |  |  |
| translator | překladatel |  |  |  |  |  |  |
| [[seznamy:srclang|srclang]] | zdrojový jazyk |  |  |  |  |  |  |
| [[seznamy:authsex-transsex|authsex]] | pohlaví autora |  |  |  |  |  |  |
| [[seznamy:authsex-transsex|transsex]] | pohlaví překladatele |  |  |  |  |  |  |
| [[seznamy:txtype_group|txtype_group]] | skupina textových typů |  |  |  |  |  |  |
| [[seznamy:txtype|txtype]] | textový typ |  |  |  |  |  |  |
| [[seznamy:genre_group|genre_group]] | skupina oborů |  |  |  |  |  |  |
| [[seznamy:genre|genre]] | tematická oblast |  |  |  |  |  |  |
| [[seznamy:med|medium]] | médium |  |  |  |  |  |  |
| [[seznamy:periodicity|periodicity]] | periodicita |  |  |  |  |  |  |
| [[seznamy:audience|audience]] | adresát |  |  |  |  |  |  |
| isbnissn | ISBN/ISSN |  |  |  |  |  |  |
| biblio | generovaný bibliografický údaj |  |  |  |  |  |  |
| id | jednoznačný identifikátor |  |  |  |  |  |  |

Kromě výše uvedených hierarchických struktur jsou v korpusu zaznamenány také následující struktury:
  * ''<hi>'': zvýraznění a řezy písma (pouze tam, kde byly zachyceny ve vstupním formátu);
  * ''<lb>'': označení hranice verše v poezii;
  * ''<head>'' označení nadpisů (pouze tam, kde byly zachyceny ve vstupním formátu);
  * ''<table/>'' místo, kde byla v původním textu tabulka (nepárová struktura);
  * ''<ref/>'' místo, kde byl v původním textu webový odkaz (nepárová struktura);
  * ''<email/>'' místo, kde byla v původním textu e-mailová adresa (nepárová struktura);
  * ''<graphic/>'' místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura);
  * ''<geo/>'' místo, kde byly v původním textu GPS souřadnice (nepárová struktura)
  * ''<g/>'' místo, kde mezi dvěma po sobě následujícími tokeny //nebyla// v textu mezera (nepárová struktura), např. "70''<g/>''. léta".

===== Anotace SYN2020: změny oproti ostatním korpusům řady SYN =====

==== Tokenizace ====

V dosavadních korpusech řady SYN byly téměř všechny kombinace alfabetických, numerických a interpunčních znaků, které byly v originálních textech psány bez mezery, považovány za jeden token. Zvlášť byly tokenizovány pouze interpunkční znaky na hranicích slov (//řekl , že//) a některé další kombinace, např. spojovník před příklonkou //li// (//mohu - li//).  

V SYN2020 je přístup opačný: numerické a interpunkční znaky jsou systematicky oddělovány jako samostatné tokeny (v místě rozdělení se anotuje struktura ''<g/>'', která tak uchovává informaci o toku původního textu), pohromadě však zůstávají některé kombinace znaků podle předem vymezených pravidel a seznamů slov (dohromady se tokenizují např. slova jako //česko-německý//, //wi-fi//, //r’n’b//, //Jang-c’-ťiang//, //CO2//, //12letý//). Tyto principy jsou představeny na stránce [[cnk:syn2020:tokenizace|tokenizace]].

==== Lemmatizace ====

Zásadní změnou v korpusu SYN2020 je zavedení tzv. **dvojúrovňové lemmatizace**: každý tvar má nyní vedle atributu **lemma** přiřazen i atribut **sublemma**. Zatímco lemma sdružuje v souladu s dřívějšími korpusy řady SYN i více variant jednoho slova (např. lemma //filozofie// reprezentuje všechny tvary s kořenem //filozof// i //filosof//), sublemmata vymezují podskupiny tvarů podle této variantnosti (sublemma //filozofie// reprezentuje jen tvary s kořenem //filozof//, sublemma //filosofie// jen tvary s kořenem //filosof//). Pokud je slovo nevariantní, sublemma je totožné s lemmatem (např. lemma //kniha// reprezentuje stejnou množinu tvarů jako sublemma //kniha//).

Jako **sublemmata** jsou řešeny různé typy variant (např. //mýdlo/mejdlo//, //okno/vokno//, //citron/citrón//, //email/e-mail//, //myslet/myslit//, //mýt/mejt//, //péci/péct/píct//, //kuchyně/kuchyň//, //antivirus/antivir//, //sedm/sedum//, //tenhle/tendle/tenle//, //ačkoli/ačkoliv//, propriální //Robert/Róbert/Roberto//, //Atény/Athény//) a jejich pomocí jsou odlišeny i některé specifické skupiny tvarů, které jsou tradičně zahrnuty pod jedním lemmatem (např. negované tvary u adjektiv a adverbií //černý/nečerný//, //hezky/nehezky//, jmenné tvary adjektiv //mladý/mlád//, supletivní tvary //dobře/lépe/líp//, //člověk/lidé//).

V souvislosti s těmito změnami byla oproti předchozím korpusům řady SYN lemmatizace významně zpřesněna, řada lemmat byla opravena a dalších několik desítek tisíc lemmat je v korpusu SYN2020 nově rozpoznáno. Podrobný popis změn je uveden na stránce [[cnk:syn2020:lemmatizace]].

==== Morfologické značkování (tag) ====

Morfologická značka (tag) má počínaje korpusem SYN2020 **15 pozic** (místo dřívějších 16 pozic). Značení **slovesného vidu** se přesouvá ze zrušené 16. pozice na původně neobsazenou 13. pozici, jinak je struktura tagu totožná s dosavadními korpusy řady SYN.

K samotným **změnám ve značení** dochází na třech pozicích v tagu. Na **1. pozici** (slovní druh) se nově rozlišují hodnoty **F** (cizí slovo), **B** (zkratka) a **S** (segment). Zároveň bylo přehodnoceno slovnědruhové zařazení některých slov a tvarů (především v oblasti číslovek, predikativ a jmenných tvarů adjektiv). Na **2. pozici** (detailní určení slovního druhu) byly v souvislosti s novými slovními druhy zavedeny nové značky a naopak jiné byly zrušeny. Komplexně bylo upraveno členění číslovek (např. hodnota **z** se nově používá pro číslovky //sto//, //tisíc//, //milion// původně značené jako substantiva) a také vznikla značka **0** pro identifikaci nekoncové interpunkce. K jedné změně dochází na **15. pozici** (varianta): číslo **8** (dosud vyhrazené zkratkám) se nově využívá jako značka pro další hovorovou variantu. 

Spolehlivost automatické lemmatizace a automatického značkování korpusu SYN2020 je znatelně vyšší než u předcházejících korpusů řady SYN. Podrobný přehled změn je uveden na stránce [[cnk:syn2020:tag|morfologické značkování]].

==== Značkování sloves (verbtag) ====

Nová slovesná značka (verbtag) obsahuje morfologické informace o celém slovesném tvaru nezávisle na tom, zda se jedná o tvar složený (//viděl jsem//), nebo jednoduchý (//vidím//). Ve verbtagu se jednak odlišuje pomocné sloveso od plnovýznamového, jednak jsou u každého plnovýznamového tvaru slovesa dále uvedeny kategorie způsobu, slovesného rodu, osoby, čísla a času (platné pro celý slovesný tvar). Slovesná značka je uvedena u každého tokenu v korpusu, hodnoty nabývá ale jen u sloves (a s jednou výjimkou u deverbativních adjektiv). Kompletní představení je na stránce [[cnk:syn2020:verbtag]].

==== Vícenásobná lemmatizace a značkování (agregát) ====

V korpusu SYN2020 jsou nově zavedena **vícenásobná lemmata a značky** pro zvláštní skupinu slov, tzv. **agregáty**. Agregáty jsou slova, která se v češtině píšou jako jedno slovo, ale z pohledu syntaxe či určování gramatických kategorií se chovají jako slova dvě (výjimečně tři). Jedná se o kondicionálové spojky (//aby//, //kdyby//), spojení slov s příklonkou //s// (//dělalas//, //viděls//, //komus//, //vždyťs//), spojení předložek s některými zájmeny (//nač//, //očpak//, //zaň//), případně kombinace posledních dvou typů (//načs//). U každého z těchto slov se uvádějí současně dvě (případně tři) lemmata, sublemmata, tagy a verbtagy podle jejich jednotlivých částí. Podrobněji k agregátům na stránce [[cnk:syn2020:agregat|agregáty]]. V terminologii standardu [[https://universaldependencies.org/|Universal Dependencies]] se o těchto tokenech mluví jako o víceslovných tokenech, "multiword tokens".

==== Automatická anotace korpusu ====
Celý proces anotace SYN2020 probíhá automaticky. Podrobný postup anotace včetně údajů o míře úspěšnosti je popsán na stránce [[cnk:syn2020:automaticka_anotace|automatická anotace]]. Najdete zde i bibliografické údaje k softwarovým nástrojům a k datům, které byly pro značkování využity; píšete-li článek či jiný akademický text s využitím značkování (lemmat, tagů, verbtagů, syntaktického značkování), je vhodné ocitovat nástroje, které byly použity k vytvoření anotace.

====== Jak citovat SYN2020 ======

<WRAP round tip 70%>
Křen, M. – Cvrček, V. – Henyš, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Milička, J. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Šindlerová, J. – Škrabal, M.: //SYN2020: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz

Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): [[https://doi.org/10.1007/978-3-030-83527-9_4|SYN2020: A new corpus of Czech with an innovated annotation]]. In: K. Ekštein – F. Pártl – M. Konopík (eds.), //Text, Speech, and Dialogue.// TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59.

Křivan, J. – Šindlerová, J. (2022): [[https://asjournals.lib.cas.cz/slovoaslovesnost/article/uuid:286197ce-8b36-43ac-9563-eba2abf8ca0e|Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu]]. //Slovo a slovesnost//, 83, 2/2022, 122–145.

</WRAP>