Korpus SYN2020

Korpus SYN2020 je synchronní reprezentativní a referenční korpus současné psané češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce (tokenů). Navazuje na předchozí korpusy řady SYN (SYN2000, SYN2005, SYN2010 a SYN2015), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, která předcházela jeho zveřejnění; SYN2020 je tak zaměřen na období 2015–2019. Žádný z textů v SYN2020 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2020 je lemmatizovaný a morfologicky tagovaný, stejně jako korpus SYN2015 obsahuje i syntaktické značkování, ve srovnání s ostatními korpusy však v anotaci přináší celou řadu změn (viz samostatná sekce níže).

Koncepce SYN2020 se z hlediska složení korpusu, klasifikace textů a pojetí synchronie plně shoduje s korpusem SYN2015.

Název		SYN2020
Pozice	Počet pozic (tokenů)	121 826 797
	Počet pozic bez interpunkce	100 031 037
	Počet slovních tvarů (wordů)	1 701 465
	Počet lemmat	726 822
Struktury	Počet dokumentů <doc>	3 910
	Počet textů <text>	114 211
	Počet odstavců <p>	2 855 289
	Počet vět <s>	7 997 312
Další informace	Referenční	ANO
	Reprezentativní	ANO (viz klasifikace textů)
	Rok zveřejnění	2020

Složení korpusu SYN2020

Reprezentativnost

Z hlediska reprezentativnosti je složení textů v korpusu SYN2020 arbitrární: tři hlavní textové makrotypy – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem (tj. vždy jednou třetinou). Cílem bylo zahrnout co nejširší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci. Platí přitom, že pojetí psanosti bylo počínaje korpusem SYN2015 zúženo pouze na jazyk tištěný a veřejně publikovaný; ani korpus SYN2020 tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera a nejsou do něj zahrnuty ani texty publikované pouze na internetu (pro ty existují speciální korpusy internetové češtiny, např. NET či ONLINE)

Klasifikace textů

Klasifikace textů v SYN2020 je založena na externích, mimotextových kritériích a je hierarchická. Nejvyšší úroveň txtype_group určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje txtype, vydělující např. v rámci beletrie prózu (romány vedle povídek), poezii a drama. Nejjemnější úroveň klasifikace textů pak představuje tzv. genre, jemuž je u textů oborové literatury (NFC) ještě nadřazena souhrnná kategorie genre_group – takto jsou třeba matematika (MAT), technika (TEC) a výpočetní technika (ICT) sloučeny jako jednotlivé disciplíny formálních a technických věd (FTS).

Podrobnosti o složení a klasifikaci najdete zde: přehledný souhrn jednotlivých kategorií včetně zkratek.

Txtype_group	Podíl
FIC: beletrie	33,33 %
NFC: oborová literatura	33,33 %
NMG: publicistika	33,33 %

Pojetí synchronie

Vycházíme z předpokladu, že za synchronní lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší:

pro beletrii platí strategie 25 + 75, tj. doba od prvního vydání nepřesahuje 75 let (přibližně tři žijící generace) a konkrétní vydání díla zařazovaného do korpusu není starší 25 let (zajištění současné recepce),
u odborných textů platí požadavek prvního vydání v posledních 25 letech,
hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2020 je to období let 2015 až 2019).

Podíl originálů a překladů

Do korpusu SYN2020 jsou (stejně jako do ostatních korpusů řady SYN) kromě původních českých textů zařazeny také překlady. Jejich podíl se v různých částech korpusu liší, následující tabulka uvádí procento českých originálů v jednotlivých typech textu.

txtype	kategorie
Beletrie		24 %
NOV	próza	17 %
COL	kratší próza	50 %
VER	poezie	97 %
SCR	drama	16 %
Oborová literatura		72 %
SCI	odborná literatura	79 %
PRO	profesní literatura	99 %
POP	populárně naučná literatura	62 %
MEM	memoáry, autobiografie	40 %
ADM	administrativa	100 %
Publicistika		100 %
NEW	tradiční publicistika	100 %
LEI	volnočasová publicistika	100 %

Poznámka: u periodik je zdrojovým jazykem velké většiny textů čeština. Protože ale není realistické to pro každý jednotlivý článek ověřovat, je čeština jako zdrojový jazyk periodik uvedena paušálně. Je tedy třeba počítat s tím, že v oborech s významým zastoupením periodik (publicistika, profesní literatura) tím může být uváděné procento českých originálů ovlivněno.

Struktura korpusu SYN2020 a strukturní značky

Nejvyšší strukturní jednotkou je ve shodě s mezinárodní konvencí dokument <doc>, který se skládá z jednoho nebo několika textů <text> (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců <p> a vět <s>. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.

`<doc>`	Poznámka	`<text>`	Poznámka	`<p>`	Poznámka	`<s>`	Poznámka
title	název dokumentu nebo periodika	section	generovaný typ rubriky (u vybraných periodik)	id	jednoznačný identifikátor	id	jednoznačný identifikátor
subtitle	podtitul	section_orig	původní název rubriky (u vybraných periodik)
author	autor dokumentu	author	autor článku (u vybraných periodik)
issue	vydání (u periodik)	id	jednoznačný identifikátor
publisher	vydavatel
pubplace	místo vydání
pubyear	rok vydání
first_published	rok 1. vydání
translator	překladatel
srclang	zdrojový jazyk
authsex	pohlaví autora
transsex	pohlaví překladatele
txtype_group	skupina textových typů
txtype	textový typ
genre_group	skupina oborů
genre	tematická oblast
medium	médium
periodicity	periodicita
audience	adresát
isbnissn	ISBN/ISSN
biblio	generovaný bibliografický údaj
id	jednoznačný identifikátor

Kromě výše uvedených hierarchických struktur jsou v korpusu zaznamenány také následující struktury:

<hi>: zvýraznění a řezy písma (pouze tam, kde byly zachyceny ve vstupním formátu);
<lb>: označení hranice verše v poezii;
<head> označení nadpisů (pouze tam, kde byly zachyceny ve vstupním formátu);
<table/> místo, kde byla v původním textu tabulka (nepárová struktura);
<ref/> místo, kde byl v původním textu webový odkaz (nepárová struktura);
<email/> místo, kde byla v původním textu e-mailová adresa (nepárová struktura);
<graphic/> místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura);
<geo/> místo, kde byly v původním textu GPS souřadnice (nepárová struktura)
<g/> místo, kde mezi dvěma po sobě následujícími tokeny nebyla v textu mezera (nepárová struktura), např. „70<g/>. léta“.

Anotace SYN2020: změny oproti ostatním korpusům řady SYN

Tokenizace

V dosavadních korpusech řady SYN byly téměř všechny kombinace alfabetických, numerických a interpunčních znaků, které byly v originálních textech psány bez mezery, považovány za jeden token. Zvlášť byly tokenizovány pouze interpunkční znaky na hranicích slov (řekl , že) a některé další kombinace, např. spojovník před příklonkou li (mohu - li).

V SYN2020 je přístup opačný: numerické a interpunkční znaky jsou systematicky oddělovány jako samostatné tokeny (v místě rozdělení se anotuje struktura <g/>, která tak uchovává informaci o toku původního textu), pohromadě však zůstávají některé kombinace znaků podle předem vymezených pravidel a seznamů slov (dohromady se tokenizují např. slova jako česko-německý, wi-fi, r’n’b, Jang-c’-ťiang, CO2, 12letý). Tyto principy jsou představeny na stránce tokenizace.

Lemmatizace

Zásadní změnou v korpusu SYN2020 je zavedení tzv. dvojúrovňové lemmatizace: každý tvar má nyní vedle atributu lemma přiřazen i atribut sublemma. Zatímco lemma sdružuje v souladu s dřívějšími korpusy řady SYN i více variant jednoho slova (např. lemma filozofie reprezentuje všechny tvary s kořenem filozof i filosof), sublemmata vymezují podskupiny tvarů podle této variantnosti (sublemma filozofie reprezentuje jen tvary s kořenem filozof, sublemma filosofie jen tvary s kořenem filosof). Pokud je slovo nevariantní, sublemma je totožné s lemmatem (např. lemma kniha reprezentuje stejnou množinu tvarů jako sublemma kniha).

Jako sublemmata jsou řešeny různé typy variant (např. mýdlo/mejdlo, okno/vokno, citron/citrón, email/e-mail, myslet/myslit, mýt/mejt, péci/péct/píct, kuchyně/kuchyň, antivirus/antivir, sedm/sedum, tenhle/tendle/tenle, ačkoli/ačkoliv, propriální Robert/Róbert/Roberto, Atény/Athény) a jejich pomocí jsou odlišeny i některé specifické skupiny tvarů, které jsou tradičně zahrnuty pod jedním lemmatem (např. negované tvary u adjektiv a adverbií černý/nečerný, hezky/nehezky, jmenné tvary adjektiv mladý/mlád, supletivní tvary dobře/lépe/líp, člověk/lidé).

V souvislosti s těmito změnami byla oproti předchozím korpusům řady SYN lemmatizace významně zpřesněna, řada lemmat byla opravena a dalších několik desítek tisíc lemmat je v korpusu SYN2020 nově rozpoznáno. Podrobný popis změn je uveden na stránce lemmatizace.

Morfologické značkování (tag)

Morfologická značka (tag) má počínaje korpusem SYN2020 15 pozic (místo dřívějších 16 pozic). Značení slovesného vidu se přesouvá ze zrušené 16. pozice na původně neobsazenou 13. pozici, jinak je struktura tagu totožná s dosavadními korpusy řady SYN.

K samotným změnám ve značení dochází na třech pozicích v tagu. Na 1. pozici (slovní druh) se nově rozlišují hodnoty F (cizí slovo), B (zkratka) a S (segment). Zároveň bylo přehodnoceno slovnědruhové zařazení některých slov a tvarů (především v oblasti číslovek, predikativ a jmenných tvarů adjektiv). Na 2. pozici (detailní určení slovního druhu) byly v souvislosti s novými slovními druhy zavedeny nové značky a naopak jiné byly zrušeny. Komplexně bylo upraveno členění číslovek (např. hodnota z se nově používá pro číslovky sto, tisíc, milion původně značené jako substantiva) a také vznikla značka 0 pro identifikaci nekoncové interpunkce. K jedné změně dochází na 15. pozici (varianta): číslo 8 (dosud vyhrazené zkratkám) se nově využívá jako značka pro další hovorovou variantu.

Spolehlivost automatické lemmatizace a automatického značkování korpusu SYN2020 je znatelně vyšší než u předcházejících korpusů řady SYN. Podrobný přehled změn je uveden na stránce morfologické značkování.

Značkování sloves (verbtag)

Nová slovesná značka (verbtag) obsahuje morfologické informace o celém slovesném tvaru nezávisle na tom, zda se jedná o tvar složený (viděl jsem), nebo jednoduchý (vidím). Ve verbtagu se jednak odlišuje pomocné sloveso od plnovýznamového, jednak jsou u každého plnovýznamového tvaru slovesa dále uvedeny kategorie způsobu, slovesného rodu, osoby, čísla a času (platné pro celý slovesný tvar). Slovesná značka je uvedena u každého tokenu v korpusu, hodnoty nabývá ale jen u sloves (a s jednou výjimkou u deverbativních adjektiv). Kompletní představení je na stránce verbtag.

Vícenásobná lemmatizace a značkování (agregát)

V korpusu SYN2020 jsou nově zavedena vícenásobná lemmata a značky pro zvláštní skupinu slov, tzv. agregáty. Agregáty jsou slova, která se v češtině píšou jako jedno slovo, ale z pohledu syntaxe či určování gramatických kategorií se chovají jako slova dvě (výjimečně tři). Jedná se o kondicionálové spojky (aby, kdyby), spojení slov s příklonkou s (dělalas, viděls, komus, vždyťs), spojení předložek s některými zájmeny (nač, očpak, zaň), případně kombinace posledních dvou typů (načs). U každého z těchto slov se uvádějí současně dvě (případně tři) lemmata, sublemmata, tagy a verbtagy podle jejich jednotlivých částí. Podrobněji k agregátům na stránce agregáty. V terminologii standardu Universal Dependencies se o těchto tokenech mluví jako o víceslovných tokenech, „multiword tokens“.

Automatická anotace korpusu

Celý proces anotace SYN2020 probíhá automaticky. Podrobný postup anotace včetně údajů o míře úspěšnosti je popsán na stránce automatická anotace. Najdete zde i bibliografické údaje k softwarovým nástrojům a k datům, které byly pro značkování využity; píšete-li článek či jiný akademický text s využitím značkování (lemmat, tagů, verbtagů, syntaktického značkování), je vhodné ocitovat nástroje, které byly použity k vytvoření anotace.

Jak citovat SYN2020

Křen, M. – Cvrček, V. – Henyš, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Milička, J. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Šindlerová, J. – Škrabal, M.: SYN2020: reprezentativní korpus psané češtiny. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz

Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): SYN2020: A new corpus of Czech with an innovated annotation. In: K. Ekštein – F. Pártl – M. Konopík (eds.), Text, Speech, and Dialogue. TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59.

Křivan, J. – Šindlerová, J. (2022): Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu. Slovo a slovesnost, 83, 2/2022, 122–145.

Historie: • oral2008 • token • syn2020