Korpus SYN2020
Korpus SYN2020 je synchronní reprezentativní a referenční korpus současné psané češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce (tokenů). Navazuje na předchozí korpusy řady SYN (SYN2000, SYN2005, SYN2010 a SYN2015), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, která předcházela jeho zveřejnění; SYN2020 je tak zaměřen na období 2015–2019. Žádný z textů v SYN2020 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2020 je lemmatizovaný a morfologicky tagovaný, stejně jako korpus SYN2015 obsahuje i syntaktické značkování, ve srovnání s ostatními korpusy však v anotaci přináší celou řadu změn (viz samostatná sekce níže).
Koncepce SYN2020 se z hlediska složení korpusu, klasifikace textů a pojetí synchronie plně shoduje s korpusem SYN2015.
Název | SYN2020 | |
---|---|---|
Pozice | Počet pozic (tokenů) | 121 826 797 |
Počet pozic bez interpunkce | 100 031 037 | |
Počet slovních tvarů (wordů) | 1 701 465 | |
Počet lemmat | 726 822 | |
Struktury | Počet dokumentů <doc> | 3 910 |
Počet textů <text> | 114 211 | |
Počet odstavců <p> | 2 855 289 | |
Počet vět <s> | 7 997 312 | |
Další informace | Referenční | ANO |
Reprezentativní | ANO (viz klasifikace textů) | |
Rok zveřejnění | 2020 |
Složení korpusu SYN2020
Reprezentativnost
Z hlediska reprezentativnosti je složení textů v korpusu SYN2020 arbitrární: tři hlavní textové makrotypy – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem (tj. vždy jednou třetinou). Cílem bylo zahrnout co nejširší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci. Platí přitom, že pojetí psanosti bylo počínaje korpusem SYN2015 zúženo pouze na jazyk tištěný a veřejně publikovaný; ani korpus SYN2020 tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera a nejsou do něj zahrnuty ani texty publikované pouze na internetu (pro ty existují speciální korpusy internetové češtiny, např. NET či ONLINE)
Klasifikace textů
Klasifikace textů v SYN2020 je založena na externích, mimotextových kritériích a je hierarchická. Nejvyšší úroveň txtype_group
určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje txtype
, vydělující např. v rámci beletrie prózu (romány vedle povídek), poezii a drama. Nejjemnější úroveň klasifikace textů pak představuje tzv. genre
, jemuž je u textů oborové literatury (NFC) ještě nadřazena souhrnná kategorie genre_group
– takto jsou třeba matematika (MAT), technika (TEC) a výpočetní technika (ICT) sloučeny jako jednotlivé disciplíny formálních a technických věd (FTS).
Podrobnosti o složení a klasifikaci najdete zde: přehledný souhrn jednotlivých kategorií včetně zkratek.
Txtype_group | Podíl |
---|---|
FIC: beletrie | 33,33 % |
NFC: oborová literatura | 33,33 % |
NMG: publicistika | 33,33 % |
Pojetí synchronie
Vycházíme z předpokladu, že za synchronní lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší:
- pro beletrii platí strategie 25 + 75, tj. doba od prvního vydání nepřesahuje 75 let (přibližně tři žijící generace) a konkrétní vydání díla zařazovaného do korpusu není starší 25 let (zajištění současné recepce),
- u odborných textů platí požadavek prvního vydání v posledních 25 letech,
- hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2020 je to období let 2015 až 2019).
Podíl originálů a překladů
Do korpusu SYN2020 jsou (stejně jako do ostatních korpusů řady SYN) kromě původních českých textů zařazeny také překlady. Jejich podíl se v různých částech korpusu liší, následující tabulka uvádí procento českých originálů v jednotlivých typech textu.
txtype | kategorie | |
---|---|---|
Beletrie | 24 % | |
NOV | próza | 17 % |
COL | kratší próza | 50 % |
VER | poezie | 97 % |
SCR | drama | 16 % |
Oborová literatura | 72 % | |
SCI | odborná literatura | 79 % |
PRO | profesní literatura | 99 % |
POP | populárně naučná literatura | 62 % |
MEM | memoáry, autobiografie | 40 % |
ADM | administrativa | 100 % |
Publicistika | 100 % | |
NEW | tradiční publicistika | 100 % |
LEI | volnočasová publicistika | 100 % |
Poznámka: u periodik je zdrojovým jazykem velké většiny textů čeština. Protože ale není realistické to pro každý jednotlivý článek ověřovat, je čeština jako zdrojový jazyk periodik uvedena paušálně. Je tedy třeba počítat s tím, že v oborech s významým zastoupením periodik (publicistika, profesní literatura) tím může být uváděné procento českých originálů ovlivněno.
Struktura korpusu SYN2020 a strukturní značky
Nejvyšší strukturní jednotkou je ve shodě s mezinárodní konvencí dokument <doc>
, který se skládá z jednoho nebo několika textů <text>
(články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců <p>
a vět <s>
. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.
<doc> | Poznámka | <text> | Poznámka | <p> | Poznámka | <s> | Poznámka |
---|---|---|---|---|---|---|---|
title | název dokumentu nebo periodika | section | generovaný typ rubriky (u vybraných periodik) | id | jednoznačný identifikátor | id | jednoznačný identifikátor |
subtitle | podtitul | section_orig | původní název rubriky (u vybraných periodik) | ||||
author | autor dokumentu | author | autor článku (u vybraných periodik) | ||||
issue | vydání (u periodik) | id | jednoznačný identifikátor | ||||
publisher | vydavatel | ||||||
pubplace | místo vydání | ||||||
pubyear | rok vydání | ||||||
first_published | rok 1. vydání | ||||||
translator | překladatel | ||||||
srclang | zdrojový jazyk | ||||||
authsex | pohlaví autora | ||||||
transsex | pohlaví překladatele | ||||||
txtype_group | skupina textových typů | ||||||
txtype | textový typ | ||||||
genre_group | skupina oborů | ||||||
genre | tematická oblast | ||||||
medium | médium | ||||||
periodicity | periodicita | ||||||
audience | adresát | ||||||
isbnissn | ISBN/ISSN | ||||||
biblio | generovaný bibliografický údaj | ||||||
id | jednoznačný identifikátor |
Kromě výše uvedených hierarchických struktur jsou v korpusu zaznamenány také následující struktury:
<hi>
: zvýraznění a řezy písma (pouze tam, kde byly zachyceny ve vstupním formátu);<lb>
: označení hranice verše v poezii;<head>
označení nadpisů (pouze tam, kde byly zachyceny ve vstupním formátu);<table/>
místo, kde byla v původním textu tabulka (nepárová struktura);<ref/>
místo, kde byl v původním textu webový odkaz (nepárová struktura);<email/>
místo, kde byla v původním textu e-mailová adresa (nepárová struktura);<graphic/>
místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura);<geo/>
místo, kde byly v původním textu GPS souřadnice (nepárová struktura)<g/>
místo, kde mezi dvěma po sobě následujícími tokeny nebyla v textu mezera (nepárová struktura), např. „70<g/>
. léta“.
Anotace SYN2020: změny oproti ostatním korpusům řady SYN
Tokenizace
V dosavadních korpusech řady SYN byly téměř všechny kombinace alfabetických, numerických a interpunčních znaků, které byly v originálních textech psány bez mezery, považovány za jeden token. Zvlášť byly tokenizovány pouze interpunkční znaky na hranicích slov (řekl , že) a některé další kombinace, např. spojovník před příklonkou li (mohu - li).
V SYN2020 je přístup opačný: numerické a interpunkční znaky jsou systematicky oddělovány jako samostatné tokeny (v místě rozdělení se anotuje struktura <g/>
, která tak uchovává informaci o toku původního textu), pohromadě však zůstávají některé kombinace znaků podle předem vymezených pravidel a seznamů slov (dohromady se tokenizují např. slova jako česko-německý, wi-fi, r’n’b, Jang-c’-ťiang, CO2, 12letý). Tyto principy jsou představeny na stránce tokenizace.
Lemmatizace
Zásadní změnou v korpusu SYN2020 je zavedení tzv. dvojúrovňové lemmatizace: každý tvar má nyní vedle atributu lemma přiřazen i atribut sublemma. Zatímco lemma sdružuje v souladu s dřívějšími korpusy řady SYN i více variant jednoho slova (např. lemma filozofie reprezentuje všechny tvary s kořenem filozof i filosof), sublemmata vymezují podskupiny tvarů podle této variantnosti (sublemma filozofie reprezentuje jen tvary s kořenem filozof, sublemma filosofie jen tvary s kořenem filosof). Pokud je slovo nevariantní, sublemma je totožné s lemmatem (např. lemma kniha reprezentuje stejnou množinu tvarů jako sublemma kniha).
Jako sublemmata jsou řešeny různé typy variant (např. mýdlo/mejdlo, okno/vokno, citron/citrón, email/e-mail, myslet/myslit, mýt/mejt, péci/péct/píct, kuchyně/kuchyň, antivirus/antivir, sedm/sedum, tenhle/tendle/tenle, ačkoli/ačkoliv, propriální Robert/Róbert/Roberto, Atény/Athény) a jejich pomocí jsou odlišeny i některé specifické skupiny tvarů, které jsou tradičně zahrnuty pod jedním lemmatem (např. negované tvary u adjektiv a adverbií černý/nečerný, hezky/nehezky, jmenné tvary adjektiv mladý/mlád, supletivní tvary dobře/lépe/líp, člověk/lidé).
V souvislosti s těmito změnami byla oproti předchozím korpusům řady SYN lemmatizace významně zpřesněna, řada lemmat byla opravena a dalších několik desítek tisíc lemmat je v korpusu SYN2020 nově rozpoznáno. Podrobný popis změn je uveden na stránce lemmatizace.
Morfologické značkování (tag)
Morfologická značka (tag) má počínaje korpusem SYN2020 15 pozic (místo dřívějších 16 pozic). Značení slovesného vidu se přesouvá ze zrušené 16. pozice na původně neobsazenou 13. pozici, jinak je struktura tagu totožná s dosavadními korpusy řady SYN.
K samotným změnám ve značení dochází na třech pozicích v tagu. Na 1. pozici (slovní druh) se nově rozlišují hodnoty F (cizí slovo), B (zkratka) a S (segment). Zároveň bylo přehodnoceno slovnědruhové zařazení některých slov a tvarů (především v oblasti číslovek, predikativ a jmenných tvarů adjektiv). Na 2. pozici (detailní určení slovního druhu) byly v souvislosti s novými slovními druhy zavedeny nové značky a naopak jiné byly zrušeny. Komplexně bylo upraveno členění číslovek (např. hodnota z se nově používá pro číslovky sto, tisíc, milion původně značené jako substantiva) a také vznikla značka 0 pro identifikaci nekoncové interpunkce. K jedné změně dochází na 15. pozici (varianta): číslo 8 (dosud vyhrazené zkratkám) se nově využívá jako značka pro další hovorovou variantu.
Spolehlivost automatické lemmatizace a automatického značkování korpusu SYN2020 je znatelně vyšší než u předcházejících korpusů řady SYN. Podrobný přehled změn je uveden na stránce morfologické značkování.
Značkování sloves (verbtag)
Nová slovesná značka (verbtag) obsahuje morfologické informace o celém slovesném tvaru nezávisle na tom, zda se jedná o tvar složený (viděl jsem), nebo jednoduchý (vidím). Ve verbtagu se jednak odlišuje pomocné sloveso od plnovýznamového, jednak jsou u každého plnovýznamového tvaru slovesa dále uvedeny kategorie způsobu, slovesného rodu, osoby, čísla a času (platné pro celý slovesný tvar). Slovesná značka je uvedena u každého tokenu v korpusu, hodnoty nabývá ale jen u sloves (a s jednou výjimkou u deverbativních adjektiv). Kompletní představení je na stránce verbtag.
Vícenásobná lemmatizace a značkování (agregát)
V korpusu SYN2020 jsou nově zavedena vícenásobná lemmata a značky pro zvláštní skupinu slov, tzv. agregáty. Agregáty jsou slova, která se v češtině píšou jako jedno slovo, ale z pohledu syntaxe či určování gramatických kategorií se chovají jako slova dvě (výjimečně tři). Jedná se o kondicionálové spojky (aby, kdyby), spojení slov s příklonkou s (dělalas, viděls, komus, vždyťs), spojení předložek s některými zájmeny (nač, očpak, zaň), případně kombinace posledních dvou typů (načs). U každého z těchto slov se uvádějí současně dvě (případně tři) lemmata, sublemmata, tagy a verbtagy podle jejich jednotlivých částí. Podrobněji k agregátům na stránce agregáty. V terminologii standardu Universal Dependencies se o těchto tokenech mluví jako o víceslovných tokenech, „multiword tokens“.
Automatická anotace korpusu
Celý proces anotace SYN2020 probíhá automaticky. Podrobný postup anotace včetně údajů o míře úspěšnosti je popsán na stránce automatická anotace. Najdete zde i bibliografické údaje k softwarovým nástrojům a k datům, které byly pro značkování využity; píšete-li článek či jiný akademický text s využitím značkování (lemmat, tagů, verbtagů, syntaktického značkování), je vhodné ocitovat nástroje, které byly použity k vytvoření anotace.
Jak citovat SYN2020
Křen, M. – Cvrček, V. – Henyš, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Milička, J. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Šindlerová, J. – Škrabal, M.: SYN2020: reprezentativní korpus psané češtiny. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz
Jelínek, T. – Křivan, J. – Petkevič, V. – Skoumalová, H. – Šindlerová, J. (2021): SYN2020: A new corpus of Czech with an innovated annotation. In: K. Ekštein – F. Pártl – M. Konopík (eds.), Text, Speech, and Dialogue. TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, 48–59.
Křivan, J. – Šindlerová, J. (2022): Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu. Slovo a slovesnost, 83, 2/2022, 122–145.