Nastavení

Korpus SYN2020

Korpus SYN2020 je synchronní reprezentativní a referenční korpus současné psané češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce (tokenů). Navazuje na předchozí korpusy řady SYN (SYN2000, SYN2005, SYN2010 a SYN2015), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, která předcházela jeho zveřejnění; SYN2020 je tak zaměřen na období 2015–2019. Žádný z textů v SYN2020 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2020 je lemmatizovaný a morfologicky tagovaný, stejně jako korpus SYN2015 obsahuje i syntaktické značkování, ve srovnání s ostatními korpusy však v anotaci přináší celou řadu změn (viz samostatná sekce níže).

Koncepce SYN2020 se z hlediska složení korpusu, klasifikace textů a pojetí synchronie plně shoduje s korpusem SYN2015.

Název SYN2020
Pozice Počet pozic (tokenů) 121 826 797
Počet pozic bez interpunkce 100 031 037
Počet slovních tvarů (wordů) 1 701 465
Počet lemmat 726 822
Struktury Počet dokumentů <doc> 3 910
Počet textů <text> 114 211
Počet odstavců <p> 2 855 289
Počet vět <s> 7 997 312
Další informace Referenční ANO
Reprezentativní ANO (viz klasifikace textů)
Rok zveřejnění 2020

Složení korpusu SYN2020

Reprezentativnost

Z hlediska reprezentativnosti je složení textů v korpusu SYN2020 arbitrární: tři hlavní textové makrotypy – beletrie (FIC), oborová literatura (NFC) a publicistika (NMG) – jsou zastoupeny stejným dílem (tj. vždy jednou třetinou). Cílem bylo zahrnout co nejširší spektrum různých typů veřejných psaných (tištěných) komunikátů, které jako celek reprezentují současnou psanou češtinu; neodráží však jazykovou populaci v přesně daných proporcích, tedy reálný poměr výskytu textů ani jejich recepci. Platí přitom, že pojetí psanosti bylo počínaje korpusem SYN2015 zúženo pouze na jazyk tištěný a veřejně publikovaný; ani korpus SYN2020 tedy neobsahuje např. nápisy ve veřejném prostoru, soukromé dopisy, plakáty nebo další tzv. efemera a nejsou do něj zahrnuty ani texty publikované pouze na internetu (pro ty existují speciální korpusy internetové češtiny, např. NET či ONLINE)

Klasifikace textů

Klasifikace textů v SYN2020 je založena na externích, mimotextových kritériích a je hierarchická. Nejvyšší úroveň txtype_group určuje tři již zmíněné makrotypy textů: beletrii, oborovou literaturu a publicistiku, z nichž každý je zastoupen stejným dílem; další úroveň členění představuje txtype, vydělující např. v rámci beletrie prózu (romány vedle povídek), poezii a drama. Nejjemnější úroveň klasifikace textů pak představuje tzv. genre, jemuž je u textů oborové literatury (NFC) ještě nadřazena souhrnná kategorie genre_group – takto jsou třeba matematika (MAT), technika (TEC) a výpočetní technika (ICT) sloučeny jako jednotlivé disciplíny formálních a technických věd (FTS).

Podrobnosti o složení a klasifikaci najdete zde: přehledný souhrn jednotlivých kategorií včetně zkratek.

Txtype_group Podíl
FIC: beletrie 33,33 %
NFC: oborová literatura 33,33 %
NMG: publicistika 33,33 %

Pojetí synchronie

Vycházíme z předpokladu, že za synchronní lze považovat text, který se stále čte (resp. vydává), což v praxi indikuje rok vydání. Hranice synchronie se však u tří hlavních makroskupin liší:

  • pro beletrii platí strategie 25 + 75, tj. doba od prvního vydání nepřesahuje 75 let (přibližně tři žijící generace) a konkrétní vydání díla zařazovaného do korpusu není starší 25 let (zajištění současné recepce),
  • u odborných textů platí požadavek prvního vydání v posledních 25 letech,
  • hranice synchronie publicistických titulů zůstává nezměněna, tj. text musí být vydán v období mapovaném daným korpusem (v případě SYN2020 je to období let 2015 až 2019).

Struktura korpusu SYN2020 a strukturní značky

Nejvyšší strukturní jednotkou je ve shodě s mezinárodní konvencí dokument <doc>, který se skládá z jednoho nebo několika textů <text> (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců <p> a vět <s>. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.

<doc> Poznámka <text> Poznámka <p> Poznámka <s> Poznámka
title název dokumentu nebo periodika section generovaný typ rubriky (u vybraných periodik) type běžný odstavec/nadpis id jednoznačný identifikátor
subtitle podtitul section_orig původní název rubriky (u vybraných periodik) id jednoznačný identifikátor
author autor dokumentu author autor článku (u vybraných periodik)
issue vydání (u periodik) id jednoznačný identifikátor
publisher vydavatel
pubplace místo vydání
pubyear rok vydání
first_published rok 1. vydání
translator překladatel
srclang zdrojový jazyk
authsex pohlaví autora
transsex pohlaví překladatele
txtype_group skupina textových typů
txtype textový typ
genre_group skupina oborů
genre tematická oblast
medium médium
periodicity periodicita
audience adresát
isbnissn ISBN/ISSN
biblio generovaný bibliografický údaj
id jednoznačný identifikátor

Kromě výše uvedených hierarchických struktur jsou v korpusu zaznamenány také následující struktury:

  • <hi>: zvýraznění a řezy písma (pouze tam, kde byly zachyceny ve vstupním formátu);
  • <lb>: označení hranice verše v poezii;
  • <head> označení nadpisů (pouze tam, kde byly zachyceny ve vstupním formátu);
  • <table/> místo, kde byla v původním textu tabulka (nepárová struktura);
  • <ref/> místo, kde byl v původním textu webový odkaz (nepárová struktura);
  • <email/> místo, kde byla v původním textu e-mailová adresa (nepárová struktura);
  • <graphic/> místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura);
  • <geo/> místo, kde byly v původním textu GPS souřadnice (nepárová struktura)
  • <g/> místo, kde mezi dvěma po sobě následujícími tokeny nebyla v textu mezera (nepárová struktura), např. „70<g/>. léta“.

Anotace SYN2020: změny oproti ostatním korpusům řady SYN

Tokenizace

V dosavadních korpusech řady SYN byly téměř všechny kombinace alfabetických, numerických a interpunčních znaků, které byly v originálních textech psány bez mezery, považovány za jeden token. Zvlášť byly tokenizovány pouze interpunkční znaky na hranicích slov (řekl , že) a některé další kombinace, např. spojovník před příklonkou li (mohu - li).

V SYN2020 je přístup opačný: numerické a interpunkční znaky jsou systematicky oddělovány jako samostatné tokeny (v místě rozdělení se anotuje struktura <g/>, která tak uchovává informaci o toku původního textu), pohromadě však zůstávají některé kombinace znaků podle předem vymezených pravidel a seznamů slov (dohromady se tokenizují např. slova jako česko-německý, wi-fi, r’n’b, Jang-c’-ťiang, CO2, 12letý). Tyto principy jsou představeny na stránce tokenizace.

Lemmatizace

Zásadní změnou v korpusu SYN2020 je zavedení tzv. dvojúrovňové lemmatizace: každý tvar má nyní vedle atributu lemma přiřazen i atribut sublemma. Zatímco lemma sdružuje v souladu s dřívějšími korpusy řady SYN i více variant jednoho slova (např. lemma filozofie reprezentuje všechny tvary s kořenem filozof i filosof), sublemmata vymezují podskupiny tvarů podle této variantnosti (sublemma filozofie reprezentuje jen tvary s kořenem filozof, sublemma filosofie jen tvary s kořenem filosof). Pokud je slovo nevariantní, sublemma je totožné s lemmatem (např. lemma kniha reprezentuje stejnou množinu tvarů jako sublemma kniha).

Jako sublemmata jsou řešeny různé typy variant (např. mýdlo/mejdlo, okno/vokno, citron/citrón, email/e-mail, myslet/myslit, mýt/mejt, péci/péct/píct, kuchyně/kuchyň, antivirus/antivir, sedm/sedum, tenhle/tendle/tenle, ačkoli/ačkoliv, propriální Robert/Róbert/Roberto, Atény/Athény) a jejich pomocí jsou odlišeny i některé specifické skupiny tvarů, které jsou tradičně zahrnuty pod jedním lemmatem (např. negované tvary u adjektiv a adverbií černý/nečerný, hezky/nehezky, jmenné tvary adjektiv mladý/mlád, supletivní tvary dobře/lépe/líp, člověk/lidé).

V souvislosti s těmito změnami byla oproti předchozím korpusům řady SYN lemmatizace významně zpřesněna, řada lemmat byla opravena a dalších několik desítek tisíc lemmat je v korpusu SYN2020 nově rozpoznáno. Podrobný popis změn je uveden na stránce lemmatizace.

Morfologické značkování (tag)

Morfologická značka (tag) má počínaje korpusem SYN2020 15 pozic (místo dřívějších 16 pozic). Značení slovesného vidu se přesouvá ze zrušené 16. pozice na původně neobsazenou 13. pozici, jinak je struktura tagu totožná s dosavadními korpusy řady SYN.

K samotným změnám ve značení dochází na třech pozicích v tagu. Na 1. pozici (slovní druh) se nově rozlišují hodnoty F (cizí slovo), B (zkratka) a S (segment). Zároveň bylo přehodnoceno slovnědruhové zařazení některých slov a tvarů (především v oblasti číslovek, predikativ a jmenných tvarů adjektiv). Na 2. pozici (detailní určení slovního druhu) byly v souvislosti s novými slovními druhy zavedeny nové značky a naopak jiné byly zrušeny. Komplexně bylo upraveno členění číslovek (např. hodnota z se nově používá pro číslovky sto, tisíc, milion původně značené jako substantiva) a také vznikla značka 0 pro identifikaci nekoncové interpunkce. K jedné změně dochází na 15. pozici (varianta): číslo 8 (dosud vyhrazené zkratkám) se nově využívá jako značka pro další hovorovou variantu.

Spolehlivost automatické lemmatizace a automatického značkování korpusu SYN2020 je znatelně vyšší než u předcházejících korpusů řady SYN. Podrobný přehled změn je uveden na stránce morfologické značkování.

Značkování sloves (verbtag)

Nová slovesná značka (verbtag) obsahuje morfologické informace o celém slovesném tvaru nezávisle na tom, zda se jedná o tvar složený (viděl jsem), nebo jednoduchý (vidím). Ve verbtagu se jednak odlišuje pomocné sloveso od plnovýznamového, jednak jsou u každého plnovýznamového tvaru slovesa dále uvedeny kategorie způsobu, slovesného rodu, osoby, čísla a času (platné pro celý slovesný tvar). Slovesná značka je uvedena u každého tokenu v korpusu, hodnoty nabývá ale jen u sloves (a s jednou výjimkou u deverbativních adjektiv). Kompletní představení je na stránce verbtag.

Vícenásobná lemmatizace a značkování (agregát)

V korpusu SYN2020 jsou nově zavedena vícenásobná lemmata a značky pro zvláštní skupinu slov, tzv. agregáty. Agregáty jsou slova, která se v češtině píšou jako jedno slovo, ale z pohledu syntaxe či určování gramatických kategorií se chovají jako slova dvě (výjimečně tři). Jedná se o kondicionálové spojky (aby, kdyby), spojení slov s příklonkou s (dělalas, viděls, komus, vždyťs), spojení předložek s některými zájmeny (nač, očpak, zaň), případně kombinace posledních dvou typů (načs). U každého z těchto slov se uvádějí současně dvě (případně tři) lemmata, sublemmata, tagy a verbtagy podle jejich jednotlivých částí. Podrobněji k agregátům na stránce agregáty. V terminologii standardu Universal Dependencies se o těchto tokenech mluví jako o víceslovných tokenech, „multiword tokens“.

Automatická anotace korpusu

Celý proces anotace SYN2020 probíhá automaticky. Podrobný postup anotace včetně údajů o míře úspěšnosti je popsán na stránce automatická anotace. Najdete zde i bibliografické údaje k softwarovým nástrojům a k datům, které byly pro značkování využity; píšete-li článek či jiný akademický text s využitím značkování (lemmat, tagů, verbtagů, syntaktického značkování), je vhodné ocitovat nástroje, které byly použity k vytvoření anotace.

Jak citovat SYN2020

Křen, M. – Cvrček, V. – Henyš, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kováříková, D. – Křivan, J. – Milička, J. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Šindlerová, J. – Škrabal, M.: SYN2020: reprezentativní korpus psané češtiny. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz