Struktura Českého národního korpusu

Korpusy ČNK reprezentují buď psanou češtinu – a to z pohledu synchronního, nebo diachronního –, anebo češtinu mluvenou, v níž máme k dispozici především data současná. Paralelní korpusy, které jsou rovněž součástí ČNK, umožňují analyzovat jazyk překladů. Mimo tuto základní klasifikaci pak leží korpusy specializované.

Ke korpusům lze přes různá rozhraní (zvaná též korpusové manažery) – v současnosti zejména KonText.

Korpusy psané současné češtiny (řada SYN)

Obecné

Do řady SYN – tedy mezi synchronní korpusy – řadíme stomilionové žánrově vyvážené korpusy vytvářené s odstupem pěti let SYN2020, SYN2015, SYN2010, SYN2005, SYN2000, i obsáhlejší (avšak žánrově nevyvážené) korpusy složené pouze z publicistických textů SYN2013PUB, SYN2009PUB, SYN2006PUB. Spojení všech těchto nezměnitelných, lemmatizovaných a anotovaných korpusů představuje největší korpus SYN.

Všechny korpusy řady SYN jsou od roku 2014 plně referenční, tj. neměnné. Korpus SYN je verzovaný, což znamená, že je referenční v jednotlivých verzích, které se vydávají každý rok.

Webové

Korpusy, jejichž obsah tvoří texty, které jsou k dispozici na internetu, jsou použitelné jednak pro studium specifik internetové komunikace a jednak pro studium diskurzu. Za prvním účelem je v ČNK vyvíjena řada NET, kde jsou texty odrážející charakteristické rysy polooficiální online komunikace (konkrétně zahrnuje diskusní fóra a osobní blogy). Studium aktuálního diskurzu a probíhajících jazykových změn umožňuje korpus ONLINE, který je tvořen webovou žurnalistikou, sociálními sítěmi a diskusemi a který je každodenně aktualizován.

Vedle toho ČNK hostuje několik webových korpusů, jejichž primárním cílem je zpřístupnit velké objemy dat, konkrétně skupinu srovnatelných korpusů řady Aranea pro 14 jazyků a řady WaC pro angličtinu, němčinu, francouzštinu a italštinu.

Specializované

Mezi korpusy, které zpřístupňují úzce vymezený jazyk, patří korpus češtiny jakožto druhého jazyka CzeSL (Czech as a Second Language), v němž jsou obsaženy akademické práce cizinců i žákovské práce romských žáků czesl-plain, korpus soukromé korespondence KSK-dopisy, „Lingvistův narozeninový korpus“ obsahující odborné lingvistické texty LINK, text románu George Orwella 1984 značkovaný původními značkami projektu EU Multext-East orw-mte i standardními značkami orwell, a závěrem pak soubor písemných prací českých žáků, který obsahuje řadu sociolingvistických a didaktických informací Skript2012.

Korpusy mluvené

O neformální, dialogické, mluvené češtině se nejvíc dozvíme z korpusů řady ORAL. Tvoří ji korpusy ORAL2013 (2,8 mil.), ORAL2008 (1 mil.) a ORAL2006 (1 mil.). Všechny korpusy řady ORAL obsahují řadu sociolingvistických informací o mluvčích. Pouze ORAL2013 nabízí data z celé ČR a přístup i ke zvukové stopě, ostatní korpusy mluvené češtiny obsahují transkripci, která zachycuje a zohledňuje vybrané jevy mluveného jazyka. Tuto linii následuje korpus ORTOFON.

Brněnskou češtinu z let 1994–1999 obsahuje v téměř pěti stech tisících slovech Brněnský mluvený korpus, Pražský mluvený korpus jakožto první korpus mluvené češtiny má téměř sedm set tisíc slov založených na nahrávkách z let 1988–1996.

Specializovaný korpus vyučovacích hodin SCHOLA2010 obsahuje 790 000 slov pronesených o školních hodinách učiteli i žáky - mluva dětí a mládeže jinak v mluvených korpusech řady Oral zachycena není.

Korpus DIALEKT prezentuje tradiční teritoriální dialekty zachycené na území celé České republiky. Ve své první verzi obsahuje cca 100 000 slov a bude se postupně rozšiřovat. Nahrávky pocházejí ze dvou období: starší zahrnuje dobu od konce 50. let do 80. let 20. století, do nové vrstvy jsou zařazeny nahrávky z období od 90. let 20. století až do současnosti. Nářeční materiál je zpracováván tak, že má dvě úrovně přepisu: dialektologickou a ortografickou.

Diachronní korpus

Korpus DIAKORP je verzovaný (tj. referenční v jednotlivých verzích) a doposud nelemmatizovaný soubor textů pokrývajících sedm století vývoje češtiny. Texty v korpusu jsou transkribovány (nikoli transliterovány), což umožňuje v něm vyhledávat výskyty konkrétních tvarů a podob jednotlivých slov stejným způsobem jako v korpusu synchronním.

Cizojazyčné korpusy

Jednojazyčné

ČNK nezpřístupňuje pouze své vlastní korpusy, ale hostuje i řadu korpusů vytvořených jinde. Jedná se např. o DOTKO a HOTKO, nereferenční korpusy dolní a horní lužické srbštiny, které obsahují 12 a 36 milionů slov. Korpusy nejsou ani lemmatizované, ani morfologicky označkované.

V rozhraní Kontext jsou rovněž přístupné rozsáhlé webové korpusy vytvořené mimo ČNK:

rodina korpusů WaC (pro němčinu deWaC, francouzštinu frWaC, italštinu itWaC a britskou angličtinu ukWaC)
rodina korpusů Aranea (pokrývající mnoho jazyků, mj. cs, de, en, es, fi, fr, hu, it, nl, pl, pt, ru, sk, zh)

Paralelní

Paralelní vícejazyčný korpus InterCorp slouží ke kontrastivnímu a translatologickému zkoumání. Obsahuje texty v několika jazykových mutacích (vždy je přítomna česká verze), které jsou k sobě vzájemně zarovnané po větách. InterCorp je verzovaný korpus, tj. zpětně plně dostupný v jednotlivých verzích, které přibývají zhruba jednou ročně.

InterCorp se skládá ze dvou částí: jádra (core) a kolekcí (collections). Jádro korpusu InterCorp tvoří převážně beletristické texty s ručními korekturami zarovnání. Kolekce jsou tvořeny texty získanými ve více jazycích, zpracovanými a zarovnanými automaticky.