Struktura Českého národního korpusu

Korpusy ČNK reprezentují buď psanou češtinu, a to z pohledu synchronního nebo diachronního, nebo češtinu mluvenou, v níž máme k dispozici především data současná. Paralelní korpusy, které jsou rovněž součástí ČNK, umožňují analyzovat jazyk překladů. Mimo tuto základní klasifikaci pak leží korpusy specializované.

Ke korpusům lze přes různá rozhraní (zvaná též korpusové manažery) – v současnosti zejména KonText.

Korpusy psané současné češtiny (řada SYN)

Obecné

Do řady SYN – tedy mezi synchronní korpusy – řadíme stomilionové žánrově vyvážené korpusy vytvářené s odstupem pěti let SYN2015, SYN2010, SYN2005, SYN2000, i obsáhlejší (avšak žánrově nevyvážené) korpusy složené pouze z publicistických textů SYN2013PUB, SYN2009PUB, SYN2006PUB. Spojení všech těchto nezměnitelných, lemmatizovaných a anotovaných korpusů představuje největší korpus SYN.

Všechny korpusy řady SYN jsou od roku 2014 plně referenční, tj. neměnné. Korpus SYN je verzovaný, což znamená, že je referenční v jednotlivých verzích, které se vydávají každý rok.

Specializované

Mezi korpusy, které zpřístupňují úzce vymezený jazyk, patří korpus češtiny jakožto druhého jazyka CzeSL (Czech as a Second Language), v němž jsou obsaženy akademické práce cizinců i žákovské práce romských žáků czesl-plain, korpus soukromé korespondence KSK-dopisy, „Lingvistův narozeninový korpus“ obsahující odborné lingvistické texty LINK, text románu George Orwella 1984 značkovaný původními značkami projektu EU Multext-East orw-mte i standardními značkami orwell, a závěrem pak soubor písemných prací českých žáků, který obsahuje řadu sociolingvistických a didaktických informací Skript2012.

Korpusy mluvené

O neformální, dialogické, mluvené češtině se nejvíc dozvíme z korpusů řady ORAL. Tvoří ji korpusy ORAL2013 (2,8 mil.), ORAL2008 (1 mil.) a ORAL2006 (1 mil.). Všechny korpusy řady ORAL obsahují řadu sociolingvistických informací o mluvčích. Pouze ORAL2013 nabízí data z celé ČR a přístup i ke zvukové stopě, ostatní korpusy mluvené češtiny obsahují transkripci, která zachycuje a zohledňuje vybrané jevy mluveného jazyka. Tuto linii následuje korpus ORTOFON.

Brněnskou češtinu z let 1994-1999 obsahuje v téměř pěti stech tisících slovech Brněnský mluvený korpus, Pražský mluvený korpus jakožto první korpus mluvené češtiny má téměř sedm set tisíc slov založených na nahrávkách z let 1988-1996.

Specializovaný korpus vyučovacích hodin SCHOLA2010 obsahuje 790 000 slov pronesených o školních hodinách učiteli i žáky - mluva dětí a mládeže jinak v mluvených korpusech řady Oral zachycena není.

Korpus DIALEKT prezentuje tradiční teritoriální dialekty zachycené na území celé České republiky pomocí přepisů nahrávek, které obsahují více než 19 000 slovních tvarů. Nahrávky pocházejí ze dvou období, starší zahrnuje dobu od konce 50. let do 80. let 20. století, do nové vrstvy jsou zařazeny nahrávky z období od 90. let 20. století až do současnosti. Nářeční materiál je zpracováván tak, že má dvě úrovně přepisu – dialektologickou a ortografickou.

Diachronní korpus

Korpus DIAKORP je verzovaný (tj. referenční v jednotlivých verzích) a doposud nelemmatizovaný soubor textů pokrývajících sedm století vývoje češtiny. Texty v korpusu jsou transkribovány (nikoli transliterovány), což umožňuje v něm vyhledávat výskyty konkrétních tvarů a podob jednotlivých slov stejným způsobem jako v korpusu synchronním.

Cizojazyčné korpusy

Jednojazyčné

ČNK nezpřístupňuje pouze své vlastní korpusy, ale hostuje i řadu korpusů vytvořených jinde. Jedná se např. o DOTKO a HOTKO, nereferenční korpusy dolní a horní lužické srbštiny, které obsahují 12 a 36 milionů slov. Korpusy nejsou ani lemmatizované ani morfologicky označkované.

V rozhraní Kontext jsou rovněž přístupné rozsáhlé webové korpusy vytvořené mimo ČNK:

rodina korpusů WaC (pro němčinu deWaC, francouzštinu frWaC, italštinu itWaC a britskou angličtinu ukWaC)
rodina korpusů Aranea (pokrývající mnoho jazyků, mj. cs, de, en, es, fi, fr, hu, it, nl, pl, pt, ru, sk, zh)

Paralelní

Paralelní vícejazyčný korpus InterCorp slouží ke kontrastivnímu a translatologickému zkoumání. Obsahuje texty v několika jazykových mutacích (vždy je přítomna česká verze), které jsou k sobě vzájemně zarovnané po větách. InterCorp je verzovaný korpus, tj. zpětně plně dostupný v jednotlivých verzích, které přibývají zhruba jednou ročně.

InterCorp se skládá ze dvou částí, a to jádra (core) a kolekce (collection). Jádrem korpusu InterCorp jsou převážně beletristické texty s ručními korekturami zarovnání. Kolekce jsou texty získané ve více jazycích, zpracované a zarovnané automaticky.