Struktura Českého národního korpusu

Korpusy ČNK reprezentují buď psanou češtinu, a to z pohledu synchronního nebo diachronního, nebo češtinu mluvenou, v níž máme k dispozici především data současná. Paralelní korpusy, které jsou rovněž součástí ČNK, umožňují analyzovat jazyk překladů. Mimo tuto základní klasifikaci pak leží korpusy specializované.

Ke korpusům lze přes různá rozhraní (zvaná též korpusové manažery) – v současnosti zejména KonText.

Korpusy psané současné češtiny (řada SYN)

Obecné

Do řady SYN – tedy mezi synchronní korpusy - řadíme stomilionové referenční, žánrově vyvážené korpusy vytvářené s odstupem pěti let SYN2010, SYN2005, SYN2000, i obsáhlejší referenční (avšak žánrově nevyvážené) korpusy složené pouze z publicistických textů SYN2009PUB, SYN2006PUB. Spojení všech těchto nezměnitelných, lemmatizovaných a anotovaných korpusů představuje největší korpus SYN.

Specializované

Mezi korpusy, které zpřístupňují úzce vymezený jazyk, patří korpus češtiny jakožto druhého jazyka CzeSL (Czech as a Second Language), v němž jsou obsaženy akademické práce cizinců i žákovské práce romských žáků czesl-plain, korpus soukromé korespondence KSK-dopisy, „Lingvistův narozeninový korpus“ obsahující odborné lingvistické texty LINK, text románu George Orwella 1984 značkovaný původními značkami projektu EU Multext-East orw-mte i standardními značkami orwell, a závěrem pak soubor písemných prací českých žáků, který obsahuje řadu sociolingvistických a didaktických informací Skript2012.

Korpusy mluvené

O neformální, dialogické, mluvené češtině se nejvíc dozvíme z korpusů řady ORAL. Tvoří ji milionový ORAL2006 a stejně rozsáhlý ORAL2008 a do konce roku 2013 přibude i zhruba třímilionový ORAL2013. Ten nabídne informace také o moravských nářečích. Všechny korpusy řady ORAL pak obsahují řadu sociolingvistických informací.

Brněnskou češtinu z let 1994-1999 obsahuje v téměř pěti stech tisících slovech Brněnský mluvený korpus, Pražský mluvený korpus jakožto první korpus mluvené češtiny má téměř sedm set tisíc slov založených na nahrávkách z let 1988-1996.

Specializovaný korpus vyučovacích hodin SCHOLA2010 obsahuje 790 000 slov pronesených o školních hodinách učiteli i žáky - mluva dětí a mládeže jinak v mluvených korpusech řady Oral zachycena není.

Pouze ORAL2013 bude nabízet přístup i ke zvukové stopě, ostatní korpusy mluvené češtiny obsahují transkripci, která zachycuje a zohledňuje vybrané jevy mluveného jazyka.

Ve stadiu výstavby je korpus DIALEKT, který zpřístupní data z nářečních oblastí na území ČR (bude obsahovat především nahrávky z 60. a 70. let 20. století, čímž spadá pod korpusy diachronní.

Diachronní korpus

Korpus DIAKORP je nereferenční a doposud nelemmatizovaný soubor textů pokrývajících sedm století vývoje češtiny. Není referenční, současné 2 miliony slovních tvarů tudíž neustále narůstají.

Ve stadiu výstavby je nářeční diachronní korpus DIALEKT.

Cizojazyčné korpusy

Jednojazyčné

ČNK nezpřístupňuje pouze své vlastní korpusy, ale hostuje i řadu korpusů vytvořených jinde. Jedná se např. o DOTKO a HOTKO, nereferenční korpusy dolní a horní lužické srbštiny, které obsahují 12 a 36 milionů slov. Korpusy nejsou ani lemmatizované ani morfologicky označkované.

Od r. 2013 naše rozhraní KonText zpřístupňuje též webový korpus němčiny deWaC a francouzštiny frWaC, oba čítající 1350 milionů slov, italský itWaC s 1600 miliony slov a webový korpus britské angličtiny ukWaC s 1900 miliony.

Paralelní

Paralelní korpusy jsou zpřístupňované tak, aby se mohly zobrazit k sobě zarovnané ekvivalentní věty v překladech. V současné době paralelní korpus InterCorp obsahuje 138 milionů slov v tzv. jádru, skládajícím se především z beletrie a 728 milionů slov v tzv. kolekcích (jejichž zarovnání není ručně kontrolované).

Včetně britské angličtiny a češtiny jakožto pivotu – jazyka, k němuž jsou zarovnané ostatní texty - nyní InterCorp obsahuje 33 složek, vedle řady očekávatelných evropských jazyků i třeba hindštinu, arabštinu nebo katalánštinu.