Struktura Českého národního korpusu

Korpusy ČNK reprezentují buď psanou češtinu, a to z pohledu synchronního nebo diachronního, nebo češtinu mluvenou, v níž máme k dispozici především data současná. Paralelní korpusy, které jsou rovněž součástí ČNK, umožňují analyzovat jazyk překladů. Mimo tuto základní klasifikaci pak leží korpusy specializované.

Přistupovat k nim lze přes různá rozhraní (zvaná též korpusové manažery) - v současnosti zejména KonText.

Korpusy psané současné češtiny (řada SYN)

Obecné

Do řady SYN – tedy mezi synchronní korpusy - řadíme stomilionové referenční, žánrově vyvážené korpusy vytvářené s odstupem pěti let SYN2010, SYN2005, SYN2000, i obsáhlejší referenční (avšak žánrově nevyvážené) korpusy složené pouze z publicistických textů SYN2009PUB, SYN2006PUB. Spojení všech těchto nezměnitelných, lemmatizovaných a anotovaných korpusů představuje největší korpus SYN.

Specializované

Mezi korpusy, které zpřístupňují úzce vymezený jazyk, patří korpus češtiny jakožto druhého jazyka CzeSL (Czech as a Second Language), v němž jsou obsaženy akademické práce cizinců i žákovské práce romských žáků czesl-plain, korpus soukromé korespondence KSK-dopisy, „Lingvistův narozeninový korpus“ obsahující odborné lingvistické texty LINK, text románu George Orwella 1984 značkovaný původními značkami projektu EU Multext-East orw-mte i standardními značkami orwell, a závěrem pak soubor písemných prací českých žáků, který obsahuje řadu sociolingvistických a didaktických informací Skript2012.

Korpusy mluvené

O neformální, dialogické, mluvené češtině se nejvíc dozvíme z korpusů řady ORAL. Tvoří ji milionový ORAL2006 a stejně rozsáhlý ORAL2008 a do konce roku 2013 přibude i zhruba třímilionový ORAL2013. Ten nabídne informace také o moravských nářečích. Všechny korpusy řady ORAL pak obsahují řadu sociolingvistických informací.

Brněnskou češtinu z let 1994-1999 obsahuje v téměř pěti stech tisících slovech Brněnský mluvený korpus, Pražský mluvený korpus jakožto první korpus mluvené češtiny má téměř sedm set tisíc slov založených na nahrávkách z let 1988-1996.

Specializovaný korpus vyučovacích hodin SCHOLA2010 obsahuje 790 000 slov pronesených o školních hodinách učiteli i žáky - mluva dětí a mládeže jinak v mluvených korpusech řady Oral zachycena není.

Pouze ORAL2013 bude nabízet přístup i ke zvukové stopě, ostatní korpusy mluvené češtiny obsahují transkripci, která zachycuje a zohledňuje vybrané jevy mluveného jazyka.

Ve stadiu výstavby je korpus DIALEKT, který zpřístupní data z nářečních oblastí na území ČR (bude obsahovat především nahrávky z 60. a 70. let 20. století, čímž spadá pod korpusy diachronní.

Diachronní korpus

Korpus DIAKORP je nereferenční a doposud nelemmatizovaný soubor textů pokrývajících sedm století vývoje češtiny. Není referenční, současné 2 miliony slovních tvarů tudíž neustále narůstají.

Ve stadiu výstavby je nářeční diachronní korpus DIALEKT.

Cizojazyčné korpusy

Jednojazyčné

ČNK nezpřístupňuje pouze své vlastní korpusy, ale hostuje i řadu korpusů vytvořených jinde. Jedná se např. o DOTKO a HOTKO, nereferenční korpusy dolní a horní lužické srbštiny, které obsahují 12 a 36 milionů slov. Korpusy nejsou ani lemmatizované ani morfologicky označkované.

Od r. 2013 naše rozhraní KonText zpřístupňuje též webový korpus němčiny deWaC a francouzštiny frWaC, oba čítající 1350 milionů slov, italský itWaC s 1600 miliony slov a webový korpus britské angličtiny ukWaC s 1900 miliony.

Paralelní

Paralelní korpusy jsou zpřístupňované tak, aby se mohly zobrazit k sobě zarovnané ekvivalentní věty v překladech. V současné době paralelní korpus InterCorp obsahuje 138 milionů slov v tzv. jádru, skládajícím se především z beletrie a 728 milionů slov v tzv. kolekcích (jejichž zarovnání není ručně kontrolované).

Včetně britské angličtiny a češtiny jakožto pivotu – jazyka, k němuž jsou zarovnané ostatní texty - nyní InterCorp obsahuje 33 složek, vedle řady očekávatelných evropských jazyků i třeba hindštinu, arabštinu nebo katalánštinu.