Toto je starší verze dokumentu!
Obsah
Struktura Českého národního korpusu
Korpusy ČNK reprezentují buď psanou češtinu, a to z pohledu synchronního nebo diachronního, nebo češtinu mluvenou, v níž máme k dispozici jen data současná. Paralelní korpusy, které jsou rovněž součástí ČNK, umožňují analyzovat jazyk překladů. Mimo tuto základní klasifikaci pak leží korpusy specializované.
Přistupovat k nim lze přes různá rozhraní (zvaná též korpusové manažery) - např. rozhraníXX a Park.
Korpusy psané současné češtiny (řada SYN)
Obecné
Do řady SYN – tedy mezi synchronní korpusy - řadíme stomilionové referenční, žánrově vyvážené korpusy vytvářené s odstupem pěti let SYN2010, SYN2005, SYN2000, i obsáhlejší referenční (avšak žánrově nevyvážené) korpusy složené pouze z publicistických textů SYN2009PUB, SYN2006PUB; spojení všech těchto nezměnitelných, lemmatizovaných a anotovaných korpusů představuje největší korpus SYN.
Specializované
Mezi korpusy, které zpřístupňují úzce vymezený jazyk, patří korpus češtiny jakožto druhého jazyka CzeSL (Czech as a Second Language), v němž jsou obsaženy akademické práce cizinců i žákovské práce romských žáků czesl-plain, korpus soukromé korespondence KSK-dopisy, „Lingvistův narozeninový korpus“ obsahující odborné lingvistické texty LINK, text románu George Orwella 1984 značkovaný původními značkami projektu EU Multext-East orw-mte i značkovaný standardními značkami orwell, a závěrem pak soubor písemných prací českých žáků, který obsahuje řadu sociolingvistických a didaktických informací Skript2012.
Korpusy mluvené
O neformální, dialogické, mluvené češtině se nejvíc dozvíme z korpusů řady ORAL, tvoří ji milionový ORAL2006 a stejně rozsáhlý ORAL2008 a do konce roku 2013 přibude i zhruba třímilionový ORAL2013. Ten nabídne i informace o moravských nářečích. Všechny korpusy řady ORAL pak obsahují řadu sociolingvistických informací.
Brněnskou češtinu z let 1994-1999 obsahuje v téměř pěti stech tisícich slovech Brněnský mluvený korpus, Pražský mluvený korpus jakožto první korpus mluvené češtiny má téměř sedm set tisíc slov založených na nahrávkách z let 1988-1996.
Korpus vyučovacích hodin SCHOLA2010 obsahuje 790 000 slov pronesených o školních hodinách učiteli i žáky - mluva dětí a mládeže jinak v mluvených korpusech řady Oral zachycena není.
Pouze ORAL2013 bude nabízet přístup i ke zvukové stopě, ostatní korpusy mluvené češtiny obsahují transkripci, která zachycuje a zohledňuje vybrané jevy mluveného jazyka.
Diachronní korpus
Korpus DIAKORP je nereferenční a doposud nelemmatizovaný soubor textů pokrývajících sedm století vývoje češtiny. Není referenční, současné 2 miliony slovních tvarů tudíž neustále narůstají.
Cizojazyčné korpusy
Jednojazyčné
ČNK nezpřístupňuje pouze své vlastní korpusy, ale hostuje i řadu korpusů vytvořených jinde. Jedná se např. o DOTKO a HOTKO, nereferenční korpusy dolní a horní lužické srbštiny, které obsahují 12 a 36 milionů slov. Korpusy nejsou ani lemmatizované ani morfologicky označkované.
Od r. 2013 naše rozhraní zpřístupňuje též webový korpus němčiny deWaC a francouzštiny frWaC, oba zvící 1350 milionů slov, italský itWaC s 1600 miliony slov a webový korpus britské angličtiny ukWaC s 1900 miliony.
Paralelní
Paralelní korpusy jsou zpřístupňované tak, aby se mohly zobrazit k sobě zarovnané ekvivalentní věty v překladech. V současné době paralelní korpus InterCorp obsahuje 138 milionů slov v tzv. jádru skládajícím se především z beletrie a 728 milionů slov v tzv. kolekcích (jejichž zarovnání není ručně kontrolované).
Včetně britské angličtiny a češtiny jakožto pivotu - jazyka, k němuž jsou zarovnané ostatní texty - nyní InterCorp obsahuje 33 složek, vedle řady očekávatelných evropských jazyků i třeba hindštinu, arabštinu nebo katalánštinu.
Související
rozhraní, Z jakých korpusů se skládá Český národní korpus?
— Olga Richterová