Korpus

Jazykový korpus je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby v jednotném formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy, zejména slova a slovní spojení (kolokace). Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný.

Hlavní předností korpusu je vedle užití přirozeného jazykového materiálu i schopnost vypovídat o frekvenci (četnosti) jevů a jejich typickém úzu, což je informace jen pomocí badatelovy intuice nezjistitelná. Jelikož do korpusu vstupují texty jako celek, poskytuje na rozdíl třeba od lístkového katalogu nevýběrové informace o všech typech jazykových jevů.

Korpus a jeho využití

Latinské slovo corpus (znamenající „tělo, těleso“) se užívá v různých oborech, v lingvistice se od 50. let v angličtině a odtud i v dalších jazycích používá jako označení pro velký soubor elektronických textů, zpracovávaný a vytěžovaný specifickými softwarovými nástroji v počítači (pro odlišení se tu také někdy mluví o textových korpusech). Korpus je tedy záznamem a relativně objektivním modelem jazykové empirie (zkušenosti). Je a má být v základním, výchozím smyslu při svém zpracování zcela zbaven jakékoliv zkušenostmi nepodložené teorie a jiných vlivů, které jazyk nutně deformují a které by se do něj mohly promítat, ať je jejich autor míní sebelépe. Využívá ho (vedle jiných oborů) zvláště empirická lingvistika za účelem studia a poznání jazyka, resp. v širším smyslu i k poznání dobové reality, již jazyk zachycuje. V tomto smyslu je korpus autentických záznamů jazyka zdrojem specializovaného i obecného poznání jazykové a sociální reality. Navíc kvantitou, kvalitou, setrvalostí i kontinuitou informací, jež nabízí, svým významem přesahuje obor lingvistiky. Povahou a možnostmi své nabídky mnohonásobně předčí jakékoliv jiné zdroje poznání a studia jazyka.

Dnešní rozsahy největších korpusů se pohybují řádově už ve stamiliónech a miliardách slov a jimi nabízená informace je, na rozdíl od zdrojů tradiční lingvistiky založené na manuálních excerptech (výpiscích) a archivech, tak bohatá, že ji často nelze, bez použití dalších nástrojů, filtrů a zvláštních metod, bez rizika zahlcení informacemi přímo používat. Korpusy se liší od běžného elektronického archivu, tj. prostého úložiště daných textů s omezenými možnostmi prohledávání. Oproti archivu korpus vyniká nejen sofistikovaným korpusovým manažerem schopným zpracovat miliardy slov, řadou speciálních programů a obvykle i vnesenou (lingvistickou) anotací každého slova, ale i celkovým plánovaným zaměřením na určitý cíl se záměrem ho textově maximálně pokrýt. Obvykle se tu pak mluví o reprezentativnosti takového korpusu.

Žádný korpus není a nemůže být záznamem celého jazyka, ten ostatně k mání a komplexnímu přímému studiu nebyl nikdy: jazyk je v tomto smyslu všude kolem nás a jen jeho malá část je zapsaná v textech. Staré lexikální archivy, velmi výběrově ho mapující, jsou z dnešního hlediska malé a nedokonalé (pro srovnání např. český lexikální archiv ÚJČ má 12-13 miliónů excerpt). Ani v korpusu ale rozhodně není k nalezení všechno, především ne v oblasti mluveného jazyka, šance na víc informací však roste spolu s korpusy.

Obvykle, ne však vždy, se korpusy vybavují automatickou a různě pracnou anotací (tagováním), vnášející do něj většinou označení morfologického tvaru a slovního druhu (tj. označením takového tvaru a přidělením tvaru reprezentativního, tj. lemmatu), dosud většinou pouze na úrovni jednotlivých tvarů, tj. textových výskytů (tokenů) lexému. Automatické tagování víceslovných lemmat je dosud v počátcích. Tomuto vlastnímu lingvistickému značkování předchází důkladná bibliografická anotace zachycující řadu vnějších rysů textů, od autora, názvu, roku až po komplexně označovaný žánr aj.

Typy korpusů

Korpusy vznikají podle praktické potřeby uživatelů a jejich typologie se také od těchto potřeb odvíjí. Jejich obecné schéma lze podle jazyka a situace tudíž různě dál modifikovat. K hlavním typům patří korpus

z hlediska počtu jazyků: a) jednojazyčný a b) vícejazyčný
z hlediska tématu ap.: a) obecný a b) specializovaný,
z hlediska modu: a) psaný a b) mluvený,
z hlediska časového záběru: a) synchronní a b) diachronní,
z hlediska „archeologického“: a) synchronní a b) archivní
z hlediska vymezeného účelu různé

Ke specializovaným korpusům lze pro českou oblast počítat např. KSK (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj.

Mluvený korpus je ze své podstaty synchronní (pro češtinu jsou momentálně k dispozici už 4 menší, PMK, BMK, ORAL2006, ORAL2008), volně sem však patří i korpus nahrávek žáků ve škole SCHOLA2010, existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální).

Diachronní korpus je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší.

Specifickou roli mají korpusy, které plní roli archivační, ať už u jazyků vymírajících, resp. ohrožených, jako livonština u Baltu či všech 11 sámských (laponských) dialektů apod., anebo u jazyků už dávno mrtvých, srov. např. korpus ugaritštiny, starobabylonštiny aj.

Na základě dalších hledisek můžeme vymezit monitorovací korpus, který se chápe jako v ideálních proporcích sestavený a otagovaný korpus, k němuž se přidávají jak nové texty, tak nové značky k existujícím korpusům starým. To má umožňovat srovnání korpusového záznamu stavu jazyka (etalonu) se změnami napříč časem.

Paralelní korpusy jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusy, sdílející řadu textů a vázané na jeden jazyk, jako je český InterCorp. Z nedostatku paralelních korpusů se někdy užívají i srovnatelné korpusy (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem.

Český národní korpus (ČNK)

Projekt Českého národního korpusu byl založen v roce 1994 prof. Františkem Čermákem (institucionálně je zaštítěn Ústavem Českého národního korpusu při FF UK).

Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky:

synchronní korpusy psané, řada SYN
synchronní korpusy mluvené, zejm. řadu ORAL
diachronní korpus DIAKORP
paralelní korpus InterCorp

Přístup ke všem korpusům prostřednictvím webového rozhraní je bezplatný, z licenčních důvodů je nutná registrace. ČNK zároveň poskytuje možnost hostování i mnoha dalším korpusům.

Projekt ČNK se kromě budování korpusů (a tedy mapování jazykového stavu a vývoje češtiny) věnuje i zpřístupňování dat pro výzkumné účely zejména v oblasti automatického zpracování přirozeného jazyka (natural language processing, NLP), vývoji nových nástrojů pro vytěžování korpusů (např. SyD) a rozvoji metodologie korpusové lingvistiky i její popularizaci.