Korpus

Jazykový korpus (z lat. corpus „tělo, těleso“) je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby v jednotném formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy, zejména slova a slovní spojení (kolokace). Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný.

Hlavní předností korpusu je vedle užití přirozeného jazykového materiálu i schopnost vypovídat o frekvenci (četnosti) jevů a jejich typickém úzu, což je informace jen pomocí badatelovy intuice nezjistitelná. Jelikož do korpusu vstupují texty jako celek, poskytuje na rozdíl třeba od lístkového katalogu nevýběrové informace o všech typech jazykových jevů (navíc v rozsahu, který byl dříve nemyslitelný).

Korpus a jeho využití

Korpusy jsou budovány s cílem, aby sloužily jako záznam a pokud možno co nejobjektivnější model jazykové empirie. Ta je přirozeně zdrojem dat pro lingvistický výzkum, dnes se ovšem korpusy využívají i v jiných oblastech, které využívají texty jako zdroje poznání reality (historie, sociologie, psychologie apod.).

Vzhledem k rozsahu dnešních korpusů, které nezřídka přesahují hranici sto milionů slov, je nutné na jejich vytěžování používat speciální nástroje, korpusové manažery. Ty většinou umožňují vedle hledání a prohlížení výsledků také filtrování a jednoduché statistické vyhodnocování nalezených dat.

Rozsah ovšem není jediným kritériem kvality korpusu. Jakkoli rozsáhlý korpus je vždy jen vzorkem jazyka a z toho titulu je třeba na něj klást stejné nároky jako na každý jiný vzorek. Abychom mohli výsledky získané na vzroku (korpusu) vztáhnout na celou populaci (všechny texty, celý jazyk), je třeba zajistit, aby korpus byl vzhledem k populaci, kterou má zrcadlit, reprezentativní. V optimálním případě to znamená, že korpus je vzhledem k populaci, kterou reprezentuje, uspořádán tak, že se v něm objevují jevy ve stejných proporcích jako ve zkoumané populaci. Ačkoli existuje relativně rozsáhlá odborná literatura zabývající se precizním designem korpusů, je třeba konstatovat, že v této otázce je stále spousta nevyřešeného a míru reprezentativnosti stále nelze objektivně měřit.

Za účelem snazšího využití korpusů, jsou texty v nich obsažené často anotovány. Jde jednak o doplňování metainformací o textech (jejich původ, autorství atp.) a jednak o doplňování informací k jednotlivým jevům. Příkladem takové anotace je lemmatizace, tj. přiřazení slovníkové podoby každému tvaru (tokenu), nebo tagování, tj. přiřazení speciální značky (tagu), která popisuje gramatické nebo sémantické vlastnosti slov. V rámci ČNK jsou všechny korpusy opatřeny strukturními značkami zachycujícími metainformace o textech, pouze korpusy psané češtiny jsou však lemmatizovány a morfologicky tagovány.

Typy korpusů

Vznik korpusu by vždy měl být podřízen jeho účelu, od toho se odvíjí i jejich klasifikace. Korpusy třídit podle různých kritérií:

z hlediska počtu jazyků: a) jednojazyčný a b) vícejazyčný
z hlediska tématu ap.: a) obecný a b) specializovaný,
z hlediska modu: a) psaný a b) mluvený,
z hlediska časového záběru: a) synchronní a b) diachronní,
z hlediska „archeologického“: a) synchronní a b) archivní
z hlediska vymezeného účelu různé

Ke specializovaným korpusům lze pro českou oblast počítat např. KSK (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj.

Mluvený korpus je ze své podstaty synchronní (pro češtinu jsou momentálně k dispozici už 4 menší, PMK, BMK, ORAL2006, ORAL2008), volně sem však patří i korpus nahrávek žáků ve škole SCHOLA2010, existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální).

Diachronní korpus je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší.

Na základě dalších hledisek můžeme vymezit monitorovací korpus, který se chápe jako v ideálních proporcích sestavený a otagovaný korpus, k němuž se přidávají jak nové texty, tak nové značky k existujícím korpusům starým. To má umožňovat srovnání korpusového záznamu stavu jazyka (etalonu) se změnami napříč časem.

Paralelní korpusy jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusy, sdílející řadu textů a vázané na jeden jazyk, jako je český InterCorp. Z nedostatku paralelních korpusů se někdy užívají i srovnatelné korpusy (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem.

Český národní korpus (ČNK)

Projekt Českého národního korpusu byl založen v roce 1994 prof. Františkem Čermákem (institucionálně je zaštítěn Ústavem Českého národního korpusu při FF UK).

Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky:

synchronní korpusy psané, řada SYN
synchronní korpusy mluvené, zejm. řadu ORAL
diachronní korpus DIAKORP
paralelní korpus InterCorp

Přístup ke všem korpusům prostřednictvím webového rozhraní je bezplatný, z licenčních důvodů je nutná registrace. ČNK zároveň poskytuje možnost hostování i mnoha dalším korpusům.

Projekt ČNK se kromě budování korpusů (a tedy mapování jazykového stavu a vývoje češtiny) věnuje i zpřístupňování dat pro výzkumné účely zejména v oblasti automatického zpracování přirozeného jazyka (natural language processing, NLP), vývoji nových nástrojů pro vytěžování korpusů (např. SyD) a rozvoji metodologie korpusové lingvistiky i její popularizaci.