Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:korpus [2013/09/19 11:19] – vaclavcvrcek | pojmy:korpus [2021/10/23 05:06] (aktuální) – [Typy korpusů] michalskrabal |
---|
Rozsah ovšem není jediným kritériem kvality a spolehlivosti korpusu. Jakkoli rozsáhlý korpus je vždy jen vzorkem jazyka a z toho titulu je třeba na něj klást stejné nároky jako na každý jiný vzorek. Abychom mohli výsledky získané na vzorku (korpusu) vztáhnout na celou populaci (všechny texty, celý jazyk), je třeba zajistit, aby korpus byl vzhledem k populaci, kterou má zrcadlit, [[pojmy:reprezentativnost|reprezentativní]]. V optimálním případě to znamená, že korpus je vzhledem k populaci, kterou reprezentuje, uspořádán tak, že se v něm objevují jevy ve stejných proporcích jako ve zkoumané populaci. Ačkoli existuje relativně rozsáhlá odborná literatura zabývající se precizním designem korpusů, je třeba konstatovat, že v této otázce je mnoho nevyřešeného a míru reprezentativnosti stále nelze objektivně měřit. | Rozsah ovšem není jediným kritériem kvality a spolehlivosti korpusu. Jakkoli rozsáhlý korpus je vždy jen vzorkem jazyka a z toho titulu je třeba na něj klást stejné nároky jako na každý jiný vzorek. Abychom mohli výsledky získané na vzorku (korpusu) vztáhnout na celou populaci (všechny texty, celý jazyk), je třeba zajistit, aby korpus byl vzhledem k populaci, kterou má zrcadlit, [[pojmy:reprezentativnost|reprezentativní]]. V optimálním případě to znamená, že korpus je vzhledem k populaci, kterou reprezentuje, uspořádán tak, že se v něm objevují jevy ve stejných proporcích jako ve zkoumané populaci. Ačkoli existuje relativně rozsáhlá odborná literatura zabývající se precizním designem korpusů, je třeba konstatovat, že v této otázce je mnoho nevyřešeného a míru reprezentativnosti stále nelze objektivně měřit. |
| |
Pro usnadnění práce s korpusy jsou texty v nich obsažené často [[pojmy:anotace|anotovány]]. Jde jednak o doplňování [[pojmy:metadata|metainformací]] o textech (jejich původ, autorství atp.) a jednak o doplňování informací k jednotlivým jevům. Příkladem takové anotace je [[pojmy:lemma|lemmatizace]], tj. přiřazení slovníkové podoby každému tvaru ([[pojmy:token|tokenu]]), nebo [[pojmy:tag|tagování]], tj. přiřazení speciální značky (tagu), která popisuje gramatické nebo sémantické vlastnosti slov. V rámci [[cnk:uvod|ČNK]] jsou všechny korpusy opatřeny [[pojmy:atributy_strukturni|strukturními značkami]] zachycujícími metainformace o textech, pouze [[pojmy:psany|korpusy psané češtiny]] jsou však lemmatizovány a morfologicky tagovány. | Pro usnadnění práce s korpusy jsou texty v nich obsažené často [[pojmy:anotace|anotovány]]. Jde jednak o doplňování [[pojmy:metadata|metainformací]] o textech (jejich původ, autorství atp.) a jednak o doplňování informací k jednotlivým jevům. Příkladem takové anotace je [[pojmy:lemma|lemmatizace]], tj. přiřazení slovníkové podoby každému tvaru ([[pojmy:token|tokenu]]), nebo [[pojmy:tag|tagování]], tj. přiřazení speciální značky (tagu), která popisuje gramatické nebo sémantické vlastnosti slov. V rámci [[cnk:uvod|ČNK]] jsou všechny korpusy opatřeny [[pojmy:atributy_strukturni|strukturními značkami]] zachycujícími metainformace o textech, mimoto je většina korpusů lemmatizována a morfologicky tagována. |
| |
==== Využití v lingvistice ==== | ==== Využití v lingvistice ==== |
Vznik korpusu by vždy měl být podřízen jeho účelu, od toho se odvíjí i jejich klasifikace. Korpusy třídit podle různých kritérií: | Vznik korpusu by vždy měl být podřízen jeho účelu, od toho se odvíjí i jejich klasifikace. Korpusy třídit podle různých kritérií: |
| |
- z hlediska počtu jazyků: a) jednojazyčný a b) vícejazyčný | - z hlediska počtu jazyků: |
- z hlediska tématu ap.: a) obecný a b) specializovaný, | - jednojazyčný |
- z hlediska modu: a) psaný a b) mluvený, | - vícejazyčný |
- z hlediska časového záběru: a) synchronní a b) diachronní, | - z hlediska tématu ap.: |
- z hlediska „archeologického“: a) synchronní a b) archivní | - obecný |
| - specializovaný, |
| - z hlediska modu: |
| - psaný |
| - mluvený, |
| - z hlediska časového záběru: |
| - synchronní |
| - diachronní, |
- z hlediska vymezeného účelu různé | - z hlediska vymezeného účelu různé |
| |
Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj. | Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj. |
| |
**[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jsou momentálně k dispozici už 4 menší, [[cnk:pmk|PMK]], [[cnk:bmk|BMK]], [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]]), volně sem však patří i korpus nahrávek žáků ve škole [[cnk:schola2010|SCHOLA2010]], existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální). | **[[pojmy:psany|Psaný korpus]]** představuje dnes nejběžnější a nejpoužívanější typ korpusů. Jeho cílem je poskytnout vzorek úzu psaného jazyka (většinou se jedná o texty vytvořené i publikované v psané podobě) reprezentativní pro nějaký badatelský cíl. |
| |
| **[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jich je momentálně k dispozici celá řada, zejména [[cnk:oral|ORAL]], [[cnk:ortofon|ORTOFON]], [[cnk:dialekt|DIALEKT]]), volně sem však patří i korpus nahrávek žáků ve škole [[cnk:schola2010|SCHOLA2010]], existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální). |
| |
**[[pojmy:diachronni|Diachronní korpus]]** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší. | **[[pojmy:diachronni|Diachronní korpus]]** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší. |
**[[pojmy:paralelni|Paralelní korpusy]]** jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusy, sdílející řadu textů a vázané na jeden jazyk, jako je český [[cnk:intercorp|InterCorp]]. Z nedostatku paralelních korpusů se někdy užívají i **srovnatelné korpusy** (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem. | **[[pojmy:paralelni|Paralelní korpusy]]** jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusy, sdílející řadu textů a vázané na jeden jazyk, jako je český [[cnk:intercorp|InterCorp]]. Z nedostatku paralelních korpusů se někdy užívají i **srovnatelné korpusy** (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem. |
| |
| Příklady dalších korpusů spolu s jejich popisem najdete ve speciálním [[pojmy:korpusy|přehledu]]. |
| |
===== Český národní korpus (ČNK) ===== | ===== Český národní korpus (ČNK) ===== |
| |
Projekt [[http://www.korpus.cz|Českého národního korpusu]] byl založen v roce 1994 [[http://www.korpus.cz/view.php?2|prof. Františkem Čermákem]] (institucionálně je zaštítěn [[http://ucnk.ff.cuni.cz|Ústavem Českého národního korpusu]] při FF UK). | Projekt [[http://www.korpus.cz|Českého národního korpusu]] byl založen v roce 1994 [[http://ucnk.ff.cuni.cz/view.php?2|prof. Františkem Čermákem]] (institucionálně je zaštítěn [[http://ucnk.ff.cuni.cz|Ústavem Českého národního korpusu]] při FF UK). |
| |
Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky: | Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2021 zahrnuje následující složky: |
* synchronní korpusy psané, řada SYN | * synchronní korpusy psané, řada SYN |
* synchronní korpusy mluvené, zejm. řadu ORAL | * synchronní korpusy mluvené, zejm. řadu ORAL |
| * webové korpusy ONLINE a NET |
* diachronní korpus DIAKORP | * diachronní korpus DIAKORP |
* paralelní korpus InterCorp | * paralelní korpus InterCorp |
| * specializované korpusy akviziční, autorské a další. |
| |
Přístup ke všem korpusům prostřednictvím webového rozhraní je bezplatný, z licenčních důvodů je nutná registrace. ČNK zároveň poskytuje možnost hostování i mnoha dalším korpusům. | Přístup ke všem korpusům prostřednictvím webového rozhraní je bezplatný, z licenčních důvodů je nutná registrace. ČNK zároveň poskytuje možnost hostování i mnoha dalším korpusům. |
==== Související odkazy ==== | ==== Související odkazy ==== |
| |
<WRAP round box 60%> | <WRAP round box 50%> |
[[cnk:uvod|Korpusy ČNK]] • [[pojmy:prehled_pojmu|Přehled základních pojmů korpusové lingvistiky]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:reprezentativnost|Reprezentativnost korpusu]] • [[pojmy:struktura_korpusu|Struktura korpusu]] | [[cnk:uvod|Korpusy ČNK]] • [[pojmy:prehled_pojmu|Přehled základních pojmů korpusové lingvistiky]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:reprezentativnost|Reprezentativnost korpusu]] • [[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:korpusy|Korpusy ve světě]] |
</WRAP> | </WRAP> |