Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:korpus [2021/02/18 07:00] – [Český národní korpus (ČNK)] dominikakovarikova | pojmy:korpus [2021/10/23 05:06] (aktuální) – [Typy korpusů] michalskrabal |
---|
Rozsah ovšem není jediným kritériem kvality a spolehlivosti korpusu. Jakkoli rozsáhlý korpus je vždy jen vzorkem jazyka a z toho titulu je třeba na něj klást stejné nároky jako na každý jiný vzorek. Abychom mohli výsledky získané na vzorku (korpusu) vztáhnout na celou populaci (všechny texty, celý jazyk), je třeba zajistit, aby korpus byl vzhledem k populaci, kterou má zrcadlit, [[pojmy:reprezentativnost|reprezentativní]]. V optimálním případě to znamená, že korpus je vzhledem k populaci, kterou reprezentuje, uspořádán tak, že se v něm objevují jevy ve stejných proporcích jako ve zkoumané populaci. Ačkoli existuje relativně rozsáhlá odborná literatura zabývající se precizním designem korpusů, je třeba konstatovat, že v této otázce je mnoho nevyřešeného a míru reprezentativnosti stále nelze objektivně měřit. | Rozsah ovšem není jediným kritériem kvality a spolehlivosti korpusu. Jakkoli rozsáhlý korpus je vždy jen vzorkem jazyka a z toho titulu je třeba na něj klást stejné nároky jako na každý jiný vzorek. Abychom mohli výsledky získané na vzorku (korpusu) vztáhnout na celou populaci (všechny texty, celý jazyk), je třeba zajistit, aby korpus byl vzhledem k populaci, kterou má zrcadlit, [[pojmy:reprezentativnost|reprezentativní]]. V optimálním případě to znamená, že korpus je vzhledem k populaci, kterou reprezentuje, uspořádán tak, že se v něm objevují jevy ve stejných proporcích jako ve zkoumané populaci. Ačkoli existuje relativně rozsáhlá odborná literatura zabývající se precizním designem korpusů, je třeba konstatovat, že v této otázce je mnoho nevyřešeného a míru reprezentativnosti stále nelze objektivně měřit. |
| |
Pro usnadnění práce s korpusy jsou texty v nich obsažené často [[pojmy:anotace|anotovány]]. Jde jednak o doplňování [[pojmy:metadata|metainformací]] o textech (jejich původ, autorství atp.) a jednak o doplňování informací k jednotlivým jevům. Příkladem takové anotace je [[pojmy:lemma|lemmatizace]], tj. přiřazení slovníkové podoby každému tvaru ([[pojmy:token|tokenu]]), nebo [[pojmy:tag|tagování]], tj. přiřazení speciální značky (tagu), která popisuje gramatické nebo sémantické vlastnosti slov. V rámci [[cnk:uvod|ČNK]] jsou všechny korpusy opatřeny [[pojmy:atributy_strukturni|strukturními značkami]] zachycujícími metainformace o textech, pouze [[pojmy:psany|korpusy psané češtiny]] jsou však lemmatizovány a morfologicky tagovány. | Pro usnadnění práce s korpusy jsou texty v nich obsažené často [[pojmy:anotace|anotovány]]. Jde jednak o doplňování [[pojmy:metadata|metainformací]] o textech (jejich původ, autorství atp.) a jednak o doplňování informací k jednotlivým jevům. Příkladem takové anotace je [[pojmy:lemma|lemmatizace]], tj. přiřazení slovníkové podoby každému tvaru ([[pojmy:token|tokenu]]), nebo [[pojmy:tag|tagování]], tj. přiřazení speciální značky (tagu), která popisuje gramatické nebo sémantické vlastnosti slov. V rámci [[cnk:uvod|ČNK]] jsou všechny korpusy opatřeny [[pojmy:atributy_strukturni|strukturními značkami]] zachycujícími metainformace o textech, mimoto je většina korpusů lemmatizována a morfologicky tagována. |
| |
==== Využití v lingvistice ==== | ==== Využití v lingvistice ==== |
Vznik korpusu by vždy měl být podřízen jeho účelu, od toho se odvíjí i jejich klasifikace. Korpusy třídit podle různých kritérií: | Vznik korpusu by vždy měl být podřízen jeho účelu, od toho se odvíjí i jejich klasifikace. Korpusy třídit podle různých kritérií: |
| |
- z hlediska počtu jazyků: a) jednojazyčný a b) vícejazyčný | - z hlediska počtu jazyků: |
- z hlediska tématu ap.: a) obecný a b) specializovaný, | - jednojazyčný |
- z hlediska modu: a) psaný a b) mluvený, | - vícejazyčný |
- z hlediska časového záběru: a) synchronní a b) diachronní, | - z hlediska tématu ap.: |
- z hlediska „archeologického“: a) synchronní a b) archivní | - obecný |
| - specializovaný, |
| - z hlediska modu: |
| - psaný |
| - mluvený, |
| - z hlediska časového záběru: |
| - synchronní |
| - diachronní, |
- z hlediska vymezeného účelu různé | - z hlediska vymezeného účelu různé |
| |
Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj. | Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj. |
| |
| **[[pojmy:psany|Psaný korpus]]** představuje dnes nejběžnější a nejpoužívanější typ korpusů. Jeho cílem je poskytnout vzorek úzu psaného jazyka (většinou se jedná o texty vytvořené i publikované v psané podobě) reprezentativní pro nějaký badatelský cíl. |
| |
**[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jich je momentálně k dispozici celá řada, zejména [[cnk:oral|ORAL]], [[cnk:ortofon|ORTOFON]], [[cnk:dialekt|DIALEKT]]), volně sem však patří i korpus nahrávek žáků ve škole [[cnk:schola2010|SCHOLA2010]], existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální). | **[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jich je momentálně k dispozici celá řada, zejména [[cnk:oral|ORAL]], [[cnk:ortofon|ORTOFON]], [[cnk:dialekt|DIALEKT]]), volně sem však patří i korpus nahrávek žáků ve škole [[cnk:schola2010|SCHOLA2010]], existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální). |
* diachronní korpus DIAKORP | * diachronní korpus DIAKORP |
* paralelní korpus InterCorp | * paralelní korpus InterCorp |
* specializované korpusy akviziční, autorské a další | * specializované korpusy akviziční, autorské a další. |
| |
Přístup ke všem korpusům prostřednictvím webového rozhraní je bezplatný, z licenčních důvodů je nutná registrace. ČNK zároveň poskytuje možnost hostování i mnoha dalším korpusům. | Přístup ke všem korpusům prostřednictvím webového rozhraní je bezplatný, z licenčních důvodů je nutná registrace. ČNK zároveň poskytuje možnost hostování i mnoha dalším korpusům. |