Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
pojmy:korpus [2013/09/24 11:00] – Schvaleno pro 1. verzi vaclavcvrcek | pojmy:korpus [2017/06/08 15:42] – [Typy korpusů] michalkren |
---|
Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj. | Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj. |
| |
**[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jsou momentálně k dispozici už 4 menší, [[cnk:pmk|PMK]], [[cnk:bmk|BMK]], [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]]), volně sem však patří i korpus nahrávek žáků ve škole [[cnk:schola2010|SCHOLA2010]], existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální). | **[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jich je momentálně k dispozici celá řada, zejména [[cnk:oral|ORAL]], [[cnk:ortofon|ORTOFON]], [[cnk:dialekt|DIALEKT]]), volně sem však patří i korpus nahrávek žáků ve škole [[cnk:schola2010|SCHOLA2010]], existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální). |
| |
**[[pojmy:diachronni|Diachronní korpus]]** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší. | **[[pojmy:diachronni|Diachronní korpus]]** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší. |
**[[pojmy:paralelni|Paralelní korpusy]]** jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusy, sdílející řadu textů a vázané na jeden jazyk, jako je český [[cnk:intercorp|InterCorp]]. Z nedostatku paralelních korpusů se někdy užívají i **srovnatelné korpusy** (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem. | **[[pojmy:paralelni|Paralelní korpusy]]** jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusy, sdílející řadu textů a vázané na jeden jazyk, jako je český [[cnk:intercorp|InterCorp]]. Z nedostatku paralelních korpusů se někdy užívají i **srovnatelné korpusy** (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem. |
| |
| Příklady dalších korpusů spolu s jejich popisem najdete ve speciálním [[pojmy:korpusy|přehledu]]. |
| |
===== Český národní korpus (ČNK) ===== | ===== Český národní korpus (ČNK) ===== |
| |
Projekt [[http://www.korpus.cz|Českého národního korpusu]] byl založen v roce 1994 [[http://www.korpus.cz/view.php?2|prof. Františkem Čermákem]] (institucionálně je zaštítěn [[http://ucnk.ff.cuni.cz|Ústavem Českého národního korpusu]] při FF UK). | Projekt [[http://www.korpus.cz|Českého národního korpusu]] byl založen v roce 1994 [[http://ucnk.ff.cuni.cz/view.php?2|prof. Františkem Čermákem]] (institucionálně je zaštítěn [[http://ucnk.ff.cuni.cz|Ústavem Českého národního korpusu]] při FF UK). |
| |
Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky: | Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky: |
| |
<WRAP round box 50%> | <WRAP round box 50%> |
[[cnk:uvod|Korpusy ČNK]] • [[pojmy:prehled_pojmu|Přehled základních pojmů korpusové lingvistiky]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:reprezentativnost|Reprezentativnost korpusu]] • [[pojmy:struktura_korpusu|Struktura korpusu]] | [[cnk:uvod|Korpusy ČNK]] • [[pojmy:prehled_pojmu|Přehled základních pojmů korpusové lingvistiky]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:reprezentativnost|Reprezentativnost korpusu]] • [[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:korpusy|Korpusy ve světě]] |
</WRAP> | </WRAP> |