Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
pojmy:korpus [2013/09/24 11:00]
Václav Cvrček Schvaleno pro 1. verzi
pojmy:korpus [2017/06/08 15:42] (aktuální)
Michal Křen [Typy korpusů]
Řádek 35: Řádek 35:
 Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj. Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj.
  
-**[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jsou momentálně k dispozici už 4 menší, [[cnk:pmk|PMK]], [[cnk:bmk|BMK]], [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]]), volně sem však patří i korpus nahrávek žáků ve škole [[cnk:schola2010|SCHOLA2010]], existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální).+**[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jich je momentálně k dispozici celá řadazejména [[cnk:oral|ORAL]], [[cnk:ortofon|ORTOFON]], [[cnk:dialekt|DIALEKT]]), volně sem však patří i korpus nahrávek žáků ve škole [[cnk:schola2010|SCHOLA2010]], existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální).
  
 **[[pojmy:diachronni|Diachronní korpus]]** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší. **[[pojmy:diachronni|Diachronní korpus]]** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší.
Řádek 43: Řádek 43:
 **[[pojmy:paralelni|Paralelní korpusy]]** jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusy, sdílející řadu textů a vázané na jeden jazyk, jako je český [[cnk:intercorp|InterCorp]]. Z nedostatku paralelních korpusů se někdy užívají i **srovnatelné korpusy** (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem.  **[[pojmy:paralelni|Paralelní korpusy]]** jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusy, sdílející řadu textů a vázané na jeden jazyk, jako je český [[cnk:intercorp|InterCorp]]. Z nedostatku paralelních korpusů se někdy užívají i **srovnatelné korpusy** (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem. 
  
 +Příklady dalších korpusů spolu s jejich popisem najdete ve speciálním [[pojmy:korpusy|přehledu]].
  
 ===== Český národní korpus (ČNK) ===== ===== Český národní korpus (ČNK) =====
  
-Projekt [[http://www.korpus.cz|Českého národního korpusu]] byl založen v roce 1994 [[http://www.korpus.cz/view.php?2|prof. Františkem Čermákem]] (institucionálně je zaštítěn [[http://ucnk.ff.cuni.cz|Ústavem Českého národního korpusu]] při FF UK). +Projekt [[http://www.korpus.cz|Českého národního korpusu]] byl založen v roce 1994 [[http://ucnk.ff.cuni.cz/view.php?2|prof. Františkem Čermákem]] (institucionálně je zaštítěn [[http://ucnk.ff.cuni.cz|Ústavem Českého národního korpusu]] při FF UK). 
  
 Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky:  Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky: 
Řádek 61: Řádek 62:
  
 <WRAP round box 50%> <WRAP round box 50%>
-[[cnk:uvod|Korpusy ČNK]] • [[pojmy:prehled_pojmu|Přehled základních pojmů korpusové lingvistiky]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:reprezentativnost|Reprezentativnost korpusu]] • [[pojmy:struktura_korpusu|Struktura korpusu]]+[[cnk:uvod|Korpusy ČNK]] • [[pojmy:prehled_pojmu|Přehled základních pojmů korpusové lingvistiky]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:reprezentativnost|Reprezentativnost korpusu]] • [[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:korpusy|Korpusy ve světě]]
 </WRAP> </WRAP>