Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
pojmy:korpus [2013/09/19 09:46]
Václav Cvrček
pojmy:korpus [2017/06/08 15:42] (aktuální)
Michal Křen [Typy korpusů]
Řádek 7: Řádek 7:
 ===== Korpus a jeho využití ===== ===== Korpus a jeho využití =====
  
-Korpusy jsou budovány s cílem, aby sloužily jako záznam a pokud možno co nejobjektivnější model jazykové empirie. Ta je přirozeně zdrojem dat pro lingvistický výzkum, dnes se ovšem korpusy využívají i v jiných oblastech, které využívají texty jako zdroje poznání reality (historie, sociologie, psychologie apod.).+Korpusy jsou budovány s cílem sloužit jako záznam a pokud možno co nejobjektivnější model jazykové empirie. Ta je přirozeně zdrojem dat pro lingvistický výzkum, dnes se ovšem korpusy využívají i v jiných oblastech, které využívají texty jako zdroje poznání reality (historie, sociologie, psychologie apod.).
  
 Vzhledem k rozsahu dnešních korpusů, které nezřídka přesahují hranici sto milionů slov, je nutné na jejich vytěžování používat speciální nástroje, [[pojmy:korpusovy_manazer|korpusové manažery]]. Ty většinou umožňují vedle hledání a prohlížení výsledků také filtrování a jednoduché statistické vyhodnocování nalezených dat. Vzhledem k rozsahu dnešních korpusů, které nezřídka přesahují hranici sto milionů slov, je nutné na jejich vytěžování používat speciální nástroje, [[pojmy:korpusovy_manazer|korpusové manažery]]. Ty většinou umožňují vedle hledání a prohlížení výsledků také filtrování a jednoduché statistické vyhodnocování nalezených dat.
  
-Rozsah ovšem není jediným kritériem kvality korpusu. Jakkoli rozsáhlý korpus je vždy jen vzorkem jazyka a z toho titulu je třeba na něj klást stejné nároky jako na každý jiný vzorek. Abychom mohli výsledky získané na vzroku (korpusu) vztáhnout na celou populaci (všechny texty, celý jazyk), je třeba zajistit, aby korpus byl vzhledem k populaci, kterou má zrcadlit, [[pojmy:reprezentativnost|reprezentativní]]. V optimálním případě to znamená, že korpus je vzhledem k populaci, kterou reprezentuje, uspořádán tak, že se v něm objevují jevy ve stejných proporcích jako ve zkoumané populaci. Ačkoli existuje relativně rozsáhlá odborná literatura zabývající se precizním designem korpusů, je třeba konstatovat, že v této otázce je stále spousta nevyřešeného a míru reprezentativnosti stále nelze objektivně měřit.+Rozsah ovšem není jediným kritériem kvality a spolehlivosti korpusu. Jakkoli rozsáhlý korpus je vždy jen vzorkem jazyka a z toho titulu je třeba na něj klást stejné nároky jako na každý jiný vzorek. Abychom mohli výsledky získané na vzorku (korpusu) vztáhnout na celou populaci (všechny texty, celý jazyk), je třeba zajistit, aby korpus byl vzhledem k populaci, kterou má zrcadlit, [[pojmy:reprezentativnost|reprezentativní]]. V optimálním případě to znamená, že korpus je vzhledem k populaci, kterou reprezentuje, uspořádán tak, že se v něm objevují jevy ve stejných proporcích jako ve zkoumané populaci. Ačkoli existuje relativně rozsáhlá odborná literatura zabývající se precizním designem korpusů, je třeba konstatovat, že v této otázce je mnoho nevyřešeného a míru reprezentativnosti stále nelze objektivně měřit.
  
-Za účelem snazšího využití korpusů, jsou texty v nich obsažené často [[pojmy:anotace|anotovány]]. Jde jednak o doplňování [[pojmy:metadata|metainformací]] o textech (jejich původ, autorství atp.) a jednak o doplňování informací k jednotlivým jevům. Příkladem takové anotace je [[pojmy:lemma|lemmatizace]], tj. přiřazení slovníkové podoby každému tvaru ([[pojmy:token|tokenu]]), nebo [[pojmy:tag|tagování]], tj. přiřazení speciální značky (tagu), která popisuje gramatické nebo sémantické vlastnosti slov. V rámci [[cnk:uvod|ČNK]] jsou všechny korpusy opatřeny [[pojmy:atributy_strukturni|strukturními značkami]] zachycujícími metainformace o textech, pouze [[pojmy:psany|korpusy psané češtiny]] jsou však lemmatizovány a morfologicky tagovány.+Pro usnadnění práce s korpusy jsou texty v nich obsažené často [[pojmy:anotace|anotovány]]. Jde jednak o doplňování [[pojmy:metadata|metainformací]] o textech (jejich původ, autorství atp.) a jednak o doplňování informací k jednotlivým jevům. Příkladem takové anotace je [[pojmy:lemma|lemmatizace]], tj. přiřazení slovníkové podoby každému tvaru ([[pojmy:token|tokenu]]), nebo [[pojmy:tag|tagování]], tj. přiřazení speciální značky (tagu), která popisuje gramatické nebo sémantické vlastnosti slov. V rámci [[cnk:uvod|ČNK]] jsou všechny korpusy opatřeny [[pojmy:atributy_strukturni|strukturními značkami]] zachycujícími metainformace o textech, pouze [[pojmy:psany|korpusy psané češtiny]] jsou však lemmatizovány a morfologicky tagovány
 + 
 +==== Využití v lingvistice ==== 
 + 
 +Korpusový přístup se v dnešní lingvistice uplatňuje téměř na všech rovinách popisu jazyka. Kvantitativním analýzám nejmenších jednotek (fonémů a grafémů) se na angličtině věnoval už H. Kučera v rámci vytěžování prvního moderního korpusu ([[wp>Brown_Corpus|Brown corpus]]). V současnosti vznikají za účelem výzkumu fonetické databáze, které poskytují rozsáhlé možnosti kvantifikace a zkoumání segmentálních i suprasegmentálních jevů mluveného jazyka. Rovina grafémiky je vytěžována s pomocí [[pojmy:psany|korpusů psané češtiny]], a to jak v perspektivě [[pojmy:synchronni|synchronní]], tak [[pojmy:diachronni|diachronní]]. V oblasti gramatiky najdeme dnes pro češtinu celou paletu studií z morfologie a syntaxe (ovlivněné [[pojmy:corpus_based|corpus-based]] i [[pojmy:corpus_driven|corpus-driven]] přístupem), stejně tak jako první souborná gramatická díla.  
 + 
 +V lexikologii a lexikografii, což jsou oblasti, pro něž byly korpusy budovány především, je korpusový přístup dnes převládající metodologií; vedle tradičních výkladových a překladových slovníků umožnil příchod korpusů i vytváření slovníků specializovaných (frekvenční, kolokační). V současné době se stále více analýz zaměřuje na vyšší roviny, //CADS// = corpus assisted discourse studies (studium diskurzu založené na korpusu) je jak synchronní, tak diachronní. Jejich hlavní odlišnost oproti kvalitativním metodám studia diskurzu (jako je CDA = critical discourse analysis) spočívá v kvantitativním rozsahu empirické báze, kterou korpusy poskytují, což umožňuje redukovat badatelův subjektivní vliv na analýzu. Korpusový přístup se vedle lexikografie a cizojazyčné pedagogiky (tvorba učebnic) uplatňuje také v dialektologii, sociolingvistice, psycholingvistice, forenzní lingvistice, při studiu [[pojmy:syd|jazykové variability]], v jazykové didaktice a studiu akvizice jazyka ad
  
  
Řádek 29: Řádek 35:
 Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj. Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj.
  
-**[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jsou momentálně k dispozici už 4 menší, [[cnk:pmk|PMK]], [[cnk:bmk|BMK]], [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]]), volně sem však patří i korpus nahrávek žáků ve škole [[cnk:schola2010|SCHOLA2010]], existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální).+**[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jich je momentálně k dispozici celá řadazejména [[cnk:oral|ORAL]], [[cnk:ortofon|ORTOFON]], [[cnk:dialekt|DIALEKT]]), volně sem však patří i korpus nahrávek žáků ve škole [[cnk:schola2010|SCHOLA2010]], existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální).
  
 **[[pojmy:diachronni|Diachronní korpus]]** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší. **[[pojmy:diachronni|Diachronní korpus]]** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší.
Řádek 37: Řádek 43:
 **[[pojmy:paralelni|Paralelní korpusy]]** jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusy, sdílející řadu textů a vázané na jeden jazyk, jako je český [[cnk:intercorp|InterCorp]]. Z nedostatku paralelních korpusů se někdy užívají i **srovnatelné korpusy** (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem.  **[[pojmy:paralelni|Paralelní korpusy]]** jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusy, sdílející řadu textů a vázané na jeden jazyk, jako je český [[cnk:intercorp|InterCorp]]. Z nedostatku paralelních korpusů se někdy užívají i **srovnatelné korpusy** (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem. 
  
 +Příklady dalších korpusů spolu s jejich popisem najdete ve speciálním [[pojmy:korpusy|přehledu]].
  
 ===== Český národní korpus (ČNK) ===== ===== Český národní korpus (ČNK) =====
  
-Projekt [[http://www.korpus.cz|Českého národního korpusu]] byl založen v roce 1994 [[http://www.korpus.cz/view.php?2|prof. Františkem Čermákem]] (institucionálně je zaštítěn [[http://ucnk.ff.cuni.cz|Ústavem Českého národního korpusu]] při FF UK). +Projekt [[http://www.korpus.cz|Českého národního korpusu]] byl založen v roce 1994 [[http://ucnk.ff.cuni.cz/view.php?2|prof. Františkem Čermákem]] (institucionálně je zaštítěn [[http://ucnk.ff.cuni.cz|Ústavem Českého národního korpusu]] při FF UK). 
  
 Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky:  Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky: 
Řádek 54: Řádek 61:
 ==== Související odkazy ==== ==== Související odkazy ====
  
-<WRAP round box 60%> +<WRAP round box 50%> 
-[[cnk:uvod|Korpusy ČNK]] • [[pojmy:prehled_pojmu|Přehled základních pojmů korpusové lingvistiky]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:reprezentativnost|Reprezentativnost korpusu]] • [[pojmy:struktura_korpusu|Struktura korpusu]]+[[cnk:uvod|Korpusy ČNK]] • [[pojmy:prehled_pojmu|Přehled základních pojmů korpusové lingvistiky]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:reprezentativnost|Reprezentativnost korpusu]] • [[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:korpusy|Korpusy ve světě]]
 </WRAP> </WRAP>