AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
pojmy:korpus [2013/09/19 09:58] – Schvaleno pro 1. verzi vaclavcvrcekpojmy:korpus [2017/06/08 15:42] – [Typy korpusů] michalkren
Řádek 14: Řádek 14:
  
 Pro usnadnění práce s korpusy jsou texty v nich obsažené často [[pojmy:anotace|anotovány]]. Jde jednak o doplňování [[pojmy:metadata|metainformací]] o textech (jejich původ, autorství atp.) a jednak o doplňování informací k jednotlivým jevům. Příkladem takové anotace je [[pojmy:lemma|lemmatizace]], tj. přiřazení slovníkové podoby každému tvaru ([[pojmy:token|tokenu]]), nebo [[pojmy:tag|tagování]], tj. přiřazení speciální značky (tagu), která popisuje gramatické nebo sémantické vlastnosti slov. V rámci [[cnk:uvod|ČNK]] jsou všechny korpusy opatřeny [[pojmy:atributy_strukturni|strukturními značkami]] zachycujícími metainformace o textech, pouze [[pojmy:psany|korpusy psané češtiny]] jsou však lemmatizovány a morfologicky tagovány. Pro usnadnění práce s korpusy jsou texty v nich obsažené často [[pojmy:anotace|anotovány]]. Jde jednak o doplňování [[pojmy:metadata|metainformací]] o textech (jejich původ, autorství atp.) a jednak o doplňování informací k jednotlivým jevům. Příkladem takové anotace je [[pojmy:lemma|lemmatizace]], tj. přiřazení slovníkové podoby každému tvaru ([[pojmy:token|tokenu]]), nebo [[pojmy:tag|tagování]], tj. přiřazení speciální značky (tagu), která popisuje gramatické nebo sémantické vlastnosti slov. V rámci [[cnk:uvod|ČNK]] jsou všechny korpusy opatřeny [[pojmy:atributy_strukturni|strukturními značkami]] zachycujícími metainformace o textech, pouze [[pojmy:psany|korpusy psané češtiny]] jsou však lemmatizovány a morfologicky tagovány.
 +
 +==== Využití v lingvistice ====
 +
 +Korpusový přístup se v dnešní lingvistice uplatňuje téměř na všech rovinách popisu jazyka. Kvantitativním analýzám nejmenších jednotek (fonémů a grafémů) se na angličtině věnoval už H. Kučera v rámci vytěžování prvního moderního korpusu ([[wp>Brown_Corpus|Brown corpus]]). V současnosti vznikají za účelem výzkumu fonetické databáze, které poskytují rozsáhlé možnosti kvantifikace a zkoumání segmentálních i suprasegmentálních jevů mluveného jazyka. Rovina grafémiky je vytěžována s pomocí [[pojmy:psany|korpusů psané češtiny]], a to jak v perspektivě [[pojmy:synchronni|synchronní]], tak [[pojmy:diachronni|diachronní]]. V oblasti gramatiky najdeme dnes pro češtinu celou paletu studií z morfologie a syntaxe (ovlivněné [[pojmy:corpus_based|corpus-based]] i [[pojmy:corpus_driven|corpus-driven]] přístupem), stejně tak jako první souborná gramatická díla. 
 +
 +V lexikologii a lexikografii, což jsou oblasti, pro něž byly korpusy budovány především, je korpusový přístup dnes převládající metodologií; vedle tradičních výkladových a překladových slovníků umožnil příchod korpusů i vytváření slovníků specializovaných (frekvenční, kolokační). V současné době se stále více analýz zaměřuje na vyšší roviny, //CADS// = corpus assisted discourse studies (studium diskurzu založené na korpusu) je jak synchronní, tak diachronní. Jejich hlavní odlišnost oproti kvalitativním metodám studia diskurzu (jako je CDA = critical discourse analysis) spočívá v kvantitativním rozsahu empirické báze, kterou korpusy poskytují, což umožňuje redukovat badatelův subjektivní vliv na analýzu. Korpusový přístup se vedle lexikografie a cizojazyčné pedagogiky (tvorba učebnic) uplatňuje také v dialektologii, sociolingvistice, psycholingvistice, forenzní lingvistice, při studiu [[pojmy:syd|jazykové variability]], v jazykové didaktice a studiu akvizice jazyka ad. 
  
  
Řádek 29: Řádek 35:
 Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj. Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj.
  
-**[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jsou momentálně k dispozici už 4 menší, [[cnk:pmk|PMK]], [[cnk:bmk|BMK]], [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]]), volně sem však patří i korpus nahrávek žáků ve škole [[cnk:schola2010|SCHOLA2010]], existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální).+**[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jich je momentálně k dispozici celá řadazejména [[cnk:oral|ORAL]], [[cnk:ortofon|ORTOFON]], [[cnk:dialekt|DIALEKT]]), volně sem však patří i korpus nahrávek žáků ve škole [[cnk:schola2010|SCHOLA2010]], existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální).
  
 **[[pojmy:diachronni|Diachronní korpus]]** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší. **[[pojmy:diachronni|Diachronní korpus]]** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší.
Řádek 37: Řádek 43:
 **[[pojmy:paralelni|Paralelní korpusy]]** jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusy, sdílející řadu textů a vázané na jeden jazyk, jako je český [[cnk:intercorp|InterCorp]]. Z nedostatku paralelních korpusů se někdy užívají i **srovnatelné korpusy** (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem.  **[[pojmy:paralelni|Paralelní korpusy]]** jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusy, sdílející řadu textů a vázané na jeden jazyk, jako je český [[cnk:intercorp|InterCorp]]. Z nedostatku paralelních korpusů se někdy užívají i **srovnatelné korpusy** (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem. 
  
 +Příklady dalších korpusů spolu s jejich popisem najdete ve speciálním [[pojmy:korpusy|přehledu]].
  
 ===== Český národní korpus (ČNK) ===== ===== Český národní korpus (ČNK) =====
  
-Projekt [[http://www.korpus.cz|Českého národního korpusu]] byl založen v roce 1994 [[http://www.korpus.cz/view.php?2|prof. Františkem Čermákem]] (institucionálně je zaštítěn [[http://ucnk.ff.cuni.cz|Ústavem Českého národního korpusu]] při FF UK). +Projekt [[http://www.korpus.cz|Českého národního korpusu]] byl založen v roce 1994 [[http://ucnk.ff.cuni.cz/view.php?2|prof. Františkem Čermákem]] (institucionálně je zaštítěn [[http://ucnk.ff.cuni.cz|Ústavem Českého národního korpusu]] při FF UK). 
  
 Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky:  Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky: 
Řádek 54: Řádek 61:
 ==== Související odkazy ==== ==== Související odkazy ====
  
-<WRAP round box 60%> +<WRAP round box 50%> 
-[[cnk:uvod|Korpusy ČNK]] • [[pojmy:prehled_pojmu|Přehled základních pojmů korpusové lingvistiky]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:reprezentativnost|Reprezentativnost korpusu]] • [[pojmy:struktura_korpusu|Struktura korpusu]]+[[cnk:uvod|Korpusy ČNK]] • [[pojmy:prehled_pojmu|Přehled základních pojmů korpusové lingvistiky]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:reprezentativnost|Reprezentativnost korpusu]] • [[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:korpusy|Korpusy ve světě]]
 </WRAP> </WRAP>