AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
pojmy:korpus [2013/06/19 22:20]
Václav Cvrček
pojmy:korpus [2021/10/23 05:06] (aktuální)
Michal Škrabal [Typy korpusů]
Řádek 1: Řádek 1:
 ====== Korpus ====== ====== Korpus ======
  
-Jazykový korpus je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby v jednotném formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy, zejména slova a slovní spojení ([[pojmy:kolokace|kolokace]]). Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný. Jeho hlavní předností je vedle užití přirozeného jazykového materiálu i schopnost vypovídat o [[pojmy:frekvence|frekvenci]] (četnosti) jevů a jejich typickém užití, což je informace jen pomocí badatelovy intuice nezjistitelná. Jelikož do korpusu vstupují texty jako celek, poskytuje na rozdíl třeba od lístkového katalogu nevýběrové informace o všech typech jazykových jevů+Jazykový korpus (z lat. //corpus// "tělo, těleso"je rozsáhlý soubor **autentických textů** (psaných nebo mluvených) převedený do **elektronické podoby** v jednotném formátu tak, aby v něm bylo možné jednoduše **vyhledávat** jazykové jevy, zejména slova a slovní spojení ([[pojmy:kolokace|kolokace]]). Korpus zobrazuje jazykové jevy v jejich **přirozeném kontextu**, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný. 
  
-Latinské slovo //corpus// znamenající „tělo, těleso“ seužívá v různých oborech, v lingvistice se od 50. let v angličtině a odtud v dalších jazycích používá jako označení pro velký soubor elektronických textů, zpracovávaný a vytěžovaný specifickými softwarovými nástroji v počítači (pro odlišení se tu také někdy mluví o textových korpusech). Korpus je tedy záznamem a relativně objektivním modelem jazykové empirie a je a má být v základním, výchozím smyslu při svém zpracování zcela zbaven jakékoliv apriorní teorie a jiných vlivů, které jazyk nutně deformují které by se do něj mohly promítatať je jejich autor míní sebelépeVyužívá ho (vedle jiných oborů) zvláště empirická lingvistika za účelem studia a poznání jazyka, resp. v šírším smyslu i k poznání dobové reality, již jazyk konceptualizuje a zachycuje. V tomto smyslu je korpus autentických záznamů jazyka zdrojem specializovaného i obecného poznání jazykové a sociální reality a její konceptualizace a kvantitoukvalitou, setrvalostí i kontinuitou informací, jež nabízí, svým významem přesahuje obor lingvistiky. Povahou a možnostmi své nabídky mnohonásobně předčí jakékoliv jiné zdroje poznání a studia jazyka+Hlavní předností korpusu je vedle užití přirozeného jazykového materiálu schopnost vypovídat o [[pojmy:frekvence|frekvenci]] (četnostijevů a jejich typickém úzucož je informace jen pomocí badatelovy intuice nezjistitelnáJelikož do korpusu vstupují texty jako celek, poskytuje na rozdíl třeba od lístkového katalogu nevýběrové informace o ech typech jazykových jevů (navíc v rozsahukterý byl dříve nemyslitelný).
  
-Dnešní rozsahy největších korpusů se pohybují řádově už ve stamiliónech a miliardách slov jimi nabízená informace je, na rozdíl od zdrojů tradiční lingvistiky založené na manuálních excerptech a archivech, tak bohatá, že ji často nelze, bez použití dalších nástrojů, filtrů a zvláštních metod, bez rizika zahlcení informacemi přímo používat. Korpusy se liší od běžného elektronického archivu, tj. prostého úložiště daných textů s omezenými možnostmi prohledávání. Oproti archivu korpus vyniká nejen sofistikovaným [[pojmy:korpusovy_manazer|korpusovým manažerem]] schopným zpracovat miliardy slov, řadou speciálních programů a obvykle i vnesenou (lingvistickou) anotací každého slova, ale i celkovým plánovaným zaměřením na určitý cíl se záměrem ho textově maximálně pokrýt. Obvykle se tu pak mluví o [[pojmy:reprezentativnost|reprezentativnosti]] takového korpusu.+===== Korpus jeho využití =====
  
-Žádný k. není nemůže být záznamem celého jazyka, ten ostatně k mání komplexnímu přímému studiu nebyl nikdy: jazyk je v tomto smyslu ude kolem nás jen jeho malá část je zapsaná v textechStaré lexikální archivyvelmi výběrově ho mapující, jsou z dnešního hlediska malé nedokonalé (pro srovnání např. český lexikální archiv ÚJČ má 12-13 miliónů excerpt). Ani v korpusu ale rozhodně není k nalezení echno, především ne v oblasti mluveného jazyka, šance na víc informací však roste spolu s korpusy. +Korpusy jsou budovány s cílem sloužit jako záznam a pokud možno co nejobjektivnější model jazykové empirie. Ta je přirozeně zdrojem dat pro lingvistický výzkum, dnes se ovšem korpusy využívají i v jiných oblastech, které využívají texty jako zdroje poznání reality (historie, sociologie, psychologie apod.). 
 + 
 +Vzhledem rozsahu dnešních korpusů, které nezřídka přesahují hranici sto milionů slov, je nutné na jejich vytěžování používat speciální nástroje, [[pojmy:korpusovy_manazer|korpusové manažery]]Ty většinou umožňují vedle hledání prohlížení výsledků také filtrování a jednoduché statistické vyhodnocování nalezených dat. 
 + 
 +Rozsah ovšem není jediným kritériem kvality a spolehlivosti korpusu. Jakkoli rozsáhlý korpus je vždy jen vzorkem jazyka a z toho titulu je třeba na něj klást stejné nároky jako na každý jiný vzorek. Abychom mohli výsledky získané na vzorku (korpusu) vztáhnout na celou populaci (všechny texty, celý jazyk), je třeba zajistit, aby korpus byl vzhledem k populaci, kterou má zrcadlit, [[pojmy:reprezentativnost|reprezentativní]]. V optimálním případě to znamená, že korpus je vzhledem k populaci, kterou reprezentuje, uspořádán tak, že se něm objevují jevy ve stejných proporcích jako ve zkoumané populaci. Ačkoli existuje relativně rozsáhlá odborná literatura zabývající se precizním designem korpusů, je třeba konstatovat, že této otázce je mnoho nevyřešeného míru reprezentativnosti stále nelze objektivně měřit. 
 + 
 +Pro usnadnění práce s korpusy jsou texty v nich obsažené často [[pojmy:anotace|anotovány]]. Jde jednak o doplňování [[pojmy:metadata|metainformací]] o textech (jejich původ, autorství atp.) a jednak o doplňování informací k jednotlivým jevům. Příkladem takové anotace je [[pojmy:lemma|lemmatizace]], tjpřiřazení slovníkové podoby každému tvaru ([[pojmy:token|tokenu]])nebo [[pojmy:tag|tagování]]tj. přiřazení speciální značky (tagu), která popisuje gramatické nebo sémantické vlastnosti slov. V rámci [[cnk:uvod|ČNK]] jsou všechny korpusy opatřeny [[pojmy:atributy_strukturni|strukturními značkami]] zachycujícími metainformace o textech, mimoto je většina korpusů lemmatizována morfologicky tagována. 
 + 
 +==== Využití v lingvistice ==== 
 + 
 +Korpusový přístup se v dnešní lingvistice uplatňuje téměř na všech rovinách popisu jazykaKvantitativním analýzám nejmenších jednotek (fonémů a grafémů) se na angličtině věnoval už HKučera v rámci vytěžování prvního moderního korpusu ([[wp>Brown_Corpus|Brown corpus]]). V současnosti vznikají za účelem výzkumu fonetické databáze, které poskytují rozsáhlé možnosti kvantifikace a zkoumání segmentálních i suprasegmentálních jevů mluveného jazyka. Rovina grafémiky je vytěžována s pomocí [[pojmy:psany|korpusů psané češtiny]], a to jak perspektivě [[pojmy:synchronni|synchronní]], tak [[pojmy:diachronni|diachronní]]. V oblasti gramatiky najdeme dnes pro češtinu celou paletu studií z morfologie a syntaxe (ovlivněné [[pojmy:corpus_based|corpus-based]] i [[pojmy:corpus_driven|corpus-driven]] přístupem)stejně tak jako první souborná gramatická díla.  
 + 
 +V lexikologii a lexikografii, což jsou oblasti, pro něž byly korpusy budovány především, je korpusový přístup dnes převládající metodologií; vedle tradičních výkladových a překladových slovníků umožnil příchod korpusů i vytváření slovníků specializovaných (frekvenční, kolokační). V současné době se stále více analýz zaměřuje na vyšší roviny, //CADS// = corpus assisted discourse studies (studium diskurzu založené na korpusu) je jak synchronní, tak diachronní. Jejich hlavní odlišnost oproti kvalitativním metodám studia diskurzu (jako je CDA = critical discourse analysis) spočívá v kvantitativním rozsahu empirické báze, kterou korpusy poskytují, což umožňuje redukovat badatelův subjektivní vliv na analýzu. Korpusový přístup se vedle lexikografie a cizojazyčné pedagogiky (tvorba učebnic) uplatňuje také v dialektologii, sociolingvistice, psycholingvistice, forenzní lingvistice, při studiu [[pojmy:syd|jazykové variability]], v jazykové didaktice a studiu akvizice jazyka ad
  
-Obvykle, ne však vždy, se k. vybavují automatickou a různě pracnou anotací ([[pojmy:tag|tagováním]]), vnášející do něj většinou označení morfologického tvaru a slovního druhu (tj. označením takového tvaru a přidělením tvaru reprezentativního, tj. [[pojmy:lemma|lemmatu]]), dosud většinou pouze na úrovni jednotlivých tvarů, tj. textových výskytů ([[pojmy:token|tokenů]]) lexému. Automatické tagování víceslovných lemmat je dosud v počátcích. Tomuto vlastnímu lingvistickému značkování předchází důkladná bibliografická anotace zachycující řadu vnějších rysů textů, od autora, názvu, roku až po komplexně označovaný žánr aj.  
  
 ===== Typy korpusů =====  ===== Typy korpusů ===== 
-Korpusy vznikají podle praktické potřeby uživatelů a jejich typologie se také od těchto potřeb odvíjí. Jejich obecné schéma lze podle jazyka a situace tudíž různě dál modifikovat. K hlavním typům patří korpus  
  
-  - z hlediska počtu jazyků: a) jednojazyčný a b) vícejazyčný +Vznik korpusu by vždy měl být podřízen jeho účelu, od toho se odvíjí i jejich klasifikace. Korpusy třídit podle různých kritérií: 
-  - z hlediska tématu ap.: a) obecný a b) specializovaný,  + 
-  - z hlediska modu: a) psaný a b) mluvený,  +  - z hlediska počtu jazyků:  
-  - z hlediska časového záběru: a) synchronní a b) diachronní,  +      - jednojazyčný  
-  z hlediska „archeologického“: a) synchronní a b) archivní+      - vícejazyčný 
 +  - z hlediska tématu ap.:  
 +      - obecný  
 +      - specializovaný,  
 +  - z hlediska modu:  
 +      - psaný  
 +      - mluvený,  
 +  - z hlediska časového záběru:  
 +      - synchronní 
 +      - diachronní, 
   - z hlediska vymezeného účelu různé   - z hlediska vymezeného účelu různé
  
-Ke **specializovaným korpusům** lze pro českou oblast počítat např. KSK (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj.+Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj.
  
-**Mluvený korpus** je ze své podstaty synchronní (pro češtinu jsou momentálně k dispozici už 4 menší, PMK, BMK, Oral2006, Oral2008), volně sem však patří korpus nahrávek žáků ve škole Schola2010, existují i korpusy vznikající z fonetických či prozodických důvodů ajKorpusy ak mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní průvodní nahrávku a (stále velmi řídceještě kdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální).+**[[pojmy:psany|Psaný korpus]]** představuje dnes nejběžnější a nejpoužívanější typ korpusů. Jeho cílem je poskytnout vzorek úzu psaného jazyka (většinou se jedná o texty vytvořené publikované v psané podoběreprezentativní pro jaký badatelský cíl
  
-**Diachronní korpus** je vlastně soubor více korpusů z různýchresp. všech dob vývoje jazykapokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší.+**[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jich je momentálně k dispozici celá řada, zejména [[cnk:oral|ORAL]], [[cnk:ortofon|ORTOFON]], [[cnk:dialekt|DIALEKT]]), volně sem však patří i korpus nahrávek žáků ve škole [[cnk:schola2010|SCHOLA2010]]existují i korpusy vznikající z fonetických či prozodických důvodů ajKorpusy ak mohou zahrnovat i více modůtj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě kdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální).
  
-Specifickou roli mají korpusy, které plní roli **archivační**, ať už u jazyků vymírajících, resp. ohrožených, jako livonština u Baltu či všech 11 sámských (laponských) dialektů apod.anebo u jazyků už dávno mrtvých, srov. např. korpus ugaritštiny, starobabylonštiny aj+**[[pojmy:diachronni|Diachronní korpus]]** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazykapokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší.
  
-Na základě dalších hledisek můžeme vymezit **monitorovací korpus**, který se chápe jako v ideálních proporcích sestavený a otagovaný korpus, k němuž se přidávají jak nové texty tak nové značky k existujícím korpusům starým, což má umožňovat srovnání korpusového záznamu stavu jazyka (etalonu) se změnami napříč časem. +Na základě dalších hledisek můžeme vymezit **monitorovací korpus**, který se chápe jako v ideálních proporcích sestavený a otagovaný korpus, k němuž se přidávají jak nové textytak nové značky k existujícím korpusům starým. To má umožňovat srovnání korpusového záznamu stavu jazyka (etalonu) se změnami napříč časem. 
  
-**Paralelní korpusy** jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusy sdílející řadu textů a vázané na jeden jazyk jako je český InterCorp. Z nedostatku paralelních korpusů se někdy užívají i **srovnatelné korpusy** (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem. +**[[pojmy:paralelni|Paralelní korpusy]]** jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusysdílející řadu textů a vázané na jeden jazykjako je český [[cnk:intercorp|InterCorp]]. Z nedostatku paralelních korpusů se někdy užívají i **srovnatelné korpusy** (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem. 
  
 +Příklady dalších korpusů spolu s jejich popisem najdete ve speciálním [[pojmy:korpusy|přehledu]].
  
 ===== Český národní korpus (ČNK) ===== ===== Český národní korpus (ČNK) =====
  
-Projekt [[http://www.korpus.cz|Českého národního korpusu]] byl založen v roce 1994 [[http://www.korpus.cz/view.php?2|prof. Františkem Čermákem]] (institucionálně je zaštítěn [[http://ucnk.ff.cuni.cz|Ústavem Českého národního korpusu]] při FF UK). +Projekt [[http://www.korpus.cz|Českého národního korpusu]] byl založen v roce 1994 [[http://ucnk.ff.cuni.cz/view.php?2|prof. Františkem Čermákem]] (institucionálně je zaštítěn [[http://ucnk.ff.cuni.cz|Ústavem Českého národního korpusu]] při FF UK). 
  
-Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky: +Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2021 zahrnuje následující složky: 
   * synchronní korpusy psané, řada SYN    * synchronní korpusy psané, řada SYN 
-  * synchronní korpusy mluvené, zejm. řadu Oral +  * synchronní korpusy mluvené, zejm. řadu ORAL  
 +  * webové korpusy ONLINE a NET
   * diachronní korpus DIAKORP    * diachronní korpus DIAKORP 
   * paralelní korpus InterCorp   * paralelní korpus InterCorp
 +  * specializované korpusy akviziční, autorské a další.
  
 Přístup ke všem korpusům prostřednictvím webového rozhraní je bezplatný, z licenčních důvodů je nutná registrace. ČNK zároveň poskytuje možnost hostování i mnoha dalším korpusům. Přístup ke všem korpusům prostřednictvím webového rozhraní je bezplatný, z licenčních důvodů je nutná registrace. ČNK zároveň poskytuje možnost hostování i mnoha dalším korpusům.
  
-Projekt ČNK se kromě budování korpusů (a tedy mapování jazykového stavu a vývoje češtiny) věnuje i zpřístupňování dat pro výzkumné účely zejména v oblasti automatického zpracování přirozeného jazyka (NLP), vývoji nových nástrojů pro vytěžování korpusů (např. [[pojmy:syd|SyD]]) a rozvoji metodologie korpusové lingvistiky i její popularizaci. +Projekt ČNK se kromě budování korpusů (a tedy mapování jazykového stavu a vývoje češtiny) věnuje i zpřístupňování dat pro výzkumné účely zejména v oblasti automatického zpracování přirozeného jazyka (//natural language processing, NLP//), vývoji nových nástrojů pro vytěžování korpusů (např. [[pojmy:syd|SyD]]) a rozvoji metodologie korpusové lingvistiky i její popularizaci.  
 + 
 +==== Související odkazy ==== 
 + 
 +<WRAP round box 50%> 
 +[[cnk:uvod|Korpusy ČNK]] • [[pojmy:prehled_pojmu|Přehled základních pojmů korpusové lingvistiky]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:reprezentativnost|Reprezentativnost korpusu]] • [[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:korpusy|Korpusy ve světě]] 
 +</WRAP>