AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
pojmy:korpus [2013/06/19 22:41] vaclavcvrcekpojmy:korpus [2013/09/13 14:21] – Schvaleno pro 1. verzi vaclavcvrcek
Řádek 7: Řádek 7:
 ===== Korpus a jeho využití ===== ===== Korpus a jeho využití =====
  
-Latinské slovo //corpus// znamenající „tělo, těleso“ seužívá v různých oborech, v lingvistice se od 50. let v angličtině a odtud i v dalších jazycích používá jako označení pro velký soubor elektronických textů, zpracovávaný a vytěžovaný specifickými softwarovými nástroji v počítači (pro odlišení se tu také někdy mluví o textových korpusech). Korpus je tedy záznamem a relativně objektivním modelem jazykové empirie a je a má být v základním, výchozím smyslu při svém zpracování zcela zbaven jakékoliv apriorní teorie a jiných vlivů, které jazyk nutně deformují a které by se do něj mohly promítat, ať je jejich autor míní sebelépe. Využívá ho (vedle jiných oborů) zvláště empirická lingvistika za účelem studia a poznání jazyka, resp. v šírším smyslu i k poznání dobové reality, již jazyk konceptualizuje a zachycuje. V tomto smyslu je korpus autentických záznamů jazyka zdrojem specializovaného i obecného poznání jazykové a sociální reality a její konceptualizace a kvantitou, kvalitou, setrvalostí i kontinuitou informací, jež nabízí, svým významem přesahuje obor lingvistiky. Povahou a možnostmi své nabídky mnohonásobně předčí jakékoliv jiné zdroje poznání a studia jazyka. +Latinské slovo //corpus// (znamenající „tělo, těleso“) se užívá v různých oborech, v lingvistice se od 50. let v angličtině a odtud i v dalších jazycích používá jako označení pro velký soubor elektronických textů, zpracovávaný a vytěžovaný specifickými softwarovými nástroji v počítači (pro odlišení se tu také někdy mluví o textových korpusech). Korpus je tedy záznamem a relativně objektivním modelem jazykové empirie. Je a má být v základním, výchozím smyslu při svém zpracování zcela zbaven jakékoliv apriorní teorie a jiných vlivů, které jazyk nutně deformují a které by se do něj mohly promítat, ať je jejich autor míní sebelépe. Využívá ho (vedle jiných oborů) zvláště empirická lingvistika za účelem studia a poznání jazyka, resp. v širším smyslu i k poznání dobové reality, již jazyk zachycuje. V tomto smyslu je korpus autentických záznamů jazyka zdrojem specializovaného i obecného poznání jazykové a sociální reality. Navíc kvantitou, kvalitou, setrvalostí i kontinuitou informací, jež nabízí, svým významem přesahuje obor lingvistiky. Povahou a možnostmi své nabídky mnohonásobně předčí jakékoliv jiné zdroje poznání a studia jazyka. 
  
-Dnešní rozsahy největších korpusů se pohybují řádově už ve stamiliónech a miliardách slov a jimi nabízená informace je, na rozdíl od zdrojů tradiční lingvistiky založené na manuálních excerptech a archivech, tak bohatá, že ji často nelze, bez použití dalších nástrojů, filtrů a zvláštních metod, bez rizika zahlcení informacemi přímo používat. Korpusy se liší od běžného elektronického archivu, tj. prostého úložiště daných textů s omezenými možnostmi prohledávání. Oproti archivu korpus vyniká nejen sofistikovaným [[pojmy:korpusovy_manazer|korpusovým manažerem]] schopným zpracovat miliardy slov, řadou speciálních programů a obvykle i vnesenou (lingvistickou) anotací každého slova, ale i celkovým plánovaným zaměřením na určitý cíl se záměrem ho textově maximálně pokrýt. Obvykle se tu pak mluví o [[pojmy:reprezentativnost|reprezentativnosti]] takového korpusu.+Dnešní rozsahy největších korpusů se pohybují řádově už ve stamiliónech a miliardách slov a jimi nabízená informace je, na rozdíl od zdrojů tradiční lingvistiky založené na manuálních excerptech (výpiscích) a archivech, tak bohatá, že ji často nelze, bez použití dalších nástrojů, filtrů a zvláštních metod, bez rizika zahlcení informacemi přímo používat. Korpusy se liší od běžného elektronického archivu, tj. prostého úložiště daných textů s omezenými možnostmi prohledávání. Oproti archivu korpus vyniká nejen sofistikovaným [[pojmy:korpusovy_manazer|korpusovým manažerem]] schopným zpracovat miliardy slov, řadou speciálních programů a obvykle i vnesenou (lingvistickou) anotací každého slova, ale i celkovým plánovaným zaměřením na určitý cíl se záměrem ho textově maximálně pokrýt. Obvykle se tu pak mluví o [[pojmy:reprezentativnost|reprezentativnosti]] takového korpusu.
  
-Žádný k. není a nemůže být záznamem celého jazyka, ten ostatně k mání a komplexnímu přímému studiu nebyl nikdy: jazyk je v tomto smyslu všude kolem nás a jen jeho malá část je zapsaná v textech. Staré lexikální archivy, velmi výběrově ho mapující, jsou z dnešního hlediska malé a nedokonalé (pro srovnání např. český lexikální archiv ÚJČ má 12-13 miliónů excerpt). Ani v korpusu ale rozhodně není k nalezení všechno, především ne v oblasti mluveného jazyka, šance na víc informací však roste spolu s korpusy. +Žádný korpus není a nemůže být záznamem celého jazyka, ten ostatně k mání a komplexnímu přímému studiu nebyl nikdy: jazyk je v tomto smyslu všude kolem nás a jen jeho malá část je zapsaná v textech. Staré lexikální archivy, velmi výběrově ho mapující, jsou z dnešního hlediska malé a nedokonalé (pro srovnání např. český lexikální archiv [[http://www.ujc.cas.cz/|ÚJČ]] má 12-13 miliónů excerpt). Ani v korpusu ale rozhodně není k nalezení všechno, především ne v oblasti mluveného jazyka, šance na víc informací však roste spolu s korpusy. 
  
-Obvykle, ne však vždy, se k. vybavují automatickou a různě pracnou anotací ([[pojmy:tag|tagováním]]), vnášející do něj většinou označení morfologického tvaru a slovního druhu (tj. označením takového tvaru a přidělením tvaru reprezentativního, tj. [[pojmy:lemma|lemmatu]]), dosud většinou pouze na úrovni jednotlivých tvarů, tj. textových výskytů ([[pojmy:token|tokenů]]) lexému. Automatické tagování víceslovných lemmat je dosud v počátcích. Tomuto vlastnímu lingvistickému značkování předchází důkladná bibliografická anotace zachycující řadu vnějších rysů textů, od autora, názvu, roku až po komplexně označovaný žánr aj. +Obvykle, ne však vždy, se korpusy vybavují automatickou a různě pracnou anotací ([[pojmy:tag|tagováním]]), vnášející do něj většinou označení morfologického tvaru a slovního druhu (tj. označením takového tvaru a přidělením tvaru reprezentativního, tj. [[pojmy:lemma|lemmatu]]), dosud většinou pouze na úrovni jednotlivých tvarů, tj. textových výskytů ([[pojmy:token|tokenů]]) lexému. Automatické tagování víceslovných lemmat je dosud v počátcích. Tomuto vlastnímu lingvistickému značkování předchází důkladná bibliografická anotace zachycující řadu vnějších rysů textů, od autora, názvu, roku až po komplexně označovaný žánr aj. 
  
 ===== Typy korpusů =====  ===== Typy korpusů ===== 
Řádek 25: Řádek 25:
   - z hlediska vymezeného účelu různé   - z hlediska vymezeného účelu různé
  
-Ke **specializovaným korpusům** lze pro českou oblast počítat např. KSK (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj.+Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj.
  
-**Mluvený korpus** je ze své podstaty synchronní (pro češtinu jsou momentálně k dispozici už 4 menší, PMK, BMK, Oral2006Oral2008), volně sem však patří i korpus nahrávek žáků ve škole Schola2010, existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální).+**[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jsou momentálně k dispozici už 4 menší, [[cnk:pmk|PMK]][[cnk:bmk|BMK]][[cnk:oral2006|ORAL2006]][[cnk:oral2008|ORAL2008]]), volně sem však patří i korpus nahrávek žáků ve škole [[cnk:schola2010|SCHOLA2010]], existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální).
  
-**Diachronní korpus** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší.+**[[pojmy:diachronni|Diachronní korpus]]** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší.
  
 Specifickou roli mají korpusy, které plní roli **archivační**, ať už u jazyků vymírajících, resp. ohrožených, jako livonština u Baltu či všech 11 sámských (laponských) dialektů apod., anebo u jazyků už dávno mrtvých, srov. např. korpus ugaritštiny, starobabylonštiny aj.  Specifickou roli mají korpusy, které plní roli **archivační**, ať už u jazyků vymírajících, resp. ohrožených, jako livonština u Baltu či všech 11 sámských (laponských) dialektů apod., anebo u jazyků už dávno mrtvých, srov. např. korpus ugaritštiny, starobabylonštiny aj. 
  
-Na základě dalších hledisek můžeme vymezit **monitorovací korpus**, který se chápe jako v ideálních proporcích sestavený a otagovaný korpus, k němuž se přidávají jak nové texty tak nové značky k existujícím korpusům starým, což má umožňovat srovnání korpusového záznamu stavu jazyka (etalonu) se změnami napříč časem. +Na základě dalších hledisek můžeme vymezit **monitorovací korpus**, který se chápe jako v ideálních proporcích sestavený a otagovaný korpus, k němuž se přidávají jak nové textytak nové značky k existujícím korpusům starým. To má umožňovat srovnání korpusového záznamu stavu jazyka (etalonu) se změnami napříč časem. 
  
-**Paralelní korpusy** jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusy sdílející řadu textů a vázané na jeden jazyk jako je český InterCorp. Z nedostatku paralelních korpusů se někdy užívají i **srovnatelné korpusy** (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem. +**[[pojmy:paralelni|Paralelní korpusy]]** jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusysdílející řadu textů a vázané na jeden jazykjako je český [[cnk:intercorp|InterCorp]]. Z nedostatku paralelních korpusů se někdy užívají i **srovnatelné korpusy** (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem. 
  
  
Řádek 44: Řádek 44:
 Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky:  Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky: 
   * synchronní korpusy psané, řada SYN    * synchronní korpusy psané, řada SYN 
-  * synchronní korpusy mluvené, zejm. řadu Oral +  * synchronní korpusy mluvené, zejm. řadu ORAL 
   * diachronní korpus DIAKORP    * diachronní korpus DIAKORP 
   * paralelní korpus InterCorp   * paralelní korpus InterCorp
Řádek 50: Řádek 50:
 Přístup ke všem korpusům prostřednictvím webového rozhraní je bezplatný, z licenčních důvodů je nutná registrace. ČNK zároveň poskytuje možnost hostování i mnoha dalším korpusům. Přístup ke všem korpusům prostřednictvím webového rozhraní je bezplatný, z licenčních důvodů je nutná registrace. ČNK zároveň poskytuje možnost hostování i mnoha dalším korpusům.
  
-Projekt ČNK se kromě budování korpusů (a tedy mapování jazykového stavu a vývoje češtiny) věnuje i zpřístupňování dat pro výzkumné účely zejména v oblasti automatického zpracování přirozeného jazyka (NLP), vývoji nových nástrojů pro vytěžování korpusů (např. [[pojmy:syd|SyD]]) a rozvoji metodologie korpusové lingvistiky i její popularizaci. +Projekt ČNK se kromě budování korpusů (a tedy mapování jazykového stavu a vývoje češtiny) věnuje i zpřístupňování dat pro výzkumné účely zejména v oblasti automatického zpracování přirozeného jazyka (//natural language processing, NLP//), vývoji nových nástrojů pro vytěžování korpusů (např. [[pojmy:syd|SyD]]) a rozvoji metodologie korpusové lingvistiky i její popularizaci.  
 + 
 +==== Související odkazy ==== 
 + 
 +<WRAP round box 60%> 
 +[[cnk:uvod|Korpusy ČNK]] • [[pojmy:prehled_pojmu|Přehled základních pojmů korpusové lingvistiky]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:reprezentativnost|Reprezentativnost korpusu]] • [[pojmy:struktura_korpusu|Struktura korpusu]] 
 +</WRAP>