Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
pojmy:korpus [2013/08/22 11:52] – alzbetavitkova | pojmy:korpus [2013/09/13 14:21] – Schvaleno pro 1. verzi vaclavcvrcek |
---|
===== Korpus a jeho využití ===== | ===== Korpus a jeho využití ===== |
| |
Latinské slovo //corpus// (znamenající „tělo, těleso“) se užívá v různých oborech, v lingvistice se od 50. let v angličtině a odtud i v dalších jazycích používá jako označení pro velký soubor elektronických textů, zpracovávaný a vytěžovaný specifickými softwarovými nástroji v počítači (pro odlišení se tu také někdy mluví o textových korpusech). Korpus je tedy záznamem a relativně objektivním modelem jazykové empirie (zkušenosti). Je a má být v základním, výchozím smyslu při svém zpracování zcela zbaven jakékoliv zkušenostmi nepodložené teorie a jiných vlivů, které jazyk nutně deformují a které by se do něj mohly promítat, ať je jejich autor míní sebelépe. Využívá ho (vedle jiných oborů) zvláště empirická lingvistika za účelem studia a poznání jazyka, resp. v širším smyslu i k poznání dobové reality, již jazyk zachycuje. V tomto smyslu je korpus autentických záznamů jazyka zdrojem specializovaného i obecného poznání jazykové a sociální reality. Navíc kvantitou, kvalitou, setrvalostí i kontinuitou informací, jež nabízí, svým významem přesahuje obor lingvistiky. Povahou a možnostmi své nabídky mnohonásobně předčí jakékoliv jiné zdroje poznání a studia jazyka. | Latinské slovo //corpus// (znamenající „tělo, těleso“) se užívá v různých oborech, v lingvistice se od 50. let v angličtině a odtud i v dalších jazycích používá jako označení pro velký soubor elektronických textů, zpracovávaný a vytěžovaný specifickými softwarovými nástroji v počítači (pro odlišení se tu také někdy mluví o textových korpusech). Korpus je tedy záznamem a relativně objektivním modelem jazykové empirie. Je a má být v základním, výchozím smyslu při svém zpracování zcela zbaven jakékoliv apriorní teorie a jiných vlivů, které jazyk nutně deformují a které by se do něj mohly promítat, ať je jejich autor míní sebelépe. Využívá ho (vedle jiných oborů) zvláště empirická lingvistika za účelem studia a poznání jazyka, resp. v širším smyslu i k poznání dobové reality, již jazyk zachycuje. V tomto smyslu je korpus autentických záznamů jazyka zdrojem specializovaného i obecného poznání jazykové a sociální reality. Navíc kvantitou, kvalitou, setrvalostí i kontinuitou informací, jež nabízí, svým významem přesahuje obor lingvistiky. Povahou a možnostmi své nabídky mnohonásobně předčí jakékoliv jiné zdroje poznání a studia jazyka. |
| |
Dnešní rozsahy největších korpusů se pohybují řádově už ve stamiliónech a miliardách slov a jimi nabízená informace je, na rozdíl od zdrojů tradiční lingvistiky založené na manuálních excerptech (výpiscích) a archivech, tak bohatá, že ji často nelze, bez použití dalších nástrojů, filtrů a zvláštních metod, bez rizika zahlcení informacemi přímo používat. Korpusy se liší od běžného elektronického archivu, tj. prostého úložiště daných textů s omezenými možnostmi prohledávání. Oproti archivu korpus vyniká nejen sofistikovaným [[pojmy:korpusovy_manazer|korpusovým manažerem]] schopným zpracovat miliardy slov, řadou speciálních programů a obvykle i vnesenou (lingvistickou) anotací každého slova, ale i celkovým plánovaným zaměřením na určitý cíl se záměrem ho textově maximálně pokrýt. Obvykle se tu pak mluví o [[pojmy:reprezentativnost|reprezentativnosti]] takového korpusu. | Dnešní rozsahy největších korpusů se pohybují řádově už ve stamiliónech a miliardách slov a jimi nabízená informace je, na rozdíl od zdrojů tradiční lingvistiky založené na manuálních excerptech (výpiscích) a archivech, tak bohatá, že ji často nelze, bez použití dalších nástrojů, filtrů a zvláštních metod, bez rizika zahlcení informacemi přímo používat. Korpusy se liší od běžného elektronického archivu, tj. prostého úložiště daných textů s omezenými možnostmi prohledávání. Oproti archivu korpus vyniká nejen sofistikovaným [[pojmy:korpusovy_manazer|korpusovým manažerem]] schopným zpracovat miliardy slov, řadou speciálních programů a obvykle i vnesenou (lingvistickou) anotací každého slova, ale i celkovým plánovaným zaměřením na určitý cíl se záměrem ho textově maximálně pokrýt. Obvykle se tu pak mluví o [[pojmy:reprezentativnost|reprezentativnosti]] takového korpusu. |
Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj. | Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj. |
| |
**[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jsou momentálně k dispozici už 4 menší, [[cnk:pmk|PMK]], [[cnk:bmk|BMK]], [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]]), volně sem však patří i korpus nahrávek žáků ve škole SCHOLA2010, existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální). | **[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jsou momentálně k dispozici už 4 menší, [[cnk:pmk|PMK]], [[cnk:bmk|BMK]], [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]]), volně sem však patří i korpus nahrávek žáků ve škole [[cnk:schola2010|SCHOLA2010]], existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální). |
| |
**[[pojmy:diachronni|Diachronní korpus]]** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší. | **[[pojmy:diachronni|Diachronní korpus]]** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší. |
| |
==== Související odkazy ==== | ==== Související odkazy ==== |
<WRAP round box 49%> | |
| <WRAP round box 60%> |
[[cnk:uvod|Korpusy ČNK]] • [[pojmy:prehled_pojmu|Přehled základních pojmů korpusové lingvistiky]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:reprezentativnost|Reprezentativnost korpusu]] • [[pojmy:struktura_korpusu|Struktura korpusu]] | [[cnk:uvod|Korpusy ČNK]] • [[pojmy:prehled_pojmu|Přehled základních pojmů korpusové lingvistiky]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:reprezentativnost|Reprezentativnost korpusu]] • [[pojmy:struktura_korpusu|Struktura korpusu]] |
</WRAP> | </WRAP> |