Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
pojmy:korpus [2013/06/18 17:13] – vaclavcvrcek | pojmy:korpus [2013/09/13 14:21] – Schvaleno pro 1. verzi vaclavcvrcek |
---|
====== Korpus ====== | ====== Korpus ====== |
| |
Jazykový korpus je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby v jednotném formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy, zejména slova a slovní spojení ([[pojmy:kolokace|kolokace]]). Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný. Jeho hlavní předností je vedle užití přirozeného jazykového materiálu i schopnost vypovídat o [[pojmy:frekvence|frekvenci]] (četnosti) jevů a jejich typickém užití, což je informace jen pomocí badatelovy intuice nezjistitelná. Jelikož do korpusu vstupují texty jako celek, poskytuje na rozdíl třeba od lístkového katalogu nevýběrové informace o všech typech jazykových jevů. | Jazykový korpus je rozsáhlý soubor **autentických textů** (psaných nebo mluvených) převedený do **elektronické podoby** v jednotném formátu tak, aby v něm bylo možné jednoduše **vyhledávat** jazykové jevy, zejména slova a slovní spojení ([[pojmy:kolokace|kolokace]]). Korpus zobrazuje jazykové jevy v jejich **přirozeném kontextu**, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný. |
| |
Latinské slovo //corpus// znamenající „tělo, těleso“ seužívá v různých oborech, v lingvistice se od 50. let v angličtině a odtud i v dalších jazycích používá jako označení pro velký soubor elektronických textů, zpracovávaný a vytěžovaný specifickými softwarovými nástroji v počítači (pro odlišení se tu také někdy mluví o textových korpusech). Korpus je tedy záznamem a relativně objektivním modelem jazykové empirie a je a má být v základním, výchozím smyslu při svém zpracování zcela zbaven jakékoliv apriorní teorie a jiných vlivů, které jazyk nutně deformují a které by se do něj mohly promítat, ať je jejich autor míní sebelépe. Využívá ho (vedle jiných oborů) zvláště empirická lingvistika za účelem studia a poznání jazyka, resp. v šírším smyslu i k poznání dobové reality, již jazyk konceptualizuje a zachycuje. V tomto smyslu je korpus autentických záznamů jazyka zdrojem specializovaného i obecného poznání jazykové a sociální reality a její konceptualizace a kvantitou, kvalitou, setrvalostí i kontinuitou informací, jež nabízí, svým významem přesahuje obor lingvistiky. Povahou a možnostmi své nabídky mnohonásobně předčí jakékoliv jiné zdroje poznání a studia jazyka. | Hlavní předností korpusu je vedle užití přirozeného jazykového materiálu i schopnost vypovídat o [[pojmy:frekvence|frekvenci]] (četnosti) jevů a jejich typickém úzu, což je informace jen pomocí badatelovy intuice nezjistitelná. Jelikož do korpusu vstupují texty jako celek, poskytuje na rozdíl třeba od lístkového katalogu nevýběrové informace o všech typech jazykových jevů. |
| |
Dnešní rozsahy největších korpusů se pohybují řádově už ve stamiliónech a miliardách slov a jimi nabízená informace je, na rozdíl od zdrojů tradiční lingvistiky založené na manuálních excerptech a archivech, tak bohatá, že ji často nelze, bez použití dalších nástrojů, filtrů a zvláštních metod, bez rizika zahlcení informacemi přímo používat. Korpusy se liší od běžného elektronického archivu, tj. prostého úložiště daných textů s omezenými možnostmi prohledávání. Oproti archivu korpus vyniká nejen sofistikovaným [[pojmy:korpusovy_manazer|korpusovým manažerem]] schopným zpracovat miliardy slov, řadou speciálních programů a obvykle i vnesenou (lingvistickou) anotací každého slova, ale i celkovým plánovaným zaměřením na určitý cíl se záměrem ho textově maximálně pokrýt. Obvykle se tu pak mluví o [[pojmy:reprezentativnost|reprezentativnosti]] takového korpusu. | ===== Korpus a jeho využití ===== |
| |
Žádný k. není a nemůže být záznamem celého jazyka, ten ostatně k mání a komplexnímu přímému studiu nebyl nikdy: jazyk je v tomto smyslu všude kolem nás a jen jeho malá část je zapsaná v textech. Staré lexikální archivy, velmi výběrově ho mapující, jsou z dnešního hlediska malé a nedokonalé (pro srovnání např. český lexikální archiv ÚJČ má 12-13 miliónů excerpt). Ani v korpusu ale rozhodně není k nalezení všechno, především ne v oblasti mluveného jazyka, šance na víc informací však roste spolu s korpusy. | Latinské slovo //corpus// (znamenající „tělo, těleso“) se užívá v různých oborech, v lingvistice se od 50. let v angličtině a odtud i v dalších jazycích používá jako označení pro velký soubor elektronických textů, zpracovávaný a vytěžovaný specifickými softwarovými nástroji v počítači (pro odlišení se tu také někdy mluví o textových korpusech). Korpus je tedy záznamem a relativně objektivním modelem jazykové empirie. Je a má být v základním, výchozím smyslu při svém zpracování zcela zbaven jakékoliv apriorní teorie a jiných vlivů, které jazyk nutně deformují a které by se do něj mohly promítat, ať je jejich autor míní sebelépe. Využívá ho (vedle jiných oborů) zvláště empirická lingvistika za účelem studia a poznání jazyka, resp. v širším smyslu i k poznání dobové reality, již jazyk zachycuje. V tomto smyslu je korpus autentických záznamů jazyka zdrojem specializovaného i obecného poznání jazykové a sociální reality. Navíc kvantitou, kvalitou, setrvalostí i kontinuitou informací, jež nabízí, svým významem přesahuje obor lingvistiky. Povahou a možnostmi své nabídky mnohonásobně předčí jakékoliv jiné zdroje poznání a studia jazyka. |
| |
Obvykle, ne však vždy, se k. vybavují automatickou a různě pracnou anotací ([[pojmy:tag|tagováním]]), vnášející do něj většinou označení morfologického tvaru a slovního druhu (tj. označením takového tvaru a přidělením tvaru reprezentativního, tj. [[pojmy:lemma|lemmatu]]), dosud většinou pouze na úrovni jednotlivých tvarů, tj. textových výskytů ([[pojmy:token|tokenů]]) lexému. Automatické tagování víceslovných lemmat je dosud v počátcích. Tomuto vlastnímu lingvistickému značkování předchází důkladná bibliografická anotace zachycující řadu vnějších rysů textů, od autora, názvu, roku až po komplexně označovaný žánr aj. | Dnešní rozsahy největších korpusů se pohybují řádově už ve stamiliónech a miliardách slov a jimi nabízená informace je, na rozdíl od zdrojů tradiční lingvistiky založené na manuálních excerptech (výpiscích) a archivech, tak bohatá, že ji často nelze, bez použití dalších nástrojů, filtrů a zvláštních metod, bez rizika zahlcení informacemi přímo používat. Korpusy se liší od běžného elektronického archivu, tj. prostého úložiště daných textů s omezenými možnostmi prohledávání. Oproti archivu korpus vyniká nejen sofistikovaným [[pojmy:korpusovy_manazer|korpusovým manažerem]] schopným zpracovat miliardy slov, řadou speciálních programů a obvykle i vnesenou (lingvistickou) anotací každého slova, ale i celkovým plánovaným zaměřením na určitý cíl se záměrem ho textově maximálně pokrýt. Obvykle se tu pak mluví o [[pojmy:reprezentativnost|reprezentativnosti]] takového korpusu. |
| |
| Žádný korpus není a nemůže být záznamem celého jazyka, ten ostatně k mání a komplexnímu přímému studiu nebyl nikdy: jazyk je v tomto smyslu všude kolem nás a jen jeho malá část je zapsaná v textech. Staré lexikální archivy, velmi výběrově ho mapující, jsou z dnešního hlediska malé a nedokonalé (pro srovnání např. český lexikální archiv [[http://www.ujc.cas.cz/|ÚJČ]] má 12-13 miliónů excerpt). Ani v korpusu ale rozhodně není k nalezení všechno, především ne v oblasti mluveného jazyka, šance na víc informací však roste spolu s korpusy. |
| |
| Obvykle, ne však vždy, se korpusy vybavují automatickou a různě pracnou anotací ([[pojmy:tag|tagováním]]), vnášející do něj většinou označení morfologického tvaru a slovního druhu (tj. označením takového tvaru a přidělením tvaru reprezentativního, tj. [[pojmy:lemma|lemmatu]]), dosud většinou pouze na úrovni jednotlivých tvarů, tj. textových výskytů ([[pojmy:token|tokenů]]) lexému. Automatické tagování víceslovných lemmat je dosud v počátcích. Tomuto vlastnímu lingvistickému značkování předchází důkladná bibliografická anotace zachycující řadu vnějších rysů textů, od autora, názvu, roku až po komplexně označovaný žánr aj. |
| |
===== Typy korpusů ===== | ===== Typy korpusů ===== |
- z hlediska vymezeného účelu různé | - z hlediska vymezeného účelu různé |
| |
Ke **specializovaným korpusům** lze pro českou oblast počítat např. KSK (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj. | Ke **specializovaným korpusům** lze pro českou oblast počítat např. [[cnk:ksk-dopisy|KSK]] (Korpus soukromé korespondence) či např. korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), nebo korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj. |
| |
**Mluvený korpus** je ze své podstaty synchronní (pro češtinu jsou momentálně k dispozici už 4 menší, PMK, BMK, Oral2006, Oral2008), volně sem však patří i korpus nahrávek žáků ve škole Schola2010, existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální). | **[[pojmy:mluveny|Mluvený korpus]]** je ze své podstaty [[pojmy:synchronni|synchronní]] (pro češtinu jsou momentálně k dispozici už 4 menší, [[cnk:pmk|PMK]], [[cnk:bmk|BMK]], [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]]), volně sem však patří i korpus nahrávek žáků ve škole [[cnk:schola2010|SCHOLA2010]], existují i korpusy vznikající z fonetických či prozodických důvodů aj. Korpusy však mohou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpusy multimodální (ev. multimediální). |
| |
**Diachronní korpus** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší. | **[[pojmy:diachronni|Diachronní korpus]]** je vlastně soubor více korpusů z různých, resp. všech dob vývoje jazyka, pokud už jsou elektronický dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší. |
| |
Specifickou roli mají korpusy, které plní roli **archivační**, ať už u jazyků vymírajících, resp. ohrožených, jako livonština u Baltu či všech 11 sámských (laponských) dialektů apod., anebo u jazyků už dávno mrtvých, srov. např. korpus ugaritštiny, starobabylonštiny aj. | Specifickou roli mají korpusy, které plní roli **archivační**, ať už u jazyků vymírajících, resp. ohrožených, jako livonština u Baltu či všech 11 sámských (laponských) dialektů apod., anebo u jazyků už dávno mrtvých, srov. např. korpus ugaritštiny, starobabylonštiny aj. |
| |
Na základě dalších hledisek můžeme vymezit **monitorovací korpus**, který se chápe jako v ideálních proporcích sestavený a otagovaný korpus, k němuž se přidávají jak nové texty tak nové značky k existujícím korpusům starým, což má umožňovat srovnání korpusového záznamu stavu jazyka (etalonu) se změnami napříč časem. | Na základě dalších hledisek můžeme vymezit **monitorovací korpus**, který se chápe jako v ideálních proporcích sestavený a otagovaný korpus, k němuž se přidávají jak nové texty, tak nové značky k existujícím korpusům starým. To má umožňovat srovnání korpusového záznamu stavu jazyka (etalonu) se změnami napříč časem. |
| |
**Paralelní korpusy** jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusy sdílející řadu textů a vázané na jeden jazyk jako je český InterCorp. Z nedostatku paralelních korpusů se někdy užívají i **srovnatelné korpusy** (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem. | **[[pojmy:paralelni|Paralelní korpusy]]** jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jazyků. Zvláštním případem jsou vícejazyčné paralelní korpusy, sdílející řadu textů a vázané na jeden jazyk, jako je český [[cnk:intercorp|InterCorp]]. Z nedostatku paralelních korpusů se někdy užívají i **srovnatelné korpusy** (comparable corpora) založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem. |
| |
| |
Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky: | Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky: |
* synchronní korpusy psané, řada SYN | * synchronní korpusy psané, řada SYN |
* synchronní korpusy mluvené, zejm. řadu Oral | * synchronní korpusy mluvené, zejm. řadu ORAL |
* diachronní korpus DIAKORP | * diachronní korpus DIAKORP |
* paralelní korpus InterCorp | * paralelní korpus InterCorp |
Přístup ke všem korpusům prostřednictvím webového rozhraní je bezplatný, z licenčních důvodů je nutná registrace. ČNK zároveň poskytuje možnost hostování i mnoha dalším korpusům. | Přístup ke všem korpusům prostřednictvím webového rozhraní je bezplatný, z licenčních důvodů je nutná registrace. ČNK zároveň poskytuje možnost hostování i mnoha dalším korpusům. |
| |
Projekt ČNK se kromě budování korpusů (a tedy mapování jazykového stavu a vývoje češtiny) věnuje i zpřístupňování dat pro výzkumné účely zejména v oblasti automatického zpracování přirozeného jazyka (NLP), vývoji nových nástrojů pro vytěžování korpusů (např SyD, ↑software korpusový a lingvistický) a rozvoji metodologie korpusové lingvistiky i její popularizaci. | Projekt ČNK se kromě budování korpusů (a tedy mapování jazykového stavu a vývoje češtiny) věnuje i zpřístupňování dat pro výzkumné účely zejména v oblasti automatického zpracování přirozeného jazyka (//natural language processing, NLP//), vývoji nových nástrojů pro vytěžování korpusů (např. [[pojmy:syd|SyD]]) a rozvoji metodologie korpusové lingvistiky i její popularizaci. |
| |
| ==== Související odkazy ==== |
| |
| <WRAP round box 60%> |
| [[cnk:uvod|Korpusy ČNK]] • [[pojmy:prehled_pojmu|Přehled základních pojmů korpusové lingvistiky]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:reprezentativnost|Reprezentativnost korpusu]] • [[pojmy:struktura_korpusu|Struktura korpusu]] |
| </WRAP> |