Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:struktura [2018/07/30 14:54] – [Korpusy mluvené] michalskrabal | cnk:struktura [2021/02/17 20:10] (aktuální) – [Webové] vaclavcvrcek |
---|
====== Struktura Českého národního korpusu ====== | ====== Struktura Českého národního korpusu ====== |
| |
Korpusy ČNK [[pojmy:reprezentativnost|reprezentují]] buď [[pojmy:psany|psanou češtinu]], a to z pohledu [[pojmy:synchronni|synchronního]] nebo [[pojmy:diachronni|diachronního]], nebo češtinu [[cnk:struktura#korpusy_mluvene|mluvenou]], v níž máme k dispozici především data [[pojmy:synchronni|současná]]. Paralelní korpusy, které jsou rovněž součástí ČNK, umožňují analyzovat [[cnk:intercorp|jazyk překladů]]. Mimo tuto základní klasifikaci pak leží korpusy [[cnk:struktura#specializované|specializované]]. | Korpusy ČNK [[pojmy:reprezentativnost|reprezentují]] buď [[pojmy:psany|psanou češtinu]] -- a to z pohledu [[pojmy:synchronni|synchronního]], nebo [[pojmy:diachronni|diachronního]] --, anebo češtinu [[cnk:struktura#korpusy_mluvene|mluvenou]], v níž máme k dispozici především data [[pojmy:synchronni|současná]]. Paralelní korpusy, které jsou rovněž součástí ČNK, umožňují analyzovat [[cnk:intercorp|jazyk překladů]]. Mimo tuto základní klasifikaci pak leží korpusy [[cnk:struktura#specializované|specializované]]. |
| |
Ke korpusům lze přes různá [[pojmy:korpusovy_manazer|rozhraní]] (zvaná též korpusové manažery) -- v současnosti zejména [[manualy:kontext:index|KonText]]. | Ke korpusům lze přes různá [[pojmy:korpusovy_manazer|rozhraní]] (zvaná též korpusové manažery) -- v současnosti zejména [[manualy:kontext:index|KonText]]. |
==== Obecné ==== | ==== Obecné ==== |
| |
Do řady [[SYN]] – tedy mezi **syn**chronní korpusy -- řadíme stomilionové žánrově vyvážené korpusy vytvářené s odstupem pěti let **[[SYN2015|SYN2015]]**, [[SYN2010|SYN2010]], [[SYN2005|SYN2005]], [[SYN2000|SYN2000]], i obsáhlejší (avšak žánrově nevyvážené) korpusy složené pouze z publicistických textů **[[SYN2013PUB|SYN2013PUB]]**, [[SYN2009PUB|SYN2009PUB]], [[SYN2006PUB|SYN2006PUB]]. Spojení všech těchto nezměnitelných, [[pojmy:lemma|lemmatizovaných]] a [[pojmy:anotace|anotovaných]] korpusů představuje největší korpus **[[SYN|SYN]]**. | Do řady [[SYN]] – tedy mezi **syn**chronní korpusy -- řadíme stomilionové žánrově vyvážené korpusy vytvářené s odstupem pěti let **[[SYN2020|SYN2020]]**, [[SYN2015|SYN2015]], [[SYN2010|SYN2010]], [[SYN2005|SYN2005]], [[SYN2000|SYN2000]], i obsáhlejší (avšak žánrově nevyvážené) korpusy složené pouze z publicistických textů **[[SYN2013PUB|SYN2013PUB]]**, [[SYN2009PUB|SYN2009PUB]], [[SYN2006PUB|SYN2006PUB]]. Spojení všech těchto nezměnitelných, [[pojmy:lemma|lemmatizovaných]] a [[pojmy:anotace|anotovaných]] korpusů představuje největší korpus **[[SYN|SYN]]**. |
| |
Všechny korpusy řady SYN jsou od roku 2014 plně [[pojmy:referencni|referenční]], tj. neměnné. Korpus SYN je verzovaný, což znamená, že je referenční v jednotlivých verzích, které se vydávají každý rok. | Všechny korpusy řady SYN jsou od roku 2014 plně [[pojmy:referencni|referenční]], tj. neměnné. Korpus SYN je verzovaný, což znamená, že je referenční v jednotlivých verzích, které se vydávají každý rok. |
| |
| ==== Webové ==== |
| |
| Korpusy, jejichž obsah tvoří texty, které jsou k dispozici na internetu, jsou použitelné jednak pro studium specifik internetové komunikace a jednak pro studium diskurzu. Za prvním účelem je v ČNK vyvíjena řada [[cnk:net|NET]], kde jsou texty odrážející charakteristické rysy polooficiální online komunikace (konkrétně zahrnuje diskusní fóra a osobní blogy). Studium aktuálního diskurzu a probíhajících jazykových změn umožňuje korpus [[cnk:online|ONLINE]], který je tvořen webovou žurnalistikou, sociálními sítěmi a diskusemi a který je každodenně aktualizován. |
| |
| Vedle toho ČNK hostuje několik webových korpusů, jejichž primárním cílem je zpřístupnit velké objemy dat, konkrétně skupinu srovnatelných korpusů řady [[cnk:aranea|Aranea]] pro 14 jazyků a řady WaC pro [[cnk:ukwac|angličtinu]], [[cnk:dewac|němčinu]], [[cnk:frwac|francouzštinu]] a [[cnk:itwac|italštinu]]. |
| |
| |
==== Specializované ==== | ==== Specializované ==== |
O neformální, dialogické, mluvené češtině se nejvíc dozvíme z korpusů řady [[ORAL|ORAL]]. Tvoří ji korpusy **[[ORAL2013|ORAL2013]]** (2,8 mil.), [[ORAL2008|ORAL2008]] (1 mil.) a [[ORAL2006|ORAL2006]] (1 mil.). Všechny korpusy řady ORAL obsahují řadu sociolingvistických informací o mluvčích. Pouze ORAL2013 nabízí data z celé ČR a přístup i ke zvukové stopě, ostatní korpusy mluvené češtiny obsahují transkripci, která zachycuje a zohledňuje vybrané jevy [[pojmy:mluveny|mluveného jazyka]]. Tuto linii následuje korpus [[ORTOFON|ORTOFON]]. | O neformální, dialogické, mluvené češtině se nejvíc dozvíme z korpusů řady [[ORAL|ORAL]]. Tvoří ji korpusy **[[ORAL2013|ORAL2013]]** (2,8 mil.), [[ORAL2008|ORAL2008]] (1 mil.) a [[ORAL2006|ORAL2006]] (1 mil.). Všechny korpusy řady ORAL obsahují řadu sociolingvistických informací o mluvčích. Pouze ORAL2013 nabízí data z celé ČR a přístup i ke zvukové stopě, ostatní korpusy mluvené češtiny obsahují transkripci, která zachycuje a zohledňuje vybrané jevy [[pojmy:mluveny|mluveného jazyka]]. Tuto linii následuje korpus [[ORTOFON|ORTOFON]]. |
| |
Brněnskou češtinu z let 1994-1999 obsahuje v téměř pěti stech tisících slovech **[[BMK|Brněnský mluvený korpus]]**, **[[PMK|Pražský mluvený korpus]]** jakožto první korpus mluvené češtiny má téměř sedm set tisíc slov založených na nahrávkách z let 1988-1996. | Brněnskou češtinu z let 1994--1999 obsahuje v téměř pěti stech tisících slovech **[[BMK|Brněnský mluvený korpus]]**, **[[PMK|Pražský mluvený korpus]]** jakožto první korpus mluvené češtiny má téměř sedm set tisíc slov založených na nahrávkách z let 1988--1996. |
| |
Specializovaný korpus vyučovacích hodin **[[SCHOLA2010|SCHOLA2010]]** obsahuje 790 000 slov pronesených o školních hodinách učiteli i žáky - mluva dětí a mládeže jinak v mluvených korpusech řady Oral zachycena není. | Specializovaný korpus vyučovacích hodin **[[SCHOLA2010|SCHOLA2010]]** obsahuje 790 000 slov pronesených o školních hodinách učiteli i žáky - mluva dětí a mládeže jinak v mluvených korpusech řady Oral zachycena není. |
| |
Korpus **[[cnk:dialekt|DIALEKT]]** prezentuje tradiční teritoriální dialekty zachycené na území celé České republiky. Ve své první verzi obsahuje cca 100 000 slov a bude se postupně rozšiřovat. Nahrávky pocházejí ze dvou období, starší zahrnuje dobu od konce 50. let do 80. let 20. století, do nové vrstvy jsou zařazeny nahrávky z období od 90. let 20. století až do současnosti. Nářeční materiál je zpracováván tak, že má dvě úrovně přepisu: dialektologickou a ortografickou. | Korpus **[[cnk:dialekt|DIALEKT]]** prezentuje tradiční teritoriální dialekty zachycené na území celé České republiky. Ve své první verzi obsahuje cca 100 000 slov a bude se postupně rozšiřovat. Nahrávky pocházejí ze dvou období: starší zahrnuje dobu od konce 50. let do 80. let 20. století, do nové vrstvy jsou zařazeny nahrávky z období od 90. let 20. století až do současnosti. Nářeční materiál je zpracováván tak, že má dvě úrovně přepisu: dialektologickou a ortografickou. |
| |
===== Diachronní korpus ===== | ===== Diachronní korpus ===== |
==== Jednojazyčné ==== | ==== Jednojazyčné ==== |
| |
ČNK nezpřístupňuje pouze své vlastní korpusy, ale hostuje i řadu korpusů vytvořených jinde. Jedná se např. o **[[dotko|DOTKO]]** a **[[hotko|HOTKO]]**, nereferenční korpusy dolní a horní lužické srbštiny, které obsahují 12 a 36 milionů slov. Korpusy nejsou ani [[pojmy:lemma|lemmatizované]] ani [[pojmy:tag|morfologicky označkované]]. | ČNK nezpřístupňuje pouze své vlastní korpusy, ale hostuje i řadu korpusů vytvořených jinde. Jedná se např. o **[[dotko|DOTKO]]** a **[[hotko|HOTKO]]**, nereferenční korpusy dolní a horní lužické srbštiny, které obsahují 12 a 36 milionů slov. Korpusy nejsou ani [[pojmy:lemma|lemmatizované]], ani [[pojmy:tag|morfologicky označkované]]. |
| |
V rozhraní Kontext jsou rovněž přístupné rozsáhlé webové korpusy vytvořené mimo ČNK: | V rozhraní Kontext jsou rovněž přístupné rozsáhlé webové korpusy vytvořené mimo ČNK: |
Paralelní vícejazyčný korpus [[cnk:intercorp|InterCorp]] slouží ke kontrastivnímu a translatologickému zkoumání. Obsahuje texty v několika jazykových mutacích (vždy je přítomna česká verze), které jsou k sobě vzájemně zarovnané po větách. InterCorp je verzovaný korpus, tj. zpětně plně dostupný v jednotlivých verzích, které přibývají zhruba jednou ročně. | Paralelní vícejazyčný korpus [[cnk:intercorp|InterCorp]] slouží ke kontrastivnímu a translatologickému zkoumání. Obsahuje texty v několika jazykových mutacích (vždy je přítomna česká verze), které jsou k sobě vzájemně zarovnané po větách. InterCorp je verzovaný korpus, tj. zpětně plně dostupný v jednotlivých verzích, které přibývají zhruba jednou ročně. |
| |
InterCorp se skládá ze dvou částí, a to jádra (core) a kolekce (collection). Jádrem korpusu InterCorp jsou převážně beletristické texty s ručními korekturami zarovnání. Kolekce jsou texty získané ve více jazycích, zpracované a zarovnané automaticky. | InterCorp se skládá ze dvou částí: jádra (//core//) a kolekcí (//collections//). Jádro korpusu InterCorp tvoří převážně beletristické texty s ručními korekturami zarovnání. Kolekce jsou tvořeny texty získanými ve více jazycích, zpracovanými a zarovnanými automaticky. |
| |
| |