AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
cnk:struktura [2015/04/08 14:33]
Václav Cvrček [Cizojazyčné korpusy]
cnk:struktura [2021/02/17 20:10] (aktuální)
Václav Cvrček [Webové]
Řádek 1: Řádek 1:
 ====== Struktura Českého národního korpusu ====== ====== Struktura Českého národního korpusu ======
  
-Korpusy ČNK [[pojmy:reprezentativnost|reprezentují]] buď [[pojmy:psany|psanou češtinu]]a to z pohledu [[pojmy:synchronni|synchronního]] nebo [[pojmy:diachronni|diachronního]], nebo češtinu [[cnk:struktura#korpusy_mluvene|mluvenou]], v níž máme k dispozici především data [[pojmy:synchronni|současná]]. Paralelní korpusy, které jsou rovněž součástí ČNK, umožňují analyzovat [[cnk:intercorp|jazyk překladů]]. Mimo tuto základní klasifikaci pak leží korpusy [[cnk:struktura#specializované|specializované]].+Korpusy ČNK [[pojmy:reprezentativnost|reprezentují]] buď [[pojmy:psany|psanou češtinu]] -- a to z pohledu [[pojmy:synchronni|synchronního]]nebo [[pojmy:diachronni|diachronního]] --anebo češtinu [[cnk:struktura#korpusy_mluvene|mluvenou]], v níž máme k dispozici především data [[pojmy:synchronni|současná]]. Paralelní korpusy, které jsou rovněž součástí ČNK, umožňují analyzovat [[cnk:intercorp|jazyk překladů]]. Mimo tuto základní klasifikaci pak leží korpusy [[cnk:struktura#specializované|specializované]].
  
-Přistupovat k nim lze přes různá [[pojmy:korpusovy_manazer|rozhraní]] (zvaná též korpusové manažery) - v současnosti zejména [[manualy:kontext:index|KonText]].+Ke korpusům lze přes různá [[pojmy:korpusovy_manazer|rozhraní]] (zvaná též korpusové manažery) -- v současnosti zejména [[manualy:kontext:index|KonText]].
  
-====== Korpusy psané současné češtiny (řada SYN) ======+===== Korpusy psané současné češtiny (řada SYN) =====
  
-=== Obecné ===+==== Obecné ====
  
-Do řady [[SYN]] – tedy mezi **syn**chronní korpusy - řadíme stomilionové [[pojmy:referencni|referenční]], žánrově vyvážené korpusy vytvářené s odstupem pěti let **[[SYN2010|SYN2010]], [[SYN2005|SYN2005]], [[SYN2000|SYN2000]]**, i obsáhlejší referenční (avšak žánrově nevyvážené) korpusy složené pouze z publicistických textů **[[SYN2009PUB|SYN2009PUB]], [[SYN2006PUB|SYN2006PUB]]**. Spojení všech těchto nezměnitelných, [[pojmy:lemma|lemmatizovaných]] a [[pojmy:anotace|anotovaných]] korpusů představuje největší korpus **[[SYN|SYN]]**.+Do řady [[SYN]] – tedy mezi **syn**chronní korpusy -- řadíme stomilionové žánrově vyvážené korpusy vytvářené s odstupem pěti let **[[SYN2020|SYN2020]]**, [[SYN2015|SYN2015]], [[SYN2010|SYN2010]], [[SYN2005|SYN2005]], [[SYN2000|SYN2000]], i obsáhlejší (avšak žánrově nevyvážené) korpusy složené pouze z publicistických textů **[[SYN2013PUB|SYN2013PUB]]**, [[SYN2009PUB|SYN2009PUB]], [[SYN2006PUB|SYN2006PUB]]. Spojení všech těchto nezměnitelných, [[pojmy:lemma|lemmatizovaných]] a [[pojmy:anotace|anotovaných]] korpusů představuje největší korpus **[[SYN|SYN]]**.
  
-=== Specializované ===+Všechny korpusy řady SYN jsou od roku 2014 plně [[pojmy:referencni|referenční]], tj. neměnné. Korpus SYN je verzovaný, což znamená, že je referenční v jednotlivých verzích, které se vydávají každý rok.
  
-Mezi korpusy, které zpřístupňují úzce vymezený jazyk, patří korpus češtiny jakožto druhého jazyka **[[czesl-plain|CzeSL]]** (Czech as a Second Language), v němž jsou obsaženy akademické práce cizinců i žákovské práce romských žáků [[czesl-plain|czesl-plain]], korpus soukromé korespondence **[[ksk-dopisy|KSK-dopisy]]**, „Lingvistův narozeninový korpus“ obsahující odborné lingvistické texty **[[link|LINK]]**, text románu George Orwella //1984// značkovaný původními značkami projektu EU Multext-East [[orwell|orw-mte]] i standardními značkami **[[orwell|orwell]]**, a závěrem pak soubor písemných prací českých žáků, který obsahuje řadu sociolingvistických a didaktických informací **[[skript2012|Skript2012]]**.+==== Webové ====
  
 +Korpusy, jejichž obsah tvoří texty, které jsou k dispozici na internetu, jsou použitelné jednak pro studium specifik internetové komunikace a jednak pro studium diskurzu. Za prvním účelem je v ČNK vyvíjena řada [[cnk:net|NET]], kde jsou texty odrážející charakteristické rysy polooficiální online komunikace (konkrétně zahrnuje diskusní fóra a osobní blogy). Studium aktuálního diskurzu a probíhajících jazykových změn umožňuje korpus [[cnk:online|ONLINE]], který je tvořen webovou žurnalistikou, sociálními sítěmi a diskusemi a který je každodenně aktualizován.
 +
 +Vedle toho ČNK hostuje několik webových korpusů, jejichž primárním cílem je zpřístupnit velké objemy dat, konkrétně skupinu srovnatelných korpusů řady [[cnk:aranea|Aranea]] pro 14 jazyků a řady WaC pro [[cnk:ukwac|angličtinu]], [[cnk:dewac|němčinu]], [[cnk:frwac|francouzštinu]] a [[cnk:itwac|italštinu]].
 +
 +
 +==== Specializované ====
 +
 +Mezi korpusy, které zpřístupňují úzce vymezený jazyk, patří korpus češtiny jakožto druhého jazyka **[[czesl-plain|CzeSL]]** (Czech as a Second Language), v němž jsou obsaženy akademické práce cizinců i žákovské práce romských žáků [[czesl-plain|czesl-plain]], korpus soukromé korespondence **[[ksk-dopisy|KSK-dopisy]]**, „Lingvistův narozeninový korpus“ obsahující odborné lingvistické texty **[[link|LINK]]**, text románu George Orwella //1984// značkovaný původními značkami projektu EU Multext-East [[orwell|orw-mte]] i standardními značkami **[[orwell|orwell]]**, a závěrem pak soubor písemných prací českých žáků, který obsahuje řadu sociolingvistických a didaktických informací **[[skript2012|Skript2012]]**.
  
-====== Korpusy mluvené ======+===== Korpusy mluvené =====
  
-O neformální, dialogické, mluvené češtině se nejvíc dozvíme z korpusů řady ORAL. Tvoří ji milionový **[[ORAL2006|ORAL2006]]** a stejně rozsáhlý **[[ORAL2008|ORAL2008]]** do konce roku 2013 přibude i zhruba třímilionový **[[ORAL2013|ORAL2013]]**Ten nabídne informace také o moravských nářečích. Všechny korpusy řady ORAL pak obsahují řadu sociolingvistických informací.+O neformální, dialogické, mluvené češtině se nejvíc dozvíme z korpusů řady [[ORAL|ORAL]]. Tvoří ji korpusy **[[ORAL2013|ORAL2013]]** (2,8 mil.), [[ORAL2008|ORAL2008]] (1 mil.) a [[ORAL2006|ORAL2006]] (1 mil.). Všechny korpusy řady ORAL obsahují řadu sociolingvistických informací o mluvčích. Pouze ORAL2013 nabízí data z celé ČR a přístup i ke zvukové stopě, ostatní korpusy mluvené češtiny obsahují transkripci, která zachycuje a zohledňuje vybrané jevy [[pojmy:mluveny|mluveného jazyka]]. Tuto linii následuje korpus [[ORTOFON|ORTOFON]].
  
-Brněnskou češtinu z let 1994-1999 obsahuje v téměř pěti stech tisících slovech **[[BMK|Brněnský mluvený korpus]]**, **[[PMK|Pražský mluvený korpus]]** jakožto první korpus mluvené češtiny má téměř sedm set tisíc slov založených na nahrávkách z let 1988-1996.  +Brněnskou češtinu z let 1994--1999 obsahuje v téměř pěti stech tisících slovech **[[BMK|Brněnský mluvený korpus]]**, **[[PMK|Pražský mluvený korpus]]** jakožto první korpus mluvené češtiny má téměř sedm set tisíc slov založených na nahrávkách z let 1988--1996.  
  
 Specializovaný korpus vyučovacích hodin **[[SCHOLA2010|SCHOLA2010]]** obsahuje 790 000 slov pronesených o školních hodinách učiteli i žáky - mluva dětí a mládeže jinak v mluvených korpusech řady Oral zachycena není. Specializovaný korpus vyučovacích hodin **[[SCHOLA2010|SCHOLA2010]]** obsahuje 790 000 slov pronesených o školních hodinách učiteli i žáky - mluva dětí a mládeže jinak v mluvených korpusech řady Oral zachycena není.
  
-Pouze [[ORAL2013|ORAL2013]] bude nabízet přístup i ke zvukové stopě, ostatní korpusy mluvené češtiny obsahují transkripcikterá zachycuje a zohledňuje vybrané jevy [[pojmy:mluveny|mluveného jazyka]].+Korpus **[[cnk:dialekt|DIALEKT]]** prezentuje tradiční teritoriální dialekty zachycené na území celé České republiky. Ve své první verzi obsahuje cca 100 000 slov a bude se postupně rozšiřovat. Nahrávky pocházejí ze dvou období: starší zahrnuje dobu od konce 50. let do 80. let 20. stoletído nové vrstvy jsou zařazeny nahrávky z období od 90. let 20. století až do současnosti. Nářeční materiál je zpracováván takže má dvě úrovně přepisudialektologickou a ortografickou.
  
-Ve stadiu výstavby je korpus [[cnk:dialekt|DIALEKT]], který zpřístupní data z nářečních oblastí na území ČR (bude obsahovat především nahrávky z 60. a 70. let 20. století, čímž spadá pod korpusy [[pojmy:diachronni|diachronní]]. +===== Diachronní korpus =====
  
 +Korpus **[[diakorp|DIAKORP]]** je verzovaný (tj. [[pojmy:referencni|referenční]] v jednotlivých verzích) a doposud [[pojmy:lemma|nelemmatizovaný]] soubor textů pokrývajících sedm století vývoje češtiny. Texty v korpusu jsou transkribovány (nikoli transliterovány), což umožňuje v něm vyhledávat výskyty konkrétních tvarů a podob jednotlivých slov stejným způsobem jako v korpusu synchronním. 
  
-====== Diachronní korpus ====== +===== Cizojazyčné korpusy =====
-Korpus **[[diakorp|DIAKORP]]** je nereferenční a doposud [[pojmy:lemma|nelemmatizovaný]] soubor textů pokrývajících sedm století vývoje češtiny. Není [[pojmy:referencni|referenční]], současné 2 miliony slovních tvarů tudíž neustále narůstají. +
  
-Ve stadiu výstavby je nářeční diachronní korpus [[cnk:dialekt|DIALEKT]]. +==== Jednojazyčné ====
  
-====== Cizojazyčné korpusy ======+ČNK nezpřístupňuje pouze své vlastní korpusy, ale hostuje i řadu korpusů vytvořených jinde. Jedná se např. o **[[dotko|DOTKO]]** a **[[hotko|HOTKO]]**, nereferenční korpusy dolní a horní lužické srbštiny, které obsahují 12 a 36 milionů slov. Korpusy nejsou ani [[pojmy:lemma|lemmatizované]], ani [[pojmy:tag|morfologicky označkované]].
  
-=== Jednojazyčné ===+V rozhraní Kontext jsou rovněž přístupné rozsáhlé webové korpusy vytvořené mimo ČNK:  
 +  * rodina korpusů **WaC** (pro němčinu [[dewac|deWaC]], francouzštinu [[frwac|frWaC]], italštinu [[itwac|itWaC]] a britskou angličtinu [[ukwac|ukWaC]]) 
 +  * rodina korpusů **[[cnk:aranea|Aranea]]** (pokrývající mnoho jazyků, mj. cs, de, en, es, fi, fr, hu, it, nl, pl, pt, ru, sk, zh)
  
-ČNK nezpřístupňuje pouze své vlastní korpusy, ale hostuje i řadu korpusů vytvořených jinde. Jedná se např. o **[[dotko|DOTKO]]** a **[[hotko|HOTKO]]**, nereferenční korpusy dolní a horní lužické srbštiny, které obsahují 12 a 36 milionů slov. Korpusy nejsou ani [[pojmy:lemma|lemmatizované]] ani [[pojmy:tag|morfologicky označkované]]. 
  
-Od r. 2013 naše rozhraní [[manualy:kontext:index|KonText]] zpřístupňuje též webový korpus němčiny **[[dewac|deWaC]]** a francouzštiny **[[frwac|frWaC]]**, oba čítající 1350 milionů slov, italský **[[itwac|itWaC]]** s 1600 miliony slov a webový korpus britské angličtiny **[[ukwac|ukWaC]]** s 1900 miliony.+==== Paralelní ====
  
-=== Paralelní ===+Paralelní vícejazyčný korpus [[cnk:intercorp|InterCorp]] slouží ke kontrastivnímu a translatologickému zkoumání. Obsahuje texty v několika jazykových mutacích (vždy je přítomna česká verze), které jsou k sobě vzájemně zarovnané po větách. InterCorp je verzovaný korpus, tj. zpětně plně dostupný v jednotlivých verzích, které přibývají zhruba jednou ročně.
  
-**[[intercorp| Paralelní korpusy]]** jsou zpřístupňované tak, aby se mohly zobrazit k sobě zarovnané ekvivalentní věty v překladechV současné době **[[intercorp| paralelní korpus InterCorp]]** obsahuje 138 milionů slov v tzv. [[cnk:intercorp#jadro_intercorpu|jádru]], skládajícím se edevším z beletrie a 728 milionů slov v tzv. [[cnk:intercorp#automaticky_zarovnane_kolekce|kolekcích]] (jejichž zarovnání není ručně kontrolované).+InterCorp se skládá ze dvou částí: jádra (//core//) a kolekcí (//collections//)Jádro korpusu InterCorp tvoří evážně beletristické texty s ručními korekturami zarovnání. Kolekce jsou tvořeny texty získanými ve více jazycích, zpracovanými a zarovnanými automaticky.
  
-Včetně britské angličtiny a češtiny jakožto [[cnk:intercorp#intercorp_je_pivot|pivotu]] – jazyka, k němuž jsou zarovnané ostatní texty - nyní InterCorp obsahuje 33 složek, vedle řady očekávatelných evropských jazyků i třeba hindštinu, arabštinu nebo katalánštinu. 
  
-=== Související ===+==== Související ====
  
 <WRAP round box 49%> <WRAP round box 49%>
Řádek 54: Řádek 62:
 </WRAP> </WRAP>
  
- --- //Olga Richterová//