AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
cnk:struktura [2015/01/21 17:15] – Links adapted because of a move operation cvrcekcnk:struktura [2017/05/25 09:30] – [Diachronní korpus] martinawaclawicova
Řádek 3: Řádek 3:
 Korpusy ČNK [[pojmy:reprezentativnost|reprezentují]] buď [[pojmy:psany|psanou češtinu]], a to z pohledu [[pojmy:synchronni|synchronního]] nebo [[pojmy:diachronni|diachronního]], nebo češtinu [[cnk:struktura#korpusy_mluvene|mluvenou]], v níž máme k dispozici především data [[pojmy:synchronni|současná]]. Paralelní korpusy, které jsou rovněž součástí ČNK, umožňují analyzovat [[cnk:intercorp|jazyk překladů]]. Mimo tuto základní klasifikaci pak leží korpusy [[cnk:struktura#specializované|specializované]]. Korpusy ČNK [[pojmy:reprezentativnost|reprezentují]] buď [[pojmy:psany|psanou češtinu]], a to z pohledu [[pojmy:synchronni|synchronního]] nebo [[pojmy:diachronni|diachronního]], nebo češtinu [[cnk:struktura#korpusy_mluvene|mluvenou]], v níž máme k dispozici především data [[pojmy:synchronni|současná]]. Paralelní korpusy, které jsou rovněž součástí ČNK, umožňují analyzovat [[cnk:intercorp|jazyk překladů]]. Mimo tuto základní klasifikaci pak leží korpusy [[cnk:struktura#specializované|specializované]].
  
-Přistupovat k nim lze přes různá [[pojmy:korpusovy_manazer|rozhraní]] (zvaná též korpusové manažery) - např. [[manualy:kontext:index|KonText]] a [[pojmy:korpusovy_manazer#park|Park]].+Ke korpusům lze přes různá [[pojmy:korpusovy_manazer|rozhraní]] (zvaná též korpusové manažery) -- v současnosti zejména [[manualy:kontext:index|KonText]].
  
-====== Korpusy psané současné češtiny (řada SYN) ======+===== Korpusy psané současné češtiny (řada SYN) =====
  
-=== Obecné ===+==== Obecné ====
  
-Do řady [[SYN]] – tedy mezi **syn**chronní korpusy - řadíme stomilionové [[pojmy:referencni|referenční]], žánrově vyvážené korpusy vytvářené s odstupem pěti let **[[SYN2010|SYN2010]], [[SYN2005|SYN2005]], [[SYN2000|SYN2000]]**, i obsáhlejší referenční (avšak žánrově nevyvážené) korpusy složené pouze z publicistických textů **[[SYN2009PUB|SYN2009PUB]], [[SYN2006PUB|SYN2006PUB]]**. Spojení všech těchto nezměnitelných, [[pojmy:lemma|lemmatizovaných]] a [[pojmy:anotace|anotovaných]] korpusů představuje největší korpus **[[SYN|SYN]]**.+Do řady [[SYN]] – tedy mezi **syn**chronní korpusy -- řadíme stomilionové žánrově vyvážené korpusy vytvářené s odstupem pěti let **[[SYN2015|SYN2015]]**, [[SYN2010|SYN2010]], [[SYN2005|SYN2005]], [[SYN2000|SYN2000]], i obsáhlejší (avšak žánrově nevyvážené) korpusy složené pouze z publicistických textů **[[SYN2013PUB|SYN2013PUB]]**, [[SYN2009PUB|SYN2009PUB]], [[SYN2006PUB|SYN2006PUB]]. Spojení všech těchto nezměnitelných, [[pojmy:lemma|lemmatizovaných]] a [[pojmy:anotace|anotovaných]] korpusů představuje největší korpus **[[SYN|SYN]]**.
  
-=== Specializované ===+Všechny korpusy řady SYN jsou od roku 2014 plně [[pojmy:referencni|referenční]], tj. neměnné. Korpus SYN je verzovaný, což znamená, že je referenční v jednotlivých verzích, které se vydávají každý rok. 
 + 
 +==== Specializované ====
  
 Mezi korpusy, které zpřístupňují úzce vymezený jazyk, patří korpus češtiny jakožto druhého jazyka **[[czesl-plain|CzeSL]]** (Czech as a Second Language), v němž jsou obsaženy akademické práce cizinců i žákovské práce romských žáků [[czesl-plain|czesl-plain]], korpus soukromé korespondence **[[ksk-dopisy|KSK-dopisy]]**, „Lingvistův narozeninový korpus“ obsahující odborné lingvistické texty **[[link|LINK]]**, text románu George Orwella //1984// značkovaný původními značkami projektu EU Multext-East [[orwell|orw-mte]] i standardními značkami **[[orwell|orwell]]**, a závěrem pak soubor písemných prací českých žáků, který obsahuje řadu sociolingvistických a didaktických informací **[[skript2012|Skript2012]]**. Mezi korpusy, které zpřístupňují úzce vymezený jazyk, patří korpus češtiny jakožto druhého jazyka **[[czesl-plain|CzeSL]]** (Czech as a Second Language), v němž jsou obsaženy akademické práce cizinců i žákovské práce romských žáků [[czesl-plain|czesl-plain]], korpus soukromé korespondence **[[ksk-dopisy|KSK-dopisy]]**, „Lingvistův narozeninový korpus“ obsahující odborné lingvistické texty **[[link|LINK]]**, text románu George Orwella //1984// značkovaný původními značkami projektu EU Multext-East [[orwell|orw-mte]] i standardními značkami **[[orwell|orwell]]**, a závěrem pak soubor písemných prací českých žáků, který obsahuje řadu sociolingvistických a didaktických informací **[[skript2012|Skript2012]]**.
  
 +===== Korpusy mluvené =====
  
-====== Korpusy mluvené ====== +O neformální, dialogické, mluvené češtině se nejvíc dozvíme z korpusů řady [[ORAL|ORAL]]. Tvoří ji korpusy **[[ORAL2013|ORAL2013]]** (2,8 mil.), [[ORAL2008|ORAL2008]] (1 mil.) a [[ORAL2006|ORAL2006]] (1 mil.). Všechny korpusy řady ORAL obsahují řadu sociolingvistických informací o mluvčích. Pouze ORAL2013 nabízí data z celé ČR a přístup i ke zvukové stopě, ostatní korpusy mluvené češtiny obsahují transkripci, která zachycuje a zohledňuje vybrané jevy [[pojmy:mluveny|mluveného jazyka]]. Tuto linii následuje korpus [[ORTOFON|ORTOFON]].
- +
-O neformální, dialogické, mluvené češtině se nejvíc dozvíme z korpusů řady ORAL. Tvoří ji milionový **[[ORAL2006|ORAL2006]]** a stejně rozsáhlý **[[ORAL2008|ORAL2008]]** do konce roku 2013 přibude i zhruba třímilionový **[[ORAL2013|ORAL2013]]**Ten nabídne informace také o moravských nářečích. Všechny korpusy řady ORAL pak obsahují řadu sociolingvistických informací.+
  
 Brněnskou češtinu z let 1994-1999 obsahuje v téměř pěti stech tisících slovech **[[BMK|Brněnský mluvený korpus]]**, **[[PMK|Pražský mluvený korpus]]** jakožto první korpus mluvené češtiny má téměř sedm set tisíc slov založených na nahrávkách z let 1988-1996.   Brněnskou češtinu z let 1994-1999 obsahuje v téměř pěti stech tisících slovech **[[BMK|Brněnský mluvený korpus]]**, **[[PMK|Pražský mluvený korpus]]** jakožto první korpus mluvené češtiny má téměř sedm set tisíc slov založených na nahrávkách z let 1988-1996.  
Řádek 24: Řádek 25:
 Specializovaný korpus vyučovacích hodin **[[SCHOLA2010|SCHOLA2010]]** obsahuje 790 000 slov pronesených o školních hodinách učiteli i žáky - mluva dětí a mládeže jinak v mluvených korpusech řady Oral zachycena není. Specializovaný korpus vyučovacích hodin **[[SCHOLA2010|SCHOLA2010]]** obsahuje 790 000 slov pronesených o školních hodinách učiteli i žáky - mluva dětí a mládeže jinak v mluvených korpusech řady Oral zachycena není.
  
-Pouze [[ORAL2013|ORAL2013]] bude nabízet ístup i ke zvukové stopěostatní korpusy mluvené češtiny obsahují transkripcikterá zachycuje zohledňuje vybrané jevy [[pojmy:mluveny|mluveného jazyka]].+Korpus **[[cnk:dialekt|DIALEKT]]** prezentuje tradiční teritoriální dialekty zachycené na území celé České republiky pomocí episů nahrávekkteré obsahují více než 19 000 slovních tvarů. Nahrávky pocházejí ze dvou období, starší zahrnuje dobu od konce 50. let do 80. let 20. století, do nové vrstvy jsou zařazeny nahrávky z období od 90. let 20. století až do současnosti. Nářeční materiál je zpracováván takže má dvě úrovně přepisu – dialektologickou ortografickou.
  
-Ve stadiu výstavby je korpus [[cnk:dialekt|DIALEKT]], který zpřístupní data z nářečních oblastí na území ČR (bude obsahovat především nahrávky z 60. a 70. let 20. století, čímž spadá pod korpusy [[pojmy:diachronni|diachronní]]. +===== Diachronní korpus =====
  
 +Korpus **[[diakorp|DIAKORP]]** je verzovaný (tj. [[pojmy:referencni|referenční]] v jednotlivých verzích) a doposud [[pojmy:lemma|nelemmatizovaný]] soubor textů pokrývajících sedm století vývoje češtiny. Texty v korpusu jsou transkribovány (nikoli transliterovány), což umožňuje v něm vyhledávat výskyty konkrétních tvarů a podob jednotlivých slov stejným způsobem jako v korpusu synchronním. 
  
-====== Diachronní korpus ====== +===== Cizojazyčné korpusy =====
-Korpus **[[diakorp|DIAKORP]]** je nereferenční a doposud [[pojmy:lemma|nelemmatizovaný]] soubor textů pokrývajících sedm století vývoje češtiny. Není [[pojmy:referencni|referenční]], současné 2 miliony slovních tvarů tudíž neustále narůstají. +
  
-Ve stadiu výstavby je nářeční diachronní korpus [[cnk:dialekt|DIALEKT]]. +==== Jednojazyčné ====
  
-====== Cizojazyčné korpusy ======+ČNK nezpřístupňuje pouze své vlastní korpusy, ale hostuje i řadu korpusů vytvořených jinde. Jedná se např. o **[[dotko|DOTKO]]** a **[[hotko|HOTKO]]**, nereferenční korpusy dolní a horní lužické srbštiny, které obsahují 12 a 36 milionů slov. Korpusy nejsou ani [[pojmy:lemma|lemmatizované]] ani [[pojmy:tag|morfologicky označkované]].
  
-=== Jednojazyčné ===+V rozhraní Kontext jsou rovněž přístupné rozsáhlé webové korpusy vytvořené mimo ČNK:  
 +  * rodina korpusů **WaC** (pro němčinu [[dewac|deWaC]], francouzštinu [[frwac|frWaC]], italštinu [[itwac|itWaC]] a britskou angličtinu [[ukwac|ukWaC]]) 
 +  * rodina korpusů **[[cnk:aranea|Aranea]]** (pokrývající mnoho jazyků, mj. cs, de, en, es, fi, fr, hu, it, nl, pl, pt, ru, sk, zh)
  
-ČNK nezpřístupňuje pouze své vlastní korpusy, ale hostuje i řadu korpusů vytvořených jinde. Jedná se např. o **[[dotko|DOTKO]]** a **[[hotko|HOTKO]]**, nereferenční korpusy dolní a horní lužické srbštiny, které obsahují 12 a 36 milionů slov. Korpusy nejsou ani [[pojmy:lemma|lemmatizované]] ani [[pojmy:tag|morfologicky označkované]]. 
  
-Od r. 2013 naše rozhraní [[manualy:kontext:index|KonText]] zpřístupňuje též webový korpus němčiny **[[dewac|deWaC]]** a francouzštiny **[[frwac|frWaC]]**, oba čítající 1350 milionů slov, italský **[[itwac|itWaC]]** s 1600 miliony slov a webový korpus britské angličtiny **[[ukwac|ukWaC]]** s 1900 miliony.+==== Paralelní ====
  
-=== Paralelní ===+Paralelní vícejazyčný korpus [[cnk:intercorp|InterCorp]] slouží ke kontrastivnímu a translatologickému zkoumání. Obsahuje texty v několika jazykových mutacích (vždy je přítomna česká verze), které jsou k sobě vzájemně zarovnané po větách. InterCorp je verzovaný korpus, tj. zpětně plně dostupný v jednotlivých verzích, které přibývají zhruba jednou ročně.
  
-**[[intercorp| Paralelní korpusy]]** jsou zpřístupňované takaby se mohly zobrazit k sobě zarovnané ekvivalentní věty v překladechV současné době **[[intercorp| paralelní korpus InterCorp]]** obsahuje 138 milionů slov v tzv. [[cnk:intercorp#jadro_intercorpu|jádru]], skládajícím se edevším z beletrie a 728 milionů slov v tzv. [[cnk:intercorp#automaticky_zarovnane_kolekce|kolekcích]] (jejichž zarovnání není ručně kontrolované).+InterCorp se skládá ze dvou částía to jádra (core) a kolekce (collection)Jádrem korpusu InterCorp jsou evážně beletristické texty s ručními korekturami zarovnání. Kolekce jsou texty získané ve více jazycích, zpracované a zarovnané automaticky.
  
-Včetně britské angličtiny a češtiny jakožto [[cnk:intercorp#intercorp_je_pivot|pivotu]] - jazyka, k němuž jsou zarovnané ostatní texty - nyní InterCorp obsahuje 33 složek, vedle řady očekávatelných evropských jazyků i třeba hindštinu, arabštinu nebo katalánštinu. 
  
-=== Související ===+==== Související ====
  
-[[manualy:kontext:index|Rozhraní KonText]][[cnk:uvod|Z jakých korpusů se skládá Český národní korpus?]]+<WRAP round box 49%> 
 +[[manualy:kontext:index|Rozhraní KonText]] • [[cnk:uvod|Z jakých korpusů se skládá ČNK]] • [[kurz:uvod|Kurz práce s ČNK]] 
 +</WRAP>
  
- --- //Olga Richterová//