Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
cnk:czesl-plain [2015/10/23 16:15]
Václav Cvrček (admin) Odkaz
cnk:czesl-plain [2018/08/07 12:37] (aktuální)
Alexandr Rosen
Řádek 7: Řádek 7:
 Korpus obsahuje v revidované verzi 2 celkem asi 2,3 mil. pozic (podrobnější údaje viz tabulka) a zahrnuje tři subkorpusy, rozlišené jako texty tří typů. Verzi 1 lze zájemcům zpřístupnit na požádání. Důvodem revize bylo to, že do částí **ciz** a **rom** verze 1 bylo omylem zařazeno několik desítek slohových prací českých žáků. ​ Korpus obsahuje v revidované verzi 2 celkem asi 2,3 mil. pozic (podrobnější údaje viz tabulka) a zahrnuje tři subkorpusy, rozlišené jako texty tří typů. Verzi 1 lze zájemcům zpřístupnit na požádání. Důvodem revize bylo to, že do částí **ciz** a **rom** verze 1 bylo omylem zařazeno několik desítek slohových prací českých žáků. ​
  
-Texty nerodilých mluvčích (část **ciz**) z korpusu CzeSL-plain jsou doplněny o novější texty a zpřístupněny zvlášť v korpusu [[cnk:​czesl-sgt]],​ který je opatřen automaticky provedenou morfosyntaktickou a chybovou anotací, včetně identifikace a opravy chybných tvarů. Texty z korpusu **CzeSL-plain** jsou dostupné také z repozitáře [[https://​lindat.mff.cuni.cz|LINDAT-Clarin]] jako [[http://​hdl.handle.net/​11858/​00-097C-0000-000C-2112-B|AKCES 3]] a [[http://​hdl.handle.net/​11858/​00-097C-0000-000C-2293-0|AKCES4]]. Viz též [[http://​utkl.ff.cuni.cz/​learncorp/​|CzeSL – a Learner Corpus of Czech]].+Texty nerodilých mluvčích (část **ciz**) z korpusu CzeSL-plain jsou doplněny o novější texty a zpřístupněny zvlášť v korpusu [[cnk:​czesl-sgt]],​ který je opatřen ​metadaty a automaticky provedenou morfosyntaktickou a chybovou anotací, včetně identifikace a opravy chybných tvarů. Texty z korpusu **CzeSL-plain** jsou dostupné také z repozitáře [[https://​lindat.mff.cuni.cz|LINDAT-Clarin]] jako [[http://​hdl.handle.net/​11858/​00-097C-0000-000C-2112-B|AKCES 3]] a [[http://​hdl.handle.net/​11858/​00-097C-0000-000C-2293-0|AKCES4]]. Viz též [[http://​utkl.ff.cuni.cz/​learncorp/​|CzeSL – a Learner Corpus of Czech]].
 ===== Text types, textové typy ===== ===== Text types, textové typy =====
 Texty jsou tříděny do tří kategorií: Texty jsou tříděny do tří kategorií:
Řádek 14: Řádek 14:
   *  **kval** – odborné texty získané od nerodilých mluvčích studujících na českých vysokých školách v navazujícím magisterském či doktorském studiu;   *  **kval** – odborné texty získané od nerodilých mluvčích studujících na českých vysokých školách v navazujícím magisterském či doktorském studiu;
   *  **rom** – přepisy školních písemných prací romských žáků z oblastí ohrožených sociálním vyloučením.   *  **rom** – přepisy školních písemných prací romských žáků z oblastí ohrožených sociálním vyloučením.
 +
 +Další údaje o autorovi textu a textu samotném (metadata) v tomto korpusu nejsou uvedeny.
  
 ==== Vnitřní struktura korpusu CzeSL-plain dle textových typů ==== ==== Vnitřní struktura korpusu CzeSL-plain dle textových typů ====