AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:czesl-plain [2015/10/20 14:49] – [Korpus CzeSL-plain] alexandrrosencnk:czesl-plain [2018/08/07 12:37] (aktuální) alexandrrosen
Řádek 5: Řádek 5:
 Na vzniku korpusu se podílela Technická univerzita v Liberci jako příjemce podpory, Univerzita Karlova v Praze a Asociace učitelů češtiny jako cizího jazyka jako partneři a také řada základních a středních škol, občanských sdružení a dalších institucí i individuálních spolupracovníků. Na vzniku korpusu se podílela Technická univerzita v Liberci jako příjemce podpory, Univerzita Karlova v Praze a Asociace učitelů češtiny jako cizího jazyka jako partneři a také řada základních a středních škol, občanských sdružení a dalších institucí i individuálních spolupracovníků.
  
-Korpus obsahuje v revidované verzi 2 celkem asi 2,3 mil. pozic (podrobnější údaje viz tabulka) a zahrnuje tři subkorpusy, rozlišené jako texty tří typů. Verzi 1 lze zájemcům zpřístupnit na požádání. Důvodem revize bylo to, že do části **ciz** verze 1 bylo omylem zařazeno několik desítek slohových prací českých žáků. +Korpus obsahuje v revidované verzi 2 celkem asi 2,3 mil. pozic (podrobnější údaje viz tabulka) a zahrnuje tři subkorpusy, rozlišené jako texty tří typů. Verzi 1 lze zájemcům zpřístupnit na požádání. Důvodem revize bylo to, že do částí **ciz** a **rom** verze 1 bylo omylem zařazeno několik desítek slohových prací českých žáků. 
  
-Texty nerodilých mluvčích (část **ciz**) z korpusu CzeSL-plain jsou doplněny o novější texty a zpřístupněny zvlášť v korpusu [[cnk:czesl-sgt]], který je opatřen automaticky provedenou morfosyntaktickou a chybovou anotací, včetně identifikace a opravy chybných tvarů. Texty z korpusu **CzeSL-plain** jsou dostupné také z repozitáře [[www.lindat.cz|LINDAT-Clarin]] jako [[http://hdl.handle.net/11858/00-097C-0000-000C-2112-B|AKCES 3]] a [[http://hdl.handle.net/11858/00-097C-0000-000C-2293-0|AKCES4]].+Texty nerodilých mluvčích (část **ciz**) z korpusu CzeSL-plain jsou doplněny o novější texty a zpřístupněny zvlášť v korpusu [[cnk:czesl-sgt]], který je opatřen metadaty a automaticky provedenou morfosyntaktickou a chybovou anotací, včetně identifikace a opravy chybných tvarů. Texty z korpusu **CzeSL-plain** jsou dostupné také z repozitáře [[https://lindat.mff.cuni.cz|LINDAT-Clarin]] jako [[http://hdl.handle.net/11858/00-097C-0000-000C-2112-B|AKCES 3]] a [[http://hdl.handle.net/11858/00-097C-0000-000C-2293-0|AKCES4]]. Viz též [[http://utkl.ff.cuni.cz/learncorp/|CzeSL – a Learner Corpus of Czech]].
 ===== Text types, textové typy ===== ===== Text types, textové typy =====
 Texty jsou tříděny do tří kategorií: Texty jsou tříděny do tří kategorií:
Řádek 14: Řádek 14:
   *  **kval** – odborné texty získané od nerodilých mluvčích studujících na českých vysokých školách v navazujícím magisterském či doktorském studiu;   *  **kval** – odborné texty získané od nerodilých mluvčích studujících na českých vysokých školách v navazujícím magisterském či doktorském studiu;
   *  **rom** – přepisy školních písemných prací romských žáků z oblastí ohrožených sociálním vyloučením.   *  **rom** – přepisy školních písemných prací romských žáků z oblastí ohrožených sociálním vyloučením.
 +
 +Další údaje o autorovi textu a textu samotném (metadata) v tomto korpusu nejsou uvedeny.
  
 ==== Vnitřní struktura korpusu CzeSL-plain dle textových typů ==== ==== Vnitřní struktura korpusu CzeSL-plain dle textových typů ====
Řádek 32: Řádek 34:
 Eseje a školní písemné práce byly získávány v rukopisné podobě, skenovány a přepisovány do elektronické podoby. Odborné texty od nerodilých mluvčích byly získávány od autorů přímo v elektronické podobě a nebyly tvořeny v souvislosti s jazykovým vyučováním či přímo pro korpus; nelze tedy vyloučit, že jejich konečná podoba byla ovlivněna automatickým jazykovým korektorem. Eseje a školní písemné práce byly získávány v rukopisné podobě, skenovány a přepisovány do elektronické podoby. Odborné texty od nerodilých mluvčích byly získávány od autorů přímo v elektronické podobě a nebyly tvořeny v souvislosti s jazykovým vyučováním či přímo pro korpus; nelze tedy vyloučit, že jejich konečná podoba byla ovlivněna automatickým jazykovým korektorem.
  
-Korpus CzeSL-plain neobsahuje žádnou lingvistickou anotaci. Vzhledem k přítomnosti některých kódů z přepisu rukopisných originálů a také kvůli způsobu kódování některých cizích a nestandardních znaků je někdy počet znaků v korpusu větší než v původním textu, např. řetězec … stojí místo výpustky (...), &priv; označuje anonymizovaný údaj (vlastní jméno), &img; místo, kde byl v rukopisu obrázek, &unclear; nerozpoznané slovo nebo pasáž, &rdot; malé písmeno r s tečkou nad písmenem aj.+Korpus **CzeSL-plain** neobsahuje žádnou lingvistickou anotaci. Vzhledem k přítomnosti některých kódů z přepisu rukopisných originálů a také kvůli způsobu kódování některých cizích a nestandardních znaků je někdy počet znaků v korpusu větší než v původním textu, např. řetězec … stojí místo výpustky (...), &priv; označuje anonymizovaný údaj (vlastní jméno), &img; místo, kde byl v rukopisu obrázek, &unclear; nerozpoznané slovo nebo pasáž, &rdot; malé písmeno r s tečkou nad písmenem aj.
  
 ===== Jak citovat CzeSL ===== ===== Jak citovat CzeSL =====
Řádek 42: Řádek 44:
 ===== Související odkazy ===== ===== Související odkazy =====
 <WRAP round box 49%> <WRAP round box 49%>
-[[cnk:czesl-sgt|Korpus češtiny nerodilých mluvčích s automaticky provedenou anotací]], [[cnk:schola2010|Korpus vyučovacích hodin SCHOLA2010]], [[cnk:skript2012|Korpus Skript2012]], [[pojmy:synchronni|Synchronie, synchronní korpus]]+[[cnk:czesl-sgt|Korpus češtiny nerodilých mluvčích s automaticky provedenou anotací CzeSL-SGT]], [[cnk:schola2010|Korpus vyučovacích hodin SCHOLA2010]], [[cnk:skript2012|Korpus Skript2012]], [[pojmy:synchronni|Synchronie, synchronní korpus]]
 </WRAP> </WRAP>