====== Korpus CzeSL-plain ======
Žákovský korpus **CzeSL-plain** (Czech as a Second Language, plain = bez anotace) je jedním z výstupů projektu Inovace vzdělávání v oboru čeština jako druhý jazyk v rámci operačního programu Vzdělávání pro konkurenceschopnost s finanční podporou Strukturálních fondů EU (ESF) a státní rozpočtu České republiky.
Na vzniku korpusu se podílela Technická univerzita v Liberci jako příjemce podpory, Univerzita Karlova v Praze a Asociace učitelů češtiny jako cizího jazyka jako partneři a také řada základních a středních škol, občanských sdružení a dalších institucí i individuálních spolupracovníků.
Korpus obsahuje v revidované verzi 2 celkem asi 2,3 mil. pozic (podrobnější údaje viz tabulka) a zahrnuje tři subkorpusy, rozlišené jako texty tří typů. Verzi 1 lze zájemcům zpřístupnit na požádání. Důvodem revize bylo to, že do částí **ciz** a **rom** verze 1 bylo omylem zařazeno několik desítek slohových prací českých žáků.
Texty nerodilých mluvčích (část **ciz**) z korpusu CzeSL-plain jsou doplněny o novější texty a zpřístupněny zvlášť v korpusu [[cnk:czesl-sgt]], který je opatřen metadaty a automaticky provedenou morfosyntaktickou a chybovou anotací, včetně identifikace a opravy chybných tvarů. Texty z korpusu **CzeSL-plain** jsou dostupné také z repozitáře [[https://lindat.mff.cuni.cz|LINDAT-Clarin]] jako [[http://hdl.handle.net/11858/00-097C-0000-000C-2112-B|AKCES 3]] a [[http://hdl.handle.net/11858/00-097C-0000-000C-2293-0|AKCES4]]. Viz též [[http://utkl.ff.cuni.cz/learncorp/|CzeSL – a Learner Corpus of Czech]].
===== Text types, textové typy =====
Texty jsou tříděny do tří kategorií:
* **ciz** – přepisy písemných prací (esejů) nerodilých mluvčích, které vznikly v souvislosti s jazykovým vyučováním v kurzech různého druhu a úrovně;
* **kval** – odborné texty získané od nerodilých mluvčích studujících na českých vysokých školách v navazujícím magisterském či doktorském studiu;
* **rom** – přepisy školních písemných prací romských žáků z oblastí ohrožených sociálním vyloučením.
Další údaje o autorovi textu a textu samotném (metadata) v tomto korpusu nejsou uvedeny.
==== Vnitřní struktura korpusu CzeSL-plain dle textových typů ====
^ Typ textu ^ Počet textů (verze 2 / verze 1) ^ Počet pozic (slova + interpunkce; verze 2 / verze 1) ^
| ciz – eseje cizinců | 8 109 / 8 863 | 1 160 701 / 1 314 901 |
| kval – odborné kvalifikační práce | 174 / 176 | 731 816 / 731 816 |
| rom – slohové práce romských žáků | 4 105 / 4 420 | 428 161 / 428 161 |
| CELKEM | 12 388 / 13 459 | 2 320 678 / 2 474 878 |
Ve všech třech skupinách jde o projevy mluvčích, kteří si češtinu (dosud) neosvojili na úrovni odpovídající úrovni dospělého rodilého mluvčího. Korpus má tedy povahu korpusu [[pojmy:akvizicni_korpus|akvizičního]] a může sloužit jednak výzkumu v oblasti osvojování a vyučování jazyka, jednak pedagogickým účelům; první dva soubory dat se týkají češtiny jako jazyka druhého/cizího a řadí CzeSL typově k akvizičním korpusům L2 (tj. korpusům [[pojmy:zakovsky|žákovským/studijním]]), třetí soubor dat k akvizičním korpusům L1 (v případě sledovaných romských žáků se o češtině neuvažuje jako o cizím jazyce). Jde o první veřejně přístupný korpus tohoto typu pro češtinu.
===== Sběr textů, jejich přepis a anotace =====
Texty byly sbírány v letech 2009–-2012, vznikaly ve školním kontextu, tedy ve formálním prostředí; do korpusu byly zařazeny se souhlasem příslušných institucí a jednotlivců.
Eseje a školní písemné práce byly získávány v rukopisné podobě, skenovány a přepisovány do elektronické podoby. Odborné texty od nerodilých mluvčích byly získávány od autorů přímo v elektronické podobě a nebyly tvořeny v souvislosti s jazykovým vyučováním či přímo pro korpus; nelze tedy vyloučit, že jejich konečná podoba byla ovlivněna automatickým jazykovým korektorem.
Korpus **CzeSL-plain** neobsahuje žádnou lingvistickou anotaci. Vzhledem k přítomnosti některých kódů z přepisu rukopisných originálů a také kvůli způsobu kódování některých cizích a nestandardních znaků je někdy počet znaků v korpusu větší než v původním textu, např. řetězec … stojí místo výpustky (...), &priv; označuje anonymizovaný údaj (vlastní jméno), &img; místo, kde byl v rukopisu obrázek, &unclear; nerozpoznané slovo nebo pasáž, &rdot; malé písmeno r s tečkou nad písmenem aj.
===== Jak citovat CzeSL =====
Šebesta, K. – Bedřichová, Z. – Hana, J. – Hlaváčková, E. – Hnátková, M. – Hrdlička, M. – Janeš, P. – Jelínek, T. – Křen, M. – Lábus, V. – Lundáková, K. – Petkevič, V. – Pierscieniak, P. – Procházka, P. – Rosen, A. – Skoumalová, H. – Škodová, S. – Šormová, K. – Štindlová, B.: //CZESL-PLAIN: akviziční korpus psané češtiny, zvl. přepisů písemných projevů nerodilých mluvčích, verze 2 z 22. 1. 2014//. Ústav Českého národního korpusu FF UK, Praha 2012. Dostupný z WWW: http://www.korpus.cz.
===== Související odkazy =====
[[cnk:czesl-sgt|Korpus češtiny nerodilých mluvčích s automaticky provedenou anotací CzeSL-SGT]], [[cnk:schola2010|Korpus vyučovacích hodin SCHOLA2010]], [[cnk:skript2012|Korpus Skript2012]], [[pojmy:synchronni|Synchronie, synchronní korpus]]