AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus CzeSL-plain

Žákovský korpus CzeSL-plain (Czech as a Second Language, plain = bez anotace) je jedním z výstupů projektu Inovace vzdělávání v oboru čeština jako druhý jazyk v rámci operačního programu Vzdělávání pro konkurenceschopnost s finanční podporou Strukturálních fondů EU (ESF) a státní rozpočtu České republiky.

Na vzniku korpusu se podílela Technická univerzita v Liberci jako příjemce podpory, Univerzita Karlova v Praze a Asociace učitelů češtiny jako cizího jazyka jako partneři a také řada základních a středních škol, občanských sdružení a dalších institucí i individuálních spolupracovníků.

Korpus obsahuje v revidované verzi 2 celkem asi 2,3 mil. pozic (podrobnější údaje viz tabulka) a zahrnuje tři subkorpusy, rozlišené jako texty tří typů. Verzi 1 lze zájemcům zpřístupnit na požádání. Důvodem revize bylo to, že do její části ciz bylo omylem zařazeno několik desítek slohových prací českých žáků.

Text types, textové typy

Texty jsou tříděny do tří kategorií:

  • ciz – přepisy písemných prací (esejů) nerodilých mluvčích, které vznikly v souvislosti s jazykovým vyučováním v kurzech různého druhu a úrovně;
  • kval – odborné texty získané od nerodilých mluvčích studujících na českých vysokých školách v navazujícím magisterském či doktorském studiu;
  • rom – přepisy školních písemných prací romských žáků z oblastí ohrožených sociálním vyloučením.

Vnitřní struktura korpusu CzeSL-plain dle textových typů

Typ textu Počet textů (verze 2 / verze 1) Počet pozic (slova + interpunkce; verze 2 / verze 1)
ciz – eseje cizinců 8 109 / 8 863 1 160 701 / 1 314 901
kval – odborné kvalifikační práce 174 / 176 731 816 / 731 816
rom – slohové práce romských žáků 4 105 / 4 420 428 161 / 428 161
CELKEM 12 388 / 13 459 2 320 678 / 2 474 878

Ve všech třech skupinách jde o projevy mluvčích, kteří si češtinu (dosud) neosvojili na úrovni odpovídající úrovni dospělého rodilého mluvčího. Korpus má tedy povahu korpusu akvizičního a může sloužit jednak výzkumu v oblasti osvojování a vyučování jazyka, jednak pedagogickým účelům; první dva soubory dat se týkají češtiny jako jazyka druhého/cizího a řadí CzeSL typově k akvizičním korpusům L2 (tj. korpusům žákovským/studijním), třetí soubor dat k akvizičním korpusům L1 (v případě sledovaných romských žáků se o češtině neuvažuje jako o cizím jazyce). Jde o první veřejně přístupný korpus tohoto typu pro češtinu.

Sběr textů a jejich přepis

Texty byly sbírány v letech 2009–-2012, vznikaly ve školním kontextu, tedy ve formálním prostředí; do korpusu byly zařazeny se souhlasem příslušných institucí a jednotlivců.

Eseje a školní písemné práce byly získávány v rukopisné podobě, skenovány a přepisovány do elektronické podoby. Odborné texty od nerodilých mluvčích byly získávány od autorů přímo v elektronické podobě a nebyly tvořeny v souvislosti s jazykovým vyučováním či přímo pro korpus; nelze tedy vyloučit, že jejich konečná podoba byla ovlivněna automatickým jazykovým korektorem.

Část textů z korpusu CzeSL-plain je opatřena morfosyntaktickou a chybovou anotací a bude zpřístupněna v jiném vyhledávacím rozhraní. Samotný korpus CzeSL-plain neobsahuje lingvistickou anotaci žádnou, v další verzi se však kromě doplnění některých dalších textů počítá s jeho automatickou anotací (identifikace a oprava chybných tvarů, morfosyntaktická anotace), jde tedy o korpus tzv. nereferenční. Vzhledem k přítomnosti některých kódů z přepisu rukopisných originálů a také kvůli způsobu kódování některých cizích a nestandardních znaků je někdy počet znaků v korpusu větší než v původním textu, např. řetězec … stojí místo výpustky (…), &priv; označuje anonymizovaný údaj (vlastní jméno), &img; místo, kde byl v rukopisu obrázek, &unclear; nerozpoznané slovo nebo pasáž, &rdot; malé písmeno r s tečkou nad písmenem aj.

Jak citovat CzeSL

Šebesta, K. – Bedřichová, Z. – Hana, J. – Hlaváčková, E. – Hnátková, M. – Hrdlička, M. – Janeš, P. – Jelínek, T. – Křen, M. – Lábus, V. – Lundáková, K. – Petkevič, V. – Pierscieniak, P. – Procházka, P. – Rosen, A. – Skoumalová, H. – Škodová, S. – Šormová, K. – Štindlová, B.: CZESL-PLAIN: akviziční korpus psané češtiny, zvl. přepisů písemných projevů nerodilých mluvčích, verze 2 z 22. 1. 2014. Ústav Českého národního korpusu FF UK, Praha 2012. Dostupný z WWW: http://www.korpus.cz.

Poděkování

Na pořizování textů se podíleli především FIXME.

FIXME Karel Šebesta?, Olga Richterová

Související odkazy