Toto je starší verze dokumentu!
CzeSL-SGT – korpus češtiny nerodilých mluvčích s automaticky provedenou anotací
Žákovský korpus CzeSL-SGT (Czech as a Second Language with Spelling, Grammar and Tags) obsahuje přepisy písemných prací nerodilých mluvčích češtiny. Navazuje tak na část CIZ korpusu CzeSL-plain: obsahuje její jazyková data, obsahuje však navíc další texty, sebrané v roce 2013.
Slovní tvary jsou označeny slovním druhem, morfologickými kategoriemi a základním tvarem (lemmatem). Některé tvary jsou opraveny a výsledná podoba textu znovu slovnědruhově a morfologicky označena. Na základě porovnání původní a opravené podoby tvarů je stanoven druh chyby. Všechny tyto údaje jsou určeny automaticky, je tedy třeba počítat s nepřesnostmi a omyly.
Nové texty jsou opatřeny údaji (metadaty) o autorovi a typu textu, ta byla nově doplněna i u velké většiny textů původních.
Korpus lze prohledávat on-line přes vyhledávací rozhraní KonText Českého národního korpusu (dostupné na portálu korpus.cz), nebo ho lze získat celý jako data ze serveru LINDAT.
Jak citovat CzeSL-SGT
Šebesta, K. - Bedřichová, Z. - Šormová, K. - Štindlová, B. - Hrdlička, M. - Hrdličková, T. - Hana, J. - Petkevič, V. - Jelínek, T. - Škodová, S. - Poláčková, M. - Janeš, P. - Lundáková, K. - Skoumalová, H. - Sládek, Š. - Pierscieniak, P. - Toufarová, D. - Richter, M. - Straka, M. - Rosen, A.: CzeSL-SGT: korpus češtiny nerodilých mluvčích s automaticky provedenou anotací, verze 2 z 28. 7. 2014. Ústav Českého národního korpusu FF UK, Praha 2014. Dostupný z WWW: http://www.korpus.cz
- Podrobný popis korpusu: http://utkl.ff.cuni.cz/~rosen/public/2014-czesl-sgt-cs.pdf