CzeSL-SGT – korpus češtiny nerodilých mluvčích se zjednodušenými možnostmi vyhledávání

Korpus CzeSL-SGT-basic vychází z korpusu CzeSL-SGT (Czech as a Second Language with Spelling, Grammar and Tags), který obsahuje přepisy písemných prací nerodilých mluvčích češtiny a navazuje na část CIZ korpusu CzeSL-plain: obsahuje její jazyková data a nadto i další texty sebrané v roce 2013. Rozdíl je v možnostech vyhledávacího rozhraní: CzeSL-SGT-basic obsahuje méně metadatových položek.

Slovní tvary jsou označeny slovním druhem, morfologickými kategoriemi a základním tvarem (lemmatem). Některé tvary jsou opraveny a výsledná podoba textu znovu slovnědruhově a morfologicky označena. Na základě porovnání původní a opravené podoby tvarů je stanoven druh chyby. Všechny tyto údaje jsou určeny automaticky, je tedy třeba počítat s nepřesnostmi a omyly.

Nové texty jsou opatřeny údaji (metadaty) o autorovi a typu textu, ta byla nově doplněna i u velké většiny textů původních. Nabídka metadatových položek ve vyhledávacím rozhraní obsahuje pět položek týkající se autora – pohlaví (doc.s_pohlavi), věková kategorie (doc.s_vek_kat), první jazyk (doc.s_jazyk1), úroveň znalosti češtiny (doc.s_cj_SERR) a znalost češtiny mezi rodinnými příslušníky (doc.s_cj_v_rodine), a jednu položku týkající se textu – médium, tj. rukopis nebo elektronický text (doc.t_medium). Kompletní sada metadat je dostupná pomocí klauze within dotazu CQL.

Korpus lze prohledávat on-line přes vyhledávací rozhraní KonText Českého národního korpusu (dostupné na portálu korpus.cz).

Podrobnější údaje o korpusu CzeSL-SGT viz http://utkl.ff.cuni.cz/%7Erosen/public/2014-czesl-sgt-cs.pdf.