AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


CzeSL-man – korpus češtiny nerodilých mluvčích s ruční chybovou anotací podle zjednodušeného víceúrovňového schématu

Pod názvem CzeSL-man je ve vyhledávacím rozhraní KonText přístupný korpus CzeSL-man v1 searchable, který obsahuje ručně anotované texty nerodilých mluvčích češtiny. Jde o část textů z korpusu CzeSL-SGT.

Ruční chybová anotace je zjednodušená verze dvoustupňového (2T) anotačního schématu, vytvořeného pro projekt CzeSL. Anotace obsahuje opravy zdrojového textu, typy chyb, morfosyntaktické kategorie a lemmata pro opravený text a závislostní syntaktickou strukturu a funkce opraveného textu. Většina textů je vybavena metadaty o autorovi a textu.

Korpus ve verzi CzeSL-man v1 downloadable lze získat celý jako data ze serveru LINDAT. Korpus se liší od CzeSL-man v0 a CzeSL-man v1 downloadable ve dvou aspektech: (i) neexistují žádné texty s alternativní chybovou anotací, každý text je anotován jen jedním anotátorem, a (ii) dvoustupňové anotační schéma je zjednodušeno tak, aby konvenovalo vyhledávacímu nástroji, který je orientován na anotaci po tokenech (slovech). Jinak jsou obsah i metadata shodné s korpusem CzeSL-man v1 downloadable a vyhledávací možnosti jsou podobné jako u CzeSL-SGT.

Další informace o projektu žákovských korpusů CzeSL, včetně přehledu všech verzí žákovského korpusu CzeSL s odkazy na možnosti vyhledávání nebo stahování, viz http://utkl.ff.cuni.cz/learncorp/ a \cite{Rosen:etal:2020}.