Nastavení

Korpus Skript2012

Korpus SKRIPT obsahuje celkem 708 668 pozic (bez komentářů v závorce 707 511, bez interpunkce 587 857) a zahrnuje přepisy písemných prací českých žáků, které vznikly v souvislosti s jazykovým vyučováním ve školách základních a středních od 5. třídy ZŠ (resp. ekvivalentních ročníků víceletých gymnázií) po poslední ročník gymnázií, podrobněji viz Statistiky ke korpusu SKRIPT2012. Je to první korpus tohoto typu pro češtinu.

Jde o projevy mluvčích, kteří si češtinu teprve osvojují; korpus SKRIPT2012 má tedy povahu korpusu akvizičního a může sloužit jednak výzkumu v oblasti osvojování jazyka (prvního, popř. i jako srovnávací korpus při studiu osvojování češtiny jako jazyka druhého/cizího), jednak pedagogickým účelům.

Texty byly sbírány v letech 2008–2010, vznikaly ve školním kontextu, tedy ve formálním prostředí; do korpusu byly zařazeny se souhlasem příslušných institucí a jednotlivců. Písemné práce byly získávány v rukopisné podobě, skenovány a přepisovány do elektronické podoby, podrobněji viz Zásady pro přepis korpusu Skript2012. Texty jsou lemmatizovány a opatřeny morfosyntaktickou anotací, pracuje se na jejich anotaci chybové (manuální i automatické).

Korpus SKRIPT2012 obsahuje díky svému zaměření užitečné sociolingvistické a didaktické informace: o sondě, škole, třídě, textu, žáku a učiteli, podrobněji viz Sociolingvistické a didaktické značky v korpusu SKRIPT2012.

Na budování korpusu (sběru a zpracování jazykových dat a metadat) se podíleli v různých pracovních pozicích kromě učitelů základních a středních škol, jejichž podíl byl mimořádně významný, rovněž studenti doktorského a navazujícího magisterského studia FF UK, zejména bohemistických oborů, v závěrečné fázi rovněž pracovníci ÚČNK a ÚTKL. Významná byla spolupráce řady základních a středních škol i individuálních spolupracovníků.

Řešitelem korpusu SKRIPT2012 je Ústav českého jazyka a teorie komunikace (ÚČJTK) UK FF. Korpus vznikal s podporou MSM 0021620825 – Jazyk jako lidská činnost, její produkt a faktor a Programu rozvoje vědních oblastí na Univerzitě Karlově č. P10 Lingvistika, podprogram Osvojování a vývoj jazykové a komunikační kompetence u vybraných komunit České republiky.

Odkazy:

Jak citovat

Šebesta, K. – Goláňová, H. – Jelínek, T. - Jelínková, B. – Křen, M. – Letafková, J. – Procházka, P. – Skoumalová, H.: SKRIPT2012: akviziční korpus psané češtiny – přepisy písemných prací žáků základních a středních škol v ČR. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz

Související odkazy