Toto je starší verze dokumentu!
VESPA_CZ
Žákovský korpus psané akademické angličtiny pokročilých mluvčích s češtinou jako L1.
Žákovský korpus VESPA_CZ vznikl jako součást mezinárodního projektu VESPA (The Varieties of English for Specific Purposes dAtabase ) organizovaného Centrem pro anglickou korpusovou lingvistiku při Katolické univerzitě v Lovani (Centre for English Corpus Linguistics, Université catholique de Louvain). Cílem projektu, který byl zahájen v roce 2008, je vybudovat databázi anglicky psaných odborných textů, jejichž autory jsou univerzitní studenti s různými mateřskými jazyky. Korpus bude zahrnovat jak různé vědní disciplíny (např. lingvistiku, ekonomii, biologii), tak různé typy odborných textů (eseje, výzkumné zprávy, disertační práce apod.). První publikovaná verze korpusu (přes 2 miliony slov, dostupná z https://corpora.uclouvain.be/cecl/vespa/home) obsahuje texty univerzitních studentů z Nizozemí, Belgie, Španělska, Norska a Švédska. Kromě subkorpusu s češtinou jako studentským L1 se v současnosti buduje francouzský, německý, a turecký subkorpus VESPA a srovnatelný korpus textů, pro jejichž autory je mateřským jazykem angličtina.
Základními kritérii pro zařazení textů do národního subkorpusu jsou odborné zaměření textu a jeho minimální délka (500 slov). To, zda je autor studentem bakalářského, magisterského nebo doktorského studijního programu, nehraje roli. Korpus obsahuje jen texty, jejichž autorem je sám student; revidované verze textů nebo texty s několika spoluautory není možné do korpusu zařadit. Studenti odevzdávají texty v elektronické podobě spolu s dotazníkem, který zjišťuje relevantní metadata; současně odevzdávají formulář souhlasu s využitím textu k výzkumným účelům.
Český subkorpus VESPA_CZ vznikl v letech 2019-2022. Obsahuje anglické odborné texty z oblasti literárních studií (eseje), lingvistiky a ekonomie (seminární práce). Jejich autory jsou univerzitní studenti bakalářských a magisterských programů Anglistika-amerikanistika, Anglofonní literatury a kultury a Anglický jazyk (Filozofická fakulta, Univerzita Karlova, Praha) a bakalářského programu Arts management (Fakulta podnikohospodářská, Vysoká škola ekonomická, Praha). Texty jsou označkované pomocí maker a skriptů v Perlu pro korpus VESPA (Ebeling & Heuboeck 2007; Heuboeck et al. 2008). Tagy je rozlišeno vnitřní členění textu a označeny citace (‚quotes‘ <q> a ‚block quotes‘ <quote>), jazykové příklady a analyzované pasáže v literárních esejích (‚mentioned items‘).
Poděkování
Korpus VESPA_CZ vznikl díky podpoře grantu GAČR 19-05180S Frazeologie v psaných odborných textech českých pokročilých studentů angličtiny: kontrastivní studie jazyka studentů a rodilých mluvčích angličtiny. Za podporu děkujeme také ÚČNK FF UK a týmu VESPA na Université catholique de Louvain. Texty zformátovali a označkovali studenti magisterských a doktorských programů Anglofonní literatury a kultury a Anglický jazyk FF UK.
Literatura
- Ebeling, Signe O. and Alois Heuboeck. 2007. Encoding document information in a corpus of student writing: The British Academic Written English Corpus. Corpora 2/2: 241–256.
- Heuboeck, Alois, Jasper Holmes and Hilary Nesi. 2008. The BAWE Corpus Manual. http://www.reading.ac.uk/AcaDepts/ll/app_ling/internal/bawe/BAWE.documentation.pdf