LINDSEI_CZ

Žákovský korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1.

Historie a současnost

Žákovský korpus LINDSEI_CZ vznikl jako součást mezinárodního projektu LINDSEI organizovaného Centrem pro anglickou korpusovou lingvistiku při Katolické univerzitě v Lovani (Centre for English Corpus Linguistics, Université catholique de Louvain). LINDSEI doplňuje psaný žákovský korpus International Corpus of Learner English (ICLE) o korpus mluvené pokročilé žákovské angličtiny. Práce na LINDSEI začala v roce 1995 a sběr dat pokračuje dodnes. Korpus má zachytit spontánní mluvenou angličtinu pokročilých studentů s různými mateřskými jazyky. Tyto skupiny pak vytvářejí jednotlivé subkorpusy LINDSEI.

V r. 2010 byla zveřejněna první verze LINDSEI (Gilquin et al. 2010)¹⁾. Distribuována byla na CD s obslužným programem pro vyhledávání a s doprovodnou brožurkou popisující vznik korpusu a přehled základních dat a metadat. V té době LINDSEI obsahoval 11 subkorpusů (bulharský, čínský, holandský, francouzský, německý, řecký, italský, japonský, polský, španělský a švédský). Obsahoval přibližně 1 milión slov (z čehož cca 800 000 tvořily žákovské promluvy), 554 rozhovorů a 130 hodin nahrávek. Od té doby byl dokončen ještě subkorpus finský, norský, litevský, turecký, tchajwanský a český a probíhá práce na arabském, baskickém a brazilském. Druhá verze korpusu by tak měla mít celkově 20 národních subkorpusů, přes 1000 rozhovorů a 250 hodin nahrávek. Korpus je dostupný pouze v ortografických přepisech, se zveřejněním nahrávek se v tuto chvíli nepočítá. Korpus není systematicky značkován. Některé badatelské týmy provedly značkování chybové. Od jara 2016 se rozbíhá projekt morfologického značkování.

Skladba subkorpusů

Každý subkorpus obsahuje 50 rozhovorů, které mají tři části. Tou první je monolog na předem zvolené téma (důležitá životní zkušenost; významný film či divadelní hra; významná cestovatelská zkušenost). Druhou částí je rozhovor na běžná témata týkající se každodenního studentského života, plánů do budoucnosti a zkušeností se studiem. Ve třetí části studenti vyprávějí příběh na základě čtyř kreslených obrázků. Každý rozhovor trvá přibližně 15 minut.

Přepisy

Rozhovory jsou ortograficky přepsány. Přepisy vycházejí z transkripčního manuálu vydaného pro tuto příležitost lovaňským Centrem pro anglickou korpusovou lingvistiku. Zaznamenávány jsou i pauzy, výplňkové zvuky, prodloužené slabiky, nedokončená slova, opakování, překryvy a jiné zvuky (kašel, smích atp.). Osobní údaje jsou v přepisech anonymizovány.

Mluvčí

LINDSEI byl navržen jako korpus pokročilé žákovské angličtiny. Pokročilost byla stanovena na základě institucionální příslušnosti: mluvčí měli být studenti alespoň 3. ročníku anglistiky. To je zdrojem určité nevyváženosti a pokročilost je v LINDSEI poněkud vágní proměnnou. U francouzského subkorpusu bylo následně provedeno hodnocení úrovně jednotlivých mluvčích profesiolnálními examinátory. U subkorpusu německého byla úroveň dána tím, že studenti dokládají úroveň certifikátem při přijímacích zkouškách. U českého a tchajwanského subkorpusu v současnosti probíhá hodnocení školenými hodnotiteli a examinátory IELTS.

LINDSEI_CZ

Český subkorpus LINDSEI_CZ vznikl v letech 2012–2015. Stejně jako ostatní národní subkorpusy obsahuje padesát 15minutových nahrávek. Ty byly z větší části nahrány ve studiu Fonetického ústavu FF UK, některé pak pouze na diktafon. Mluvčími byli studenti 3. a vyšších ročníků anglistiky z Ústavu anglického jazyka a didaktiky FF UK. Koordinátorem celého projektu byl PhDr. Tomáš Gráf, Ph.D. z téhož ústavu. Mluvčí podepsali informovaný souhlas s využitím dat pro výzkum a vyplnili dotazník.

Počet mluvčích/nahrávek	50
Počet žen	43
Počet mužů	7
Průměrný věk	22,5 let (SD=1,6)
Průměrná délka studia angličtiny před studiem anglistiky	9,9 let (SD=2,6)
Průměrná délka studia anglistiky	3,4 roku (SD=0,9)
Délka pobytu v anglicky-mluvících zemích	1,2 měsíce (medián)

Počet pozic (včetně interpunkce a speciálních značek)	135 366
Počet slovních tvarů (tokenů)²⁾	123 761
Počet slovních tvarů (tokenů; pouze studenti)	95 904
Délka nahrávek (celkem)	12h 52min
Délka nahrávek (pouze studenti)	10h 38min

Podoba metadat v rozhraní KonText

Zkratka	Popis
doc.file	identifikátor nahrávky
doc.introduction_topic	volba tématu úvodního monologu (Country, Film, Experience)
doc.length_A_and_B_turns	počet slovních tvarů celkem (tj. včetně promluv tazatele)
doc.length_B_turns	počet slovních tvarů bez promluv tazatele
doc.duration	délka (minuty:vteřiny)
doc.status	charakteristika vztahu mezi tazatelem a studentem (tj. jak dobře se znají)
doc.date	datum nahrávky
task.type	typ úlohy, S = spontánní monolog, F = volný rozhovor, P = popis obrázku
sp.type	tazatel (interviewer) nebo student (interviewee)
sp.age	věk
sp.gender	pohlaví
sp.country	země původu
sp.language	mateřský jazyk
sp.homelang	jazyky, které se užívají v domácnosti, kde student trvale žije
sp.schooleng	počet let studia AJ před započetím studia na VŠ
sp.unieng	počet let studia AJ na VŠ
sp.monthseng	počet měsíců strávených v anglicky mluvící zemi (souhrnem)
sp.olang	další cizí jazyky, které student ovládá
remark.type	poznámky (např. informace o znalosti dalších jazyků, upřesnění)

Poděkování

Koordinátor projektu děkuje ÚČNK za finanční podporu projektu. Dále děkuje všem studentům, kteří se projektu zúčastnili. Děkuje i spolupracovníkům a poradcům z Université catholique de Louvain a Justus-Liebig-Universität Giessen, jmenovitě Gaëtanelle Gilquinové, Sylviane Grangerové a Sandře Götzové. Poděkování patří i Sarah Gráfové za pořízení poloviny nahrávek a Fonetickému ústavu FF UK za zapůjčení nahrávacího studia.

Jak citovat

Gráf, Tomáš (2017). LINDSEI_CZ: korpus spontánní mluvené angličtiny pokročilých mluvčích. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz

— Tomáš Gráf

¹⁾

Gilquin, Gaëtanelle, Sylvie De Cock, and Sylviane Granger (2010). The Louvain International Database of Spoken English Interlanguage. Handbook and CD-ROM. Louvain-la-Neuve: Presses universitaires de Louvain.

²⁾

Započítány jsou také výplňkové zvuky a nedokončená slova; pozice obsahující apostrof jsou počítány jako jeden token.