Žákovský korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1.
Žákovský korpus LINDSEI_CZ vznikl jako součást mezinárodního projektu LINDSEI organizovaného Centrem pro anglickou korpusovou lingvistiku při Katolické univerzitě v Lovani (Centre for English Corpus Linguistics, Université catholique de Louvain). LINDSEI doplňuje psaný žákovský korpus International Corpus of Learner English (ICLE) o korpus mluvené pokročilé žákovské angličtiny. Práce na LINDSEI začala v roce 1995 a sběr dat pokračuje dodnes. Korpus má zachytit spontánní mluvenou angličtinu pokročilých studentů s různými mateřskými jazyky. Tyto skupiny pak vytvářejí jednotlivé subkorpusy LINDSEI.
V r. 2010 byla zveřejněna první verze LINDSEI (Gilquin et al. 2010)1). Distribuována byla na CD s obslužným programem pro vyhledávání a s doprovodnou brožurkou popisující vznik korpusu a přehled základních dat a metadat. V té době LINDSEI obsahoval 11 subkorpusů (bulharský, čínský, holandský, francouzský, německý, řecký, italský, japonský, polský, španělský a švédský). Obsahoval přibližně 1 milión slov (z čehož cca 800 000 tvořily žákovské promluvy), 554 rozhovorů a 130 hodin nahrávek. Od té doby byl dokončen ještě subkorpus finský, norský, litevský, turecký, tchajwanský a český a probíhá práce na arabském, baskickém a brazilském. Druhá verze korpusu by tak měla mít celkově 20 národních subkorpusů, přes 1000 rozhovorů a 250 hodin nahrávek. Korpus je dostupný pouze v ortografických přepisech, se zveřejněním nahrávek se v tuto chvíli nepočítá. Korpus není systematicky značkován. Některé badatelské týmy provedly značkování chybové. Od jara 2016 se rozbíhá projekt morfologického značkování.
Každý subkorpus obsahuje 50 rozhovorů, které mají tři části. Tou první je monolog na předem zvolené téma (důležitá životní zkušenost; významný film či divadelní hra; významná cestovatelská zkušenost). Druhou částí je rozhovor na běžná témata týkající se každodenního studentského života, plánů do budoucnosti a zkušeností se studiem. Ve třetí části studenti vyprávějí příběh na základě čtyř kreslených obrázků. Každý rozhovor trvá přibližně 15 minut.
Rozhovory jsou ortograficky přepsány. Přepisy vycházejí z transkripčního manuálu vydaného pro tuto příležitost lovaňským Centrem pro anglickou korpusovou lingvistiku. Zaznamenávány jsou i pauzy, výplňkové zvuky, prodloužené slabiky, nedokončená slova, opakování, překryvy a jiné zvuky (kašel, smích atp.). Osobní údaje jsou v přepisech anonymizovány.
LINDSEI byl navržen jako korpus pokročilé žákovské angličtiny. Pokročilost byla stanovena na základě institucionální příslušnosti: mluvčí měli být studenti alespoň 3. ročníku anglistiky. To je zdrojem určité nevyváženosti a pokročilost je v LINDSEI poněkud vágní proměnnou. U francouzského subkorpusu bylo následně provedeno hodnocení úrovně jednotlivých mluvčích profesiolnálními examinátory. U subkorpusu německého byla úroveň dána tím, že studenti dokládají úroveň certifikátem při přijímacích zkouškách. U českého a tchajwanského subkorpusu v současnosti probíhá hodnocení školenými hodnotiteli a examinátory IELTS.
Český subkorpus LINDSEI_CZ vznikl v letech 2012–2015. Stejně jako ostatní národní subkorpusy obsahuje padesát 15minutových nahrávek. Ty byly z větší části nahrány ve studiu Fonetického ústavu FF UK, některé pak pouze na diktafon. Mluvčími byli studenti 3. a vyšších ročníků anglistiky z Ústavu anglického jazyka a didaktiky FF UK. Koordinátorem celého projektu byl PhDr. Tomáš Gráf, Ph.D. z téhož ústavu. Mluvčí podepsali informovaný souhlas s využitím dat pro výzkum a vyplnili dotazník.
Počet mluvčích/nahrávek | 50 |
---|---|
Počet žen | 43 |
Počet mužů | 7 |
Průměrný věk | 22,5 let (SD=1,6) |
Průměrná délka studia angličtiny před studiem anglistiky | 9,9 let (SD=2,6) |
Průměrná délka studia anglistiky | 3,4 roku (SD=0,9) |
Délka pobytu v anglicky-mluvících zemích | 1,2 měsíce (medián) |
Počet pozic (včetně interpunkce a speciálních značek) | 135 366 |
---|---|
Počet slovních tvarů (tokenů)2) | 123 761 |
Počet slovních tvarů (tokenů; pouze studenti) | 95 904 |
Délka nahrávek (celkem) | 12h 52min |
Délka nahrávek (pouze studenti) | 10h 38min |
Zkratka | Popis |
---|---|
doc.file | identifikátor nahrávky |
doc.introduction_topic | volba tématu úvodního monologu (Country, Film, Experience) |
doc.length_A_and_B_turns | počet slovních tvarů celkem (tj. včetně promluv tazatele) |
doc.length_B_turns | počet slovních tvarů bez promluv tazatele |
doc.duration | délka (minuty:vteřiny) |
doc.status | charakteristika vztahu mezi tazatelem a studentem (tj. jak dobře se znají) |
doc.date | datum nahrávky |
task.type | typ úlohy, S = spontánní monolog, F = volný rozhovor, P = popis obrázku |
sp.type | tazatel (interviewer) nebo student (interviewee) |
sp.age | věk |
sp.gender | pohlaví |
sp.country | země původu |
sp.language | mateřský jazyk |
sp.homelang | jazyky, které se užívají v domácnosti, kde student trvale žije |
sp.schooleng | počet let studia AJ před započetím studia na VŠ |
sp.unieng | počet let studia AJ na VŠ |
sp.monthseng | počet měsíců strávených v anglicky mluvící zemi (souhrnem) |
sp.olang | další cizí jazyky, které student ovládá |
remark.type | poznámky (např. informace o znalosti dalších jazyků, upřesnění) |
Koordinátor projektu děkuje ÚČNK za finanční podporu projektu. Dále děkuje všem studentům, kteří se projektu zúčastnili. Děkuje i spolupracovníkům a poradcům z Université catholique de Louvain a Justus-Liebig-Universität Giessen, jmenovitě Gaëtanelle Gilquinové, Sylviane Grangerové a Sandře Götzové. Poděkování patří i Sarah Gráfové za pořízení poloviny nahrávek a Fonetickému ústavu FF UK za zapůjčení nahrávacího studia.
Gráf, Tomáš (2017). LINDSEI_CZ: korpus spontánní mluvené angličtiny pokročilých mluvčích. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz
— Tomáš Gráf