====== LINDSEI_CZ ====== [[pojmy:zakovsky|Žákovský]] korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1. ===== Historie a současnost ===== Žákovský korpus LINDSEI_CZ vznikl jako součást mezinárodního projektu [[https://uclouvain.be/en/research-institutes/ilc/cecl/lindsei.html|LINDSEI]] organizovaného Centrem pro anglickou korpusovou lingvistiku při Katolické univerzitě v Lovani ([[https://www.uclouvain.be/en-cecl.html|Centre for English Corpus Linguistics]], [[https://www.uclouvain.be/en-index.html|Université catholique de Louvain]]). LINDSEI doplňuje psaný žákovský korpus International Corpus of Learner English ([[http://www.uclouvain.be/en-cecl-icle.html|ICLE]]) o korpus mluvené pokročilé žákovské angličtiny. Práce na LINDSEI začala v roce 1995 a sběr dat pokračuje dodnes. Korpus má zachytit spontánní mluvenou angličtinu pokročilých studentů s různými mateřskými jazyky. Tyto skupiny pak vytvářejí jednotlivé subkorpusy LINDSEI. V r. 2010 byla zveřejněna první verze LINDSEI (Gilquin et al. 2010)((Gilquin, Gaëtanelle, Sylvie De Cock, and Sylviane Granger (2010). //The Louvain International Database of Spoken English Interlanguage//. Handbook and CD-ROM. Louvain-la-Neuve: Presses universitaires de Louvain.)). Distribuována byla na CD s obslužným programem pro vyhledávání a s doprovodnou brožurkou popisující vznik korpusu a přehled základních dat a metadat. V té době LINDSEI obsahoval 11 subkorpusů (bulharský, čínský, holandský, francouzský, německý, řecký, italský, japonský, polský, španělský a švédský). Obsahoval přibližně 1 milión slov (z čehož cca 800 000 tvořily žákovské promluvy), 554 rozhovorů a 130 hodin nahrávek. Od té doby byl dokončen ještě subkorpus finský, norský, litevský, turecký, tchajwanský a český a probíhá práce na arabském, baskickém a brazilském. [[https://www.uclouvain.be/en-307845.html|Druhá verze korpusu]] by tak měla mít celkově 20 národních subkorpusů, přes 1000 rozhovorů a 250 hodin nahrávek. Korpus je dostupný pouze v ortografických přepisech, se zveřejněním nahrávek se v tuto chvíli nepočítá. Korpus není systematicky značkován. Některé badatelské týmy provedly značkování chybové. Od jara 2016 se rozbíhá projekt morfologického značkování. ==== Skladba subkorpusů ==== Každý subkorpus obsahuje 50 rozhovorů, které mají tři části. Tou první je monolog na předem zvolené téma (důležitá životní zkušenost; významný film či divadelní hra; významná cestovatelská zkušenost). Druhou částí je rozhovor na běžná témata týkající se každodenního studentského života, plánů do budoucnosti a zkušeností se studiem. Ve třetí části studenti vyprávějí příběh na základě čtyř kreslených obrázků. Každý rozhovor trvá přibližně 15 minut. ==== Přepisy ==== Rozhovory jsou ortograficky přepsány. Přepisy vycházejí z [[https://www.uclouvain.be/en-307849.html|transkripčního manuálu]] vydaného pro tuto příležitost lovaňským Centrem pro anglickou korpusovou lingvistiku. Zaznamenávány jsou i pauzy, výplňkové zvuky, prodloužené slabiky, nedokončená slova, opakování, překryvy a jiné zvuky (kašel, smích atp.). Osobní údaje jsou v přepisech anonymizovány. ==== Mluvčí ==== LINDSEI byl navržen jako korpus pokročilé žákovské angličtiny. Pokročilost byla stanovena na základě institucionální příslušnosti: mluvčí měli být studenti alespoň 3. ročníku anglistiky. To je zdrojem určité nevyváženosti a pokročilost je v LINDSEI poněkud vágní proměnnou. U francouzského subkorpusu bylo následně provedeno hodnocení úrovně jednotlivých mluvčích profesiolnálními examinátory. U subkorpusu německého byla úroveň dána tím, že studenti dokládají úroveň certifikátem při přijímacích zkouškách. U českého a tchajwanského subkorpusu v současnosti probíhá hodnocení školenými hodnotiteli a examinátory IELTS. ===== LINDSEI_CZ ===== Český subkorpus LINDSEI_CZ vznikl v letech 2012–2015. Stejně jako ostatní národní subkorpusy obsahuje padesát 15minutových nahrávek. Ty byly z větší části nahrány ve studiu Fonetického ústavu FF UK, některé pak pouze na diktafon. Mluvčími byli studenti 3. a vyšších ročníků anglistiky z Ústavu anglického jazyka a didaktiky FF UK. Koordinátorem celého projektu byl PhDr. Tomáš Gráf, Ph.D. z téhož ústavu. Mluvčí podepsali informovaný souhlas s využitím dat pro výzkum a vyplnili dotazník. ^ Počet mluvčích/nahrávek | 50 | ^ Počet žen | 43 | ^ Počet mužů | 7 | ^ Průměrný věk | 22,5 let (SD=1,6) | ^ Průměrná délka studia angličtiny před studiem anglistiky | 9,9 let (SD=2,6) | ^ Průměrná délka studia anglistiky | 3,4 roku (SD=0,9) | ^ Délka pobytu v anglicky-mluvících zemích | 1,2 měsíce (medián) | ^ Počet [[pojmy:pozice|pozic]] (včetně interpunkce a speciálních značek) | 135 366 | ^ Počet [[pojmy:word|slovních tvarů]] ([[pojmy:token|tokenů]])((Započítány jsou také výplňkové zvuky a nedokončená slova; pozice obsahující apostrof jsou počítány jako jeden token.)) | 123 761 | ^ Počet slovních tvarů (tokenů; pouze studenti) | 95 904 | ^ Délka nahrávek (celkem) | 12h 52min | ^ Délka nahrávek (pouze studenti) | 10h 38min | ==== Podoba metadat v rozhraní KonText ==== ^ Zkratka ^ Popis ^ ^ doc.file | identifikátor nahrávky | ^ doc.introduction_topic | volba tématu úvodního monologu (Country, Film, Experience) | ^ doc.length_A_and_B_turns | počet slovních tvarů celkem (tj. včetně promluv tazatele) | ^ doc.length_B_turns | počet slovních tvarů bez promluv tazatele | ^ doc.duration | délka (minuty:vteřiny) | ^ doc.status | charakteristika vztahu mezi tazatelem a studentem (tj. jak dobře se znají) | ^ doc.date | datum nahrávky | ^ task.type | typ úlohy, S = spontánní monolog, F = volný rozhovor, P = popis obrázku | ^ sp.type | tazatel (interviewer) nebo student (interviewee) | ^ sp.age | věk | ^ sp.gender | pohlaví | ^ sp.country | země původu | ^ sp.language | mateřský jazyk | ^ sp.homelang | jazyky, které se užívají v domácnosti, kde student trvale žije | ^ sp.schooleng | počet let studia AJ před započetím studia na VŠ | ^ sp.unieng | počet let studia AJ na VŠ | ^ sp.monthseng | počet měsíců strávených v anglicky mluvící zemi (souhrnem) | ^ sp.olang | další cizí jazyky, které student ovládá | ^ remark.type | poznámky (např. informace o znalosti dalších jazyků, upřesnění) | ==== Poděkování ==== Koordinátor projektu děkuje [[http://ucnk.ff.cuni.cz|ÚČNK]] za finanční podporu projektu. Dále děkuje všem studentům, kteří se projektu zúčastnili. Děkuje i spolupracovníkům a poradcům z Université catholique de Louvain a Justus-Liebig-Universität Giessen, jmenovitě Gaëtanelle Gilquinové, Sylviane Grangerové a Sandře Götzové. Poděkování patří i Sarah Gráfové za pořízení poloviny nahrávek a [[http://fonetika.ff.cuni.cz|Fonetickému ústavu]] FF UK za zapůjčení nahrávacího studia. ====== Jak citovat ====== Gráf, Tomáš (2017). LINDSEI_CZ: korpus spontánní mluvené angličtiny pokročilých mluvčích. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: [[http://www.korpus.cz]] --- //Tomáš Gráf//