====== LINDSEI_CZ ======

[[pojmy:zakovsky|Žákovský]] korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1.

===== Historie a současnost =====

Žákovský korpus LINDSEI_CZ vznikl jako součást mezinárodního projektu [[https://uclouvain.be/en/research-institutes/ilc/cecl/lindsei.html|LINDSEI]] organizovaného Centrem pro anglickou korpusovou lingvistiku při Katolické univerzitě v Lovani  ([[https://www.uclouvain.be/en-cecl.html|Centre for English Corpus Linguistics]], [[https://www.uclouvain.be/en-index.html|Université catholique de Louvain]]). LINDSEI doplňuje psaný žákovský korpus International Corpus of Learner English ([[http://www.uclouvain.be/en-cecl-icle.html|ICLE]]) o korpus mluvené pokročilé žákovské angličtiny. Práce na LINDSEI začala v roce 1995 a sběr dat pokračuje dodnes. Korpus má zachytit spontánní mluvenou angličtinu pokročilých studentů s různými mateřskými jazyky. Tyto skupiny pak vytvářejí jednotlivé subkorpusy LINDSEI.

V r. 2010 byla zveřejněna první verze LINDSEI (Gilquin et al. 2010)((Gilquin, Gaëtanelle, Sylvie De Cock, and Sylviane Granger (2010). //The Louvain International Database of Spoken English Interlanguage//. Handbook and CD-ROM. Louvain-la-Neuve: Presses universitaires de Louvain.)). Distribuována byla na CD s obslužným programem pro vyhledávání a s doprovodnou brožurkou popisující vznik korpusu a přehled základních dat a metadat. V té době LINDSEI obsahoval 11 subkorpusů (bulharský, čínský, holandský, francouzský, německý, řecký, italský, japonský, polský, španělský a švédský). Obsahoval přibližně 1 milión slov (z čehož cca 800 000 tvořily žákovské promluvy), 554 rozhovorů a 130 hodin nahrávek. Od té doby byl dokončen ještě subkorpus finský, norský, litevský, turecký, tchajwanský a český a probíhá práce na arabském, baskickém a brazilském. [[https://www.uclouvain.be/en-307845.html|Druhá verze korpusu]] by tak měla mít celkově 20 národních subkorpusů, přes 1000 rozhovorů a 250 hodin nahrávek. Korpus je dostupný pouze v ortografických přepisech, se zveřejněním nahrávek se v tuto chvíli nepočítá. Korpus není systematicky značkován. Některé badatelské týmy provedly značkování chybové. Od jara 2016 se rozbíhá projekt morfologického značkování.

==== Skladba subkorpusů ====

Každý subkorpus obsahuje 50 rozhovorů, které mají tři části. Tou první je monolog na předem zvolené téma (důležitá životní zkušenost; významný film či divadelní hra; významná cestovatelská zkušenost). Druhou částí je rozhovor na běžná témata týkající se každodenního studentského života, plánů do budoucnosti a zkušeností se studiem. Ve třetí části studenti vyprávějí příběh na základě čtyř kreslených obrázků. Každý rozhovor trvá přibližně 15 minut. 

==== Přepisy ====

Rozhovory jsou ortograficky přepsány. Přepisy vycházejí z [[https://www.uclouvain.be/en-307849.html|transkripčního manuálu]] vydaného pro tuto příležitost lovaňským Centrem pro anglickou korpusovou lingvistiku. Zaznamenávány jsou i pauzy, výplňkové zvuky, prodloužené slabiky, nedokončená slova, opakování, překryvy a jiné zvuky (kašel, smích atp.). Osobní údaje jsou v přepisech anonymizovány. 

==== Mluvčí ====

LINDSEI byl navržen jako korpus pokročilé žákovské angličtiny. Pokročilost byla stanovena na základě institucionální příslušnosti: mluvčí měli být studenti alespoň 3. ročníku anglistiky. To je zdrojem určité nevyváženosti a pokročilost je v LINDSEI poněkud vágní proměnnou. U francouzského subkorpusu bylo následně provedeno hodnocení úrovně jednotlivých mluvčích profesiolnálními examinátory. U subkorpusu německého byla úroveň dána tím, že studenti dokládají úroveň certifikátem při přijímacích zkouškách. U českého a tchajwanského subkorpusu v současnosti probíhá hodnocení školenými hodnotiteli a examinátory IELTS.

===== LINDSEI_CZ =====

Český subkorpus LINDSEI_CZ vznikl v letech 2012–2015. Stejně jako ostatní národní subkorpusy obsahuje padesát 15minutových nahrávek. Ty byly z větší části nahrány ve studiu Fonetického ústavu FF UK, některé pak pouze na diktafon. Mluvčími byli studenti 3. a vyšších ročníků anglistiky z Ústavu anglického jazyka a didaktiky FF UK. Koordinátorem celého projektu byl PhDr. Tomáš Gráf, Ph.D. z téhož ústavu. Mluvčí podepsali informovaný souhlas s využitím dat pro výzkum a vyplnili dotazník.

^ Počet mluvčích/nahrávek |  50 |
^ Počet žen |  43 |
^ Počet mužů |  7 |
^ Průměrný věk |  22,5 let (SD=1,6) |
^ Průměrná délka studia angličtiny před studiem anglistiky |  9,9 let (SD=2,6) |
^ Průměrná délka studia anglistiky  |  3,4 roku (SD=0,9) |
^ Délka pobytu v anglicky-mluvících zemích |  1,2 měsíce (medián) |

^ Počet [[pojmy:pozice|pozic]] (včetně interpunkce a speciálních značek) |  135 366 |
^ Počet [[pojmy:word|slovních tvarů]] ([[pojmy:token|tokenů]])((Započítány jsou také výplňkové zvuky a nedokončená slova; pozice obsahující apostrof jsou počítány jako jeden token.)) |  123 761 | 
^ Počet slovních tvarů (tokenů; pouze studenti) |  95 904 |
^ Délka nahrávek (celkem) |  12h 52min |
^ Délka nahrávek (pouze studenti) |  10h 38min |

==== Podoba metadat v rozhraní KonText ====

^ Zkratka ^ Popis ^
^ doc.file | identifikátor nahrávky |
^ doc.introduction_topic | volba tématu úvodního monologu (Country, Film, Experience) |
^ doc.length_A_and_B_turns | počet slovních tvarů celkem (tj. včetně promluv tazatele) |
^ doc.length_B_turns | počet slovních tvarů bez promluv tazatele |
^ doc.duration | délka (minuty:vteřiny) |
^ doc.status | charakteristika vztahu mezi tazatelem a studentem (tj. jak dobře se znají) |
^ doc.date | datum nahrávky |
^ task.type | typ úlohy, S = spontánní monolog, F = volný rozhovor, P = popis obrázku |
^ sp.type | tazatel (interviewer) nebo student (interviewee) |
^ sp.age | věk |
^ sp.gender | pohlaví |
^ sp.country | země původu |
^ sp.language | mateřský jazyk |
^ sp.homelang | jazyky, které se užívají v domácnosti, kde student trvale žije |
^ sp.schooleng | počet let studia AJ před započetím studia na VŠ |
^ sp.unieng | počet let studia AJ na VŠ |
^ sp.monthseng | počet měsíců strávených v anglicky mluvící zemi (souhrnem) |
^ sp.olang | další cizí jazyky, které student ovládá |
^ remark.type | poznámky (např. informace o znalosti dalších jazyků, upřesnění) |
==== Poděkování ====

Koordinátor projektu děkuje [[http://ucnk.ff.cuni.cz|ÚČNK]] za finanční podporu projektu. Dále děkuje všem studentům, kteří se projektu zúčastnili. Děkuje i spolupracovníkům a poradcům z Université catholique de Louvain a Justus-Liebig-Universität Giessen, jmenovitě Gaëtanelle Gilquinové, Sylviane Grangerové a Sandře Götzové. Poděkování patří i Sarah Gráfové za pořízení poloviny nahrávek a [[http://fonetika.ff.cuni.cz|Fonetickému ústavu]] FF UK za zapůjčení nahrávacího studia.
====== Jak citovat ======

<WRAP round tip 70%>
Gráf, Tomáš (2017). LINDSEI_CZ: korpus spontánní mluvené angličtiny pokročilých mluvčích. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: [[http://www.korpus.cz]]
</WRAP>

--- //Tomáš Gráf//