Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
cnk:lindsei_cz [2017/01/27 11:02]
Michal Křen [Historie a současnost]
cnk:lindsei_cz [2017/04/27 15:25] (aktuální)
Michal Křen [Historie a současnost]
Řádek 5: Řádek 5:
 ===== Historie a současnost ===== ===== Historie a současnost =====
  
-Žákovský korpus LINDSEI_CZ vznikl jako součást mezinárodního projektu [[https://www.uclouvain.be/​en-cecl-lindsei.html|LINDSEI]] organizovaného Centrem pro anglickou korpusovou lingvistiku při Katolické univerzitě v Lovani ​ ([[https://​www.uclouvain.be/​en-cecl.html|Centre for English Corpus Linguistics]],​ [[https://​www.uclouvain.be/​en-index.html|Université catholique de Louvain]]). LINDSEI doplňuje psaný žákovský korpus International Corpus of Learner English ([[http://​www.uclouvain.be/​en-cecl-icle.html|ICLE]]) o korpus mluvené pokročilé žákovské angličtiny. Práce na LINDSEI začala v roce 1995 a sběr dat pokračuje dodnes. Korpus má zachytit spontánní mluvenou angličtinu pokročilých studentů s různými mateřskými jazyky. Tyto skupiny pak vytvářejí jednotlivé subkorpusy LINDSEI.+Žákovský korpus LINDSEI_CZ vznikl jako součást mezinárodního projektu [[https://​uclouvain.be/​en/research-institutes/​ilc/​cecl/lindsei.html|LINDSEI]] organizovaného Centrem pro anglickou korpusovou lingvistiku při Katolické univerzitě v Lovani ​ ([[https://​www.uclouvain.be/​en-cecl.html|Centre for English Corpus Linguistics]],​ [[https://​www.uclouvain.be/​en-index.html|Université catholique de Louvain]]). LINDSEI doplňuje psaný žákovský korpus International Corpus of Learner English ([[http://​www.uclouvain.be/​en-cecl-icle.html|ICLE]]) o korpus mluvené pokročilé žákovské angličtiny. Práce na LINDSEI začala v roce 1995 a sběr dat pokračuje dodnes. Korpus má zachytit spontánní mluvenou angličtinu pokročilých studentů s různými mateřskými jazyky. Tyto skupiny pak vytvářejí jednotlivé subkorpusy LINDSEI.
  
 V r. 2010 byla zveřejněna první verze LINDSEI (Gilquin et al. 2010)((Gilquin,​ Gaëtanelle,​ Sylvie De Cock, and Sylviane Granger (2010). //The Louvain International Database of Spoken English Interlanguage//​. Handbook and CD-ROM. Louvain-la-Neuve:​ Presses universitaires de Louvain.)). Distribuována byla na CD s obslužným programem pro vyhledávání a s doprovodnou brožurkou popisující vznik korpusu a přehled základních dat a metadat. V té době LINDSEI obsahoval 11 subkorpusů (bulharský,​ čínský, holandský, francouzský,​ německý, řecký, italský, japonský, polský, španělský a švédský). Obsahoval přibližně 1 milión slov (z čehož cca 800 000 tvořily žákovské promluvy), 554 rozhovorů a 130 hodin nahrávek. Od té doby byl dokončen ještě subkorpus finský, norský, litevský, turecký, tchajwanský a český a probíhá práce na arabském, baskickém a brazilském. [[https://​www.uclouvain.be/​en-307845.html|Druhá verze korpusu]] by tak měla mít celkově 20 národních subkorpusů,​ přes 1000 rozhovorů a 250 hodin nahrávek. Korpus je dostupný pouze v ortografických přepisech, se zveřejněním nahrávek se v tuto chvíli nepočítá. Korpus není systematicky značkován. Některé badatelské týmy provedly značkování chybové. Od jara 2016 se rozbíhá projekt morfologického značkování. V r. 2010 byla zveřejněna první verze LINDSEI (Gilquin et al. 2010)((Gilquin,​ Gaëtanelle,​ Sylvie De Cock, and Sylviane Granger (2010). //The Louvain International Database of Spoken English Interlanguage//​. Handbook and CD-ROM. Louvain-la-Neuve:​ Presses universitaires de Louvain.)). Distribuována byla na CD s obslužným programem pro vyhledávání a s doprovodnou brožurkou popisující vznik korpusu a přehled základních dat a metadat. V té době LINDSEI obsahoval 11 subkorpusů (bulharský,​ čínský, holandský, francouzský,​ německý, řecký, italský, japonský, polský, španělský a švédský). Obsahoval přibližně 1 milión slov (z čehož cca 800 000 tvořily žákovské promluvy), 554 rozhovorů a 130 hodin nahrávek. Od té doby byl dokončen ještě subkorpus finský, norský, litevský, turecký, tchajwanský a český a probíhá práce na arabském, baskickém a brazilském. [[https://​www.uclouvain.be/​en-307845.html|Druhá verze korpusu]] by tak měla mít celkově 20 národních subkorpusů,​ přes 1000 rozhovorů a 250 hodin nahrávek. Korpus je dostupný pouze v ortografických přepisech, se zveřejněním nahrávek se v tuto chvíli nepočítá. Korpus není systematicky značkován. Některé badatelské týmy provedly značkování chybové. Od jara 2016 se rozbíhá projekt morfologického značkování.