AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze
Předchozí verze
cnk:lindsei_cz [2017/01/24 16:26] – vytvořeno michalkrencnk:lindsei_cz [2017/04/27 15:25] (aktuální) – [Historie a současnost] michalkren
Řádek 5: Řádek 5:
 ===== Historie a současnost ===== ===== Historie a současnost =====
  
-Žákovský korpus LINDSEI_CZ vznikl jako součást mezinárodního projektu LINDSEI organizovaného Centrem pro anglickou korpusovou lingvistiku při Katolické univerzitě v Lovani  ([[https://www.uclouvain.be/en-cecl.html|Centre for English Corpus Linguistics]], [[https://www.uclouvain.be/en-index.html|Université catholique de Louvain]]). LINDSEI doplňuje psaný žákovský korpus International Corpus of Learner English ([[http://www.uclouvain.be/en-cecl-icle.html|ICLE]]) o korpus mluvené pokročilé žákovské angličtiny. Práce na LINDSEI začala v roce 1995 a sběr dat pokračuje dodnes. Korpus má zachytit spontánní mluvenou angličtinu pokročilých studentů s různými mateřskými jazyky. Tyto skupiny pak vytvářejí jednotlivé subkorpusy LINDSEI.+Žákovský korpus LINDSEI_CZ vznikl jako součást mezinárodního projektu [[https://uclouvain.be/en/research-institutes/ilc/cecl/lindsei.html|LINDSEI]] organizovaného Centrem pro anglickou korpusovou lingvistiku při Katolické univerzitě v Lovani  ([[https://www.uclouvain.be/en-cecl.html|Centre for English Corpus Linguistics]], [[https://www.uclouvain.be/en-index.html|Université catholique de Louvain]]). LINDSEI doplňuje psaný žákovský korpus International Corpus of Learner English ([[http://www.uclouvain.be/en-cecl-icle.html|ICLE]]) o korpus mluvené pokročilé žákovské angličtiny. Práce na LINDSEI začala v roce 1995 a sběr dat pokračuje dodnes. Korpus má zachytit spontánní mluvenou angličtinu pokročilých studentů s různými mateřskými jazyky. Tyto skupiny pak vytvářejí jednotlivé subkorpusy LINDSEI.
  
 V r. 2010 byla zveřejněna první verze LINDSEI (Gilquin et al. 2010)((Gilquin, Gaëtanelle, Sylvie De Cock, and Sylviane Granger (2010). //The Louvain International Database of Spoken English Interlanguage//. Handbook and CD-ROM. Louvain-la-Neuve: Presses universitaires de Louvain.)). Distribuována byla na CD s obslužným programem pro vyhledávání a s doprovodnou brožurkou popisující vznik korpusu a přehled základních dat a metadat. V té době LINDSEI obsahoval 11 subkorpusů (bulharský, čínský, holandský, francouzský, německý, řecký, italský, japonský, polský, španělský a švédský). Obsahoval přibližně 1 milión slov (z čehož cca 800 000 tvořily žákovské promluvy), 554 rozhovorů a 130 hodin nahrávek. Od té doby byl dokončen ještě subkorpus finský, norský, litevský, turecký, tchajwanský a český a probíhá práce na arabském, baskickém a brazilském. [[https://www.uclouvain.be/en-307845.html|Druhá verze korpusu]] by tak měla mít celkově 20 národních subkorpusů, přes 1000 rozhovorů a 250 hodin nahrávek. Korpus je dostupný pouze v ortografických přepisech, se zveřejněním nahrávek se v tuto chvíli nepočítá. Korpus není systematicky značkován. Některé badatelské týmy provedly značkování chybové. Od jara 2016 se rozbíhá projekt morfologického značkování. V r. 2010 byla zveřejněna první verze LINDSEI (Gilquin et al. 2010)((Gilquin, Gaëtanelle, Sylvie De Cock, and Sylviane Granger (2010). //The Louvain International Database of Spoken English Interlanguage//. Handbook and CD-ROM. Louvain-la-Neuve: Presses universitaires de Louvain.)). Distribuována byla na CD s obslužným programem pro vyhledávání a s doprovodnou brožurkou popisující vznik korpusu a přehled základních dat a metadat. V té době LINDSEI obsahoval 11 subkorpusů (bulharský, čínský, holandský, francouzský, německý, řecký, italský, japonský, polský, španělský a švédský). Obsahoval přibližně 1 milión slov (z čehož cca 800 000 tvořily žákovské promluvy), 554 rozhovorů a 130 hodin nahrávek. Od té doby byl dokončen ještě subkorpus finský, norský, litevský, turecký, tchajwanský a český a probíhá práce na arabském, baskickém a brazilském. [[https://www.uclouvain.be/en-307845.html|Druhá verze korpusu]] by tak měla mít celkově 20 národních subkorpusů, přes 1000 rozhovorů a 250 hodin nahrávek. Korpus je dostupný pouze v ortografických přepisech, se zveřejněním nahrávek se v tuto chvíli nepočítá. Korpus není systematicky značkován. Některé badatelské týmy provedly značkování chybové. Od jara 2016 se rozbíhá projekt morfologického značkování.