Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzePoslední revizeObě strany příští revize | ||
cnk:czesl-plain [2015/01/23 16:11] – [Vnitřní struktura korpusu CzeSL-plain dle textových typů] vaclavcvrcek | cnk:czesl-plain [2015/10/23 16:15] – Odkaz cvrcek | ||
---|---|---|---|
Řádek 5: | Řádek 5: | ||
Na vzniku korpusu se podílela Technická univerzita v Liberci jako příjemce podpory, Univerzita Karlova v Praze a Asociace učitelů češtiny jako cizího jazyka jako partneři a také řada základních a středních škol, občanských sdružení a dalších institucí i individuálních spolupracovníků. | Na vzniku korpusu se podílela Technická univerzita v Liberci jako příjemce podpory, Univerzita Karlova v Praze a Asociace učitelů češtiny jako cizího jazyka jako partneři a také řada základních a středních škol, občanských sdružení a dalších institucí i individuálních spolupracovníků. | ||
- | Korpus obsahuje v revidované verzi 2 celkem asi 2,3 mil. pozic (podrobnější údaje viz tabulka) a zahrnuje tři subkorpusy, rozlišené jako texty tří typů. Verzi 1 lze zájemcům zpřístupnit na požádání. Důvodem revize bylo to, že do části **ciz** verze 1 bylo omylem zařazeno několik desítek slohových prací českých žáků. | + | Korpus obsahuje v revidované verzi 2 celkem asi 2,3 mil. pozic (podrobnější údaje viz tabulka) a zahrnuje tři subkorpusy, rozlišené jako texty tří typů. Verzi 1 lze zájemcům zpřístupnit na požádání. Důvodem revize bylo to, že do částí |
+ | Texty nerodilých mluvčích (část **ciz**) z korpusu CzeSL-plain jsou doplněny o novější texty a zpřístupněny zvlášť v korpusu [[cnk: | ||
===== Text types, textové typy ===== | ===== Text types, textové typy ===== | ||
Texty jsou tříděny do tří kategorií: | Texty jsou tříděny do tří kategorií: | ||
Řádek 25: | Řádek 26: | ||
Ve všech třech skupinách jde o projevy mluvčích, kteří si češtinu (dosud) neosvojili na úrovni odpovídající úrovni dospělého rodilého mluvčího. Korpus má tedy povahu korpusu [[pojmy: | Ve všech třech skupinách jde o projevy mluvčích, kteří si češtinu (dosud) neosvojili na úrovni odpovídající úrovni dospělého rodilého mluvčího. Korpus má tedy povahu korpusu [[pojmy: | ||
- | ===== Sběr textů | + | ===== Sběr textů, jejich přepis |
Texty byly sbírány v letech 2009–-2012, | Texty byly sbírány v letech 2009–-2012, | ||
Řádek 31: | Řádek 32: | ||
Eseje a školní písemné práce byly získávány v rukopisné podobě, skenovány a přepisovány do elektronické podoby. Odborné texty od nerodilých mluvčích byly získávány od autorů přímo v elektronické podobě a nebyly tvořeny v souvislosti s jazykovým vyučováním či přímo pro korpus; nelze tedy vyloučit, že jejich konečná podoba byla ovlivněna automatickým jazykovým korektorem. | Eseje a školní písemné práce byly získávány v rukopisné podobě, skenovány a přepisovány do elektronické podoby. Odborné texty od nerodilých mluvčích byly získávány od autorů přímo v elektronické podobě a nebyly tvořeny v souvislosti s jazykovým vyučováním či přímo pro korpus; nelze tedy vyloučit, že jejich konečná podoba byla ovlivněna automatickým jazykovým korektorem. | ||
- | Část textů z korpusu CzeSL-plain je opatřena morfosyntaktickou a chybovou anotací a bude zpřístupněna v jiném vyhledávacím rozhraní. Samotný korpus | + | Korpus **CzeSL-plain** neobsahuje |
- | + | ||
===== Jak citovat CzeSL ===== | ===== Jak citovat CzeSL ===== | ||
Řádek 40: | Řádek 39: | ||
</ | </ | ||
- | |||
- | ==== Poděkování ==== | ||
- | |||
- | Na pořizování textů se podíleli především FIXME. | ||
- | |||
- | |||
- | --- //FIXME Karel Šebesta?, Olga Richterová// | ||
===== Související odkazy ===== | ===== Související odkazy ===== | ||
<WRAP round box 49%> | <WRAP round box 49%> | ||
- | [[cnk: | + | [[cnk: |
</ | </ |