Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
| cnk:czesl-plain [2014/02/04 23:28] – [Korpus CzeSL-plain] alexandrrosen | cnk:czesl-plain [2018/08/07 12:37] (aktuální) – alexandrrosen | ||
|---|---|---|---|
| Řádek 5: | Řádek 5: | ||
| Na vzniku korpusu se podílela Technická univerzita v Liberci jako příjemce podpory, Univerzita Karlova v Praze a Asociace učitelů češtiny jako cizího jazyka jako partneři a také řada základních a středních škol, občanských sdružení a dalších institucí i individuálních spolupracovníků. | Na vzniku korpusu se podílela Technická univerzita v Liberci jako příjemce podpory, Univerzita Karlova v Praze a Asociace učitelů češtiny jako cizího jazyka jako partneři a také řada základních a středních škol, občanských sdružení a dalších institucí i individuálních spolupracovníků. | ||
| - | Korpus obsahuje v revidované verzi 2 celkem asi 2,3 mil. pozic (podrobnější údaje viz tabulka) a zahrnuje tři subkorpusy, rozlišené jako texty tří typů. Verzi 1 lze zájemcům zpřístupnit na požádání. Důvodem revize bylo to, že do její části **ciz** bylo omylem zařazeno několik desítek slohových prací českých žáků. | + | Korpus obsahuje v revidované verzi 2 celkem asi 2,3 mil. pozic (podrobnější údaje viz tabulka) a zahrnuje tři subkorpusy, rozlišené jako texty tří typů. Verzi 1 lze zájemcům zpřístupnit na požádání. Důvodem revize bylo to, že do částí |
| + | Texty nerodilých mluvčích (část **ciz**) z korpusu CzeSL-plain jsou doplněny o novější texty a zpřístupněny zvlášť v korpusu [[cnk: | ||
| ===== Text types, textové typy ===== | ===== Text types, textové typy ===== | ||
| Texty jsou tříděny do tří kategorií: | Texty jsou tříděny do tří kategorií: | ||
| Řádek 13: | Řádek 14: | ||
| * **kval** – odborné texty získané od nerodilých mluvčích studujících na českých vysokých školách v navazujícím magisterském či doktorském studiu; | * **kval** – odborné texty získané od nerodilých mluvčích studujících na českých vysokých školách v navazujícím magisterském či doktorském studiu; | ||
| * **rom** – přepisy školních písemných prací romských žáků z oblastí ohrožených sociálním vyloučením. | * **rom** – přepisy školních písemných prací romských žáků z oblastí ohrožených sociálním vyloučením. | ||
| + | |||
| + | Další údaje o autorovi textu a textu samotném (metadata) v tomto korpusu nejsou uvedeny. | ||
| ==== Vnitřní struktura korpusu CzeSL-plain dle textových typů ==== | ==== Vnitřní struktura korpusu CzeSL-plain dle textových typů ==== | ||
| Řádek 20: | Řádek 23: | ||
| | ciz – eseje cizinců | 8 109 / 8 863 | 1 160 701 / 1 314 901 | | | ciz – eseje cizinců | 8 109 / 8 863 | 1 160 701 / 1 314 901 | | ||
| | kval – odborné kvalifikační práce | 174 / 176 | 731 816 / 731 816 | | | kval – odborné kvalifikační práce | 174 / 176 | 731 816 / 731 816 | | ||
| - | | rom –slohové práce romských žáků | 4 105 / 4 420 | 428 161 / 428 161 | | + | | rom – slohové práce romských žáků | 4 105 / 4 420 | 428 161 / 428 161 | |
| | CELKEM | 12 388 / 13 459 | 2 320 678 / 2 474 878 | | | CELKEM | 12 388 / 13 459 | 2 320 678 / 2 474 878 | | ||
| - | Ve všech třech skupinách jde o projevy mluvčích, kteří si češtinu (dosud) neosvojili na úrovni odpovídající úrovni dospělého rodilého mluvčího. Korpus má tedy povahu korpusu [[pojmy:akvizicni|akvizičního]] a může sloužit jednak výzkumu v oblasti osvojování a vyučování jazyka, jednak pedagogickým účelům; první dva soubory dat se týkají češtiny jako jazyka druhého/ | + | Ve všech třech skupinách jde o projevy mluvčích, kteří si češtinu (dosud) neosvojili na úrovni odpovídající úrovni dospělého rodilého mluvčího. Korpus má tedy povahu korpusu [[pojmy:akvizicni_korpus|akvizičního]] a může sloužit jednak výzkumu v oblasti osvojování a vyučování jazyka, jednak pedagogickým účelům; první dva soubory dat se týkají češtiny jako jazyka druhého/ |
| - | ===== Sběr textů | + | ===== Sběr textů, jejich přepis |
| Texty byly sbírány v letech 2009–-2012, | Texty byly sbírány v letech 2009–-2012, | ||
| Řádek 31: | Řádek 34: | ||
| Eseje a školní písemné práce byly získávány v rukopisné podobě, skenovány a přepisovány do elektronické podoby. Odborné texty od nerodilých mluvčích byly získávány od autorů přímo v elektronické podobě a nebyly tvořeny v souvislosti s jazykovým vyučováním či přímo pro korpus; nelze tedy vyloučit, že jejich konečná podoba byla ovlivněna automatickým jazykovým korektorem. | Eseje a školní písemné práce byly získávány v rukopisné podobě, skenovány a přepisovány do elektronické podoby. Odborné texty od nerodilých mluvčích byly získávány od autorů přímo v elektronické podobě a nebyly tvořeny v souvislosti s jazykovým vyučováním či přímo pro korpus; nelze tedy vyloučit, že jejich konečná podoba byla ovlivněna automatickým jazykovým korektorem. | ||
| - | Část textů z korpusu CzeSL-plain je opatřena morfosyntaktickou a chybovou anotací a bude zpřístupněna v jiném vyhledávacím rozhraní. Samotný korpus | + | Korpus **CzeSL-plain** neobsahuje |
| - | + | ||
| ===== Jak citovat CzeSL ===== | ===== Jak citovat CzeSL ===== | ||
| - | <WRAP round tip 40%> | + | <WRAP round tip 70%> |
| - | Šebesta, K. – Bedřichová, | + | Šebesta, K. – Bedřichová, |
| </ | </ | ||
| - | |||
| - | ==== Poděkování ==== | ||
| - | |||
| - | Na pořizování textů se podíleli především FIXME. | ||
| - | |||
| - | |||
| - | --- //FIXME Karel Šebesta?, Olga Richterová// | ||
| ===== Související odkazy ===== | ===== Související odkazy ===== | ||
| <WRAP round box 49%> | <WRAP round box 49%> | ||
| - | [[cnk: | + | [[cnk: |
| </ | </ | ||