Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:schola2010 [2014/07/29 12:00] – jankocek | cnk:schola2010 [2022/08/29 17:25] (aktuální) – BatchEdit: pojmy>seznamy promluvy cvrcek |
---|
====== Korpus vyučovacích hodin SCHOLA2010 ====== | ====== Korpus vyučovacích hodin SCHOLA2010 ====== |
| |
Korpus SCHOLA2010 vytvořil v rámci výzkumného záměru MSM 0021620825 (Jazyk jako lidská činnost, její produkt a faktor) [[http://ucjtk.ff.cuni.cz|Ústav českého jazyka a teorie komunikace]] (ÚČJTK) z [[http://ff.cuni.cz/|FF]] [[http://cuni.cz/|UK]]. Jedná se o sociologicky i didakticky jedinečný korpus, protože vychází ze školního prostředí a zaznamenává mluvený jazyk vyučovacích hodin (především standardních vyučovacích hodin s délkou cca 45 min.). Uživatelům se tak nabízí jazykový materiál, v němž je zachycena mluva učitelů i žáků během vyučování. Zatím je to jediný veřejně přístupný korpus tohoto typu. Uvedený korpus se od ostatních mluvených korpusů zveřejněných v Českém národním korpusu liší také tím, že neobsahuje jen mluvu dospělých, ale i dětí a mládeže. Jde o referenční sociolingvisticky nevyvážený korpus poloformální a formální mluvené češtiny o velikosti zhruba 1 milion pozic. | Korpus SCHOLA2010((Korpus vytvořil v rámci výzkumného záměru MSM 0021620825 (Jazyk jako lidská činnost, její produkt a faktor) [[http://ucjtk.ff.cuni.cz|Ústav českého jazyka a teorie komunikace]] (ÚČJTK) z [[http://ff.cuni.cz/|FF]] [[http://cuni.cz/|UK]].)) je sociologicky i didakticky jedinečný korpus, protože vychází ze školního prostředí a zaznamenává mluvený jazyk vyučovacích hodin (především standardních vyučovacích hodin s délkou cca 45 min.). Uživatelům se tak nabízí jazykový materiál, v němž je zachycena mluva učitelů i žáků během vyučování. Zatím je to jediný veřejně přístupný korpus tohoto typu. Uvedený korpus se od ostatních mluvených korpusů zveřejněných v Českém národním korpusu liší také tím, že neobsahuje jen mluvu dospělých, ale i dětí a mládeže. Jde o referenční sociolingvisticky nevyvážený korpus poloformální a formální mluvené češtiny o velikosti zhruba 1 milion pozic. |
| |
Tento korpus je sice určený především lingvistům a pedagogům, ale protože je pojímán interdisciplinárně, může poskytnout užitečné informace také speciálním pedagogům, psychologům, sociologům a dalším uživatelům. Potřebám výzkumu rovněž slouží [[http://akces.ff.cuni.cz/|databanka Akces na ÚČJTK UK FF]] ((Badatelé si v této databance mohou prohlédnout celý přepis vyučovací hodiny (je v něm zajištěna naprostá anonymita konkrétních mluvčích, třídy, školy ad.) a vyhledávat si přepisy podle různých skupin nebo kritérií.)), kde jsou zpřístupněny přepisy ve finální verzi (v přepisech zveřejněných v korpusu SCHOLA2010 byly kvůli prohlížeči provedeny drobné úpravy, viz [[Zásady pro přepis vyučovacích hodin]]). | Tento korpus je sice určený především lingvistům a pedagogům, ale protože je pojímán interdisciplinárně, může poskytnout užitečné informace také speciálním pedagogům, psychologům, sociologům a dalším uživatelům. Potřebám výzkumu rovněž slouží [[http://akces.ff.cuni.cz/|databanka Akces na ÚČJTK UK FF]] ((Badatelé si v této databance mohou prohlédnout celý přepis vyučovací hodiny (je v něm zajištěna naprostá anonymita konkrétních mluvčích, třídy, školy ad.) a vyhledávat si přepisy podle různých skupin nebo kritérií.)), kde jsou zpřístupněny přepisy ve finální verzi (v přepisech zveřejněných v korpusu SCHOLA2010 byly kvůli prohlížeči provedeny drobné úpravy, viz [[Zásady pro přepis vyučovacích hodin]]). |
^ <fs medium>Název</fs> | <fs medium>[[cnk:schola2010|SCHOLA2010]]</fs> | | ^ <fs medium>Název</fs> | <fs medium>[[cnk:schola2010|SCHOLA2010]]</fs> | |
^ Počet [[pojmy:token|pozic (tokenů)]] | 1 046 600 | | ^ Počet [[pojmy:token|pozic (tokenů)]] | 1 046 600 | |
^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek | <fc #FF0000>828 038 nebo 792 764 </fc> (([[manual:chvala_korpusu?&#hledame_veskerou_interpunkci_v_mluvenem_korpusu_pocet_pozic_obsazenych_slovy|Jak spočítat počet slov v mluveném korpusu?]])) | | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek | <fc #FF0000>828 038 nebo 792 764 </fc> (([[kurz:chvala_korpusu?&#hledame_veskerou_interpunkci_v_mluvenem_korpusu_pocet_pozic_obsazenych_slovy|Jak spočítat počet slov v mluveném korpusu?]])) | |
^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 64 329 | | ^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 64 329 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] | 204 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 204 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] | 61 285 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] | 61 285 | |
^ Počet mluvčích | 2410 | | ^ Počet mluvčích | 2410 | |
^ Délka nahrávek v min. | 8605 | | ^ Délka nahrávek v min. | 8605 | |
====== Složení korpusu SCHOLA2010 a získávání dat ====== | ====== Složení korpusu SCHOLA2010 a získávání dat ====== |
| |
Korpus SCHOLA2010 tvoří 204 přepisů nahrávek vyučovacích hodin pořízených v letech 2005–2008 na různých místech České republiky, viz [[oddíl Statistiky ke korpusu Schola2010]]. 131 nahrávek bylo nahráno ve středočeské nářeční oblasti, 57 nahrávek ve východomoravské nářeční oblasti ((vymezení nářečních oblastí se opírá o pojetí Běličovo, Nástin české dialektologie, 1972, a o členění nářečních oblastí v Českém jazykovém atlasu, 1992–2005)), viz [[:cnk:mapa_narecnich_oblasti.jpg|Mapa nářečních oblastí ČR]], jde tedy i o teritoriálně různorodý jazykový materiál. Přestože nahrávání probíhalo víceméně ve formálním prostředí, v korpusu SCHOLA2010 se vyskytují i rysy běžně mluveného jazyka. V přepisech vyučovacích hodin je vedle spisovné češtiny poměrně často přítomna obecná čeština a objevují se i regionální prvky. V projevech zaznamenaných ve východní části České republiky je zřejmý vliv dialektu (jsou zde i některé archaické nářeční prvky, např. infinitiv s ť – zkúšať aj.). | Korpus SCHOLA2010 tvoří 204 přepisů nahrávek vyučovacích hodin pořízených v letech 2005–2008 na různých místech České republiky, viz [[oddíl Statistiky ke korpusu Schola2010]]. 131 nahrávek bylo nahráno ve středočeské nářeční oblasti, 57 nahrávek ve východomoravské nářeční oblasti ((vymezení nářečních oblastí se opírá o pojetí Běličovo, Nástin české dialektologie, 1972, a o členění nářečních oblastí v Českém jazykovém atlasu, 1992–2005)), viz {{:cnk:mapa_narecnich_oblasti-velka.jpg?linkonly|Mapa nářečních oblastí ČR}}, jde tedy i o teritoriálně různorodý jazykový materiál. Přestože nahrávání probíhalo víceméně ve formálním prostředí, v korpusu SCHOLA2010 se vyskytují i rysy běžně mluveného jazyka. V přepisech vyučovacích hodin je vedle spisovné češtiny poměrně často přítomna obecná čeština a objevují se i regionální prvky. V projevech zaznamenaných ve východní části České republiky je zřejmý vliv dialektu (jsou zde i některé archaické nářeční prvky, např. infinitiv s ť – //zkúšať// aj.). |
Učitelé i žáci o nahrávání dopředu věděli, žáci (případně jejich rodiče) souhlasili s nahráváním i s využitím těchto nahrávek pro potřeby Českého národního korpusu a pro výzkumné účely. V korpusu vyučovacích hodin se vyskytuje 2410 jedinečných mluvčích (osob). Celková délka zaznamenaného zvukového materiálu činí 143 h 25 min. Korpus obsahuje 1 046 600 pozic, z toho je <fc #FF0000>792 764 slov</fc> (bez interpunkce a bez komentářů, které jsou v různých závorkách). | |
| Učitelé i žáci o nahrávání dopředu věděli, žáci (případně jejich rodiče) souhlasili s nahráváním i s využitím těchto nahrávek pro potřeby Českého národního korpusu a pro výzkumné účely. V korpusu vyučovacích hodin se vyskytuje 2410 jedinečných mluvčích (osob). Celková délka zaznamenaného zvukového materiálu činí 143 h 25 min. Korpus obsahuje 1 046 600 pozic, z toho je **792 764 slov** (bez interpunkce a bez komentářů, které jsou v různých závorkách). |
| |
===== Výběr škol a vyučovacích předmětů ===== | ===== Výběr škol a vyučovacích předmětů ===== |
| |
===Mapa nářečních oblastí ČR=== | ===Mapa nářečních oblastí ČR=== |
{{:cnk:mapa_narecnich_oblasti.jpg?direct&250| Mapa nářečních oblastí ČR}} | |
| {{:cnk:oblasti_ridsi_mod2.jpg?direct&500| Mapa nářečních oblastí ČR}} |
| |
| |
| |
===== Jak citovat ===== | ===== Jak citovat ===== |
Šebesta, K. – Goláňová, H. – Křen, M. – Procházka, P.: SCHOLA2010: korpus mluvené češtiny ve škole – přepisy nahrávek vyučovacích hodin na českých základních a středních školách. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz | <WRAP round tip 70%> |
| Šebesta, K. – Goláňová, H. – Křen, M. – Procházka, P.: //SCHOLA2010: korpus mluvené češtiny ve škole – přepisy nahrávek vyučovacích hodin na českých základních a středních školách//. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz |
| </WRAP> |
| |
| |
| |
===== Související odkazy ===== | ===== Související odkazy ===== |
<WRAP round box 49%> | |
[[ORAL2006]], [[ORAL2008]], [[ORAL2013]], [[PMK]], [[BMK]], [[cnk:czesl-plain|Korpus CZeSL-plain]], [[cnk:skript2012|Korpus Skript2012]], [[pojmy:mluveny|Korpus mluveného jazyka]] | <WRAP round box 69%> |
| [[ORAL2006]] • [[ORAL2008]] • [[ORAL2013]] • [[PMK]] • [[BMK]] • [[cnk:czesl-plain|Korpus CZeSL-plain]] • [[cnk:skript2012|Korpus Skript2012]] • [[pojmy:mluveny|Korpus mluveného jazyka]] |
</WRAP> | </WRAP> |