~~NOTOC~~ ====== Korpus vyučovacích hodin SCHOLA2010 ====== Korpus SCHOLA2010((Korpus vytvořil v rámci výzkumného záměru MSM 0021620825 (Jazyk jako lidská činnost, její produkt a faktor) [[http://ucjtk.ff.cuni.cz|Ústav českého jazyka a teorie komunikace]] (ÚČJTK) z [[http://ff.cuni.cz/|FF]] [[http://cuni.cz/|UK]].)) je sociologicky i didakticky jedinečný korpus, protože vychází ze školního prostředí a zaznamenává mluvený jazyk vyučovacích hodin (především standardních vyučovacích hodin s délkou cca 45 min.). Uživatelům se tak nabízí jazykový materiál, v němž je zachycena mluva učitelů i žáků během vyučování. Zatím je to jediný veřejně přístupný korpus tohoto typu. Uvedený korpus se od ostatních mluvených korpusů zveřejněných v Českém národním korpusu liší také tím, že neobsahuje jen mluvu dospělých, ale i dětí a mládeže. Jde o referenční sociolingvisticky nevyvážený korpus poloformální a formální mluvené češtiny o velikosti zhruba 1 milion pozic. Tento korpus je sice určený především lingvistům a pedagogům, ale protože je pojímán interdisciplinárně, může poskytnout užitečné informace také speciálním pedagogům, psychologům, sociologům a dalším uživatelům. Potřebám výzkumu rovněž slouží [[http://akces.ff.cuni.cz/|databanka Akces na ÚČJTK UK FF]] ((Badatelé si v této databance mohou prohlédnout celý přepis vyučovací hodiny (je v něm zajištěna naprostá anonymita konkrétních mluvčích, třídy, školy ad.) a vyhledávat si přepisy podle různých skupin nebo kritérií.)), kde jsou zpřístupněny přepisy ve finální verzi (v přepisech zveřejněných v korpusu SCHOLA2010 byly kvůli prohlížeči provedeny drobné úpravy, viz [[Zásady pro přepis vyučovacích hodin]]). ^ Název | [[cnk:schola2010|SCHOLA2010]] | ^ Počet [[pojmy:token|pozic (tokenů)]] | 1 046 600 | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek | 828 038 nebo 792 764 (([[kurz:chvala_korpusu?&#hledame_veskerou_interpunkci_v_mluvenem_korpusu_pocet_pozic_obsazenych_slovy|Jak spočítat počet slov v mluveném korpusu?]])) | ^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 64 329 | ^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 204 | ^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] | 61 285 | ^ Počet mluvčích | 2410 | ^ Délka nahrávek v min. | 8605 | ====== Složení korpusu SCHOLA2010 a získávání dat ====== Korpus SCHOLA2010 tvoří 204 přepisů nahrávek vyučovacích hodin pořízených v letech 2005–2008 na různých místech České republiky, viz [[oddíl Statistiky ke korpusu Schola2010]]. 131 nahrávek bylo nahráno ve středočeské nářeční oblasti, 57 nahrávek ve východomoravské nářeční oblasti ((vymezení nářečních oblastí se opírá o pojetí Běličovo, Nástin české dialektologie, 1972, a o členění nářečních oblastí v Českém jazykovém atlasu, 1992–2005)), viz {{:cnk:mapa_narecnich_oblasti-velka.jpg?linkonly|Mapa nářečních oblastí ČR}}, jde tedy i o teritoriálně různorodý jazykový materiál. Přestože nahrávání probíhalo víceméně ve formálním prostředí, v korpusu SCHOLA2010 se vyskytují i rysy běžně mluveného jazyka. V přepisech vyučovacích hodin je vedle spisovné češtiny poměrně často přítomna obecná čeština a objevují se i regionální prvky. V projevech zaznamenaných ve východní části České republiky je zřejmý vliv dialektu (jsou zde i některé archaické nářeční prvky, např. infinitiv s ť – //zkúšať// aj.). Učitelé i žáci o nahrávání dopředu věděli, žáci (případně jejich rodiče) souhlasili s nahráváním i s využitím těchto nahrávek pro potřeby Českého národního korpusu a pro výzkumné účely. V korpusu vyučovacích hodin se vyskytuje 2410 jedinečných mluvčích (osob). Celková délka zaznamenaného zvukového materiálu činí 143 h 25 min. Korpus obsahuje 1 046 600 pozic, z toho je **792 764 slov** (bez interpunkce a bez komentářů, které jsou v různých závorkách). ===== Výběr škol a vyučovacích předmětů ===== Pro budování korpusu SCHOLA2010 byly vybrány základní školy, gymnázia a střední odborné školy. Projektu se účastnilo celkem 27 škol (16 pražských a 11 mimopražských) a 115 tříd/skupin. Pokud jde o pedagogy, na nahrávání se podílelo 47 učitelů (20 mužů a 27 žen). V projevech bylo rozpoznáno 2347 jedinečných žáků (jsou v tom zahrnuti i 4 cizí žáci) a 16 cizích dospělých osob (převážně učitelů). U žáků byl zaznamenán věk od 6 do 23 let, věk učitelů se pohybuje od 23 let do 53 let, u cizích dospělých osob do 69 let, podrobněji viz [[oddíl Statistiky ke korpusu Schola2010]]. V korpusu jsou zastoupeny všechny třídy ZŠ kromě 4. třídy (nahrávání se zde nepodařilo zajistit), všechny třídy víceletých gymnázií a všechny ročníky čtyřletých gymnázií a středních odborných škol. Podle rámcových vzdělávacích plánů (RVP) do něj byly zařazeny všechny základní vyučovací předměty (kromě cizích jazyků a tělocviku) a výběrově i odborné předměty vyučované na středních odborných školách, viz [[Sociolingvistické značky a charakteristiky v korpusu SCHOLA2010]]. Korpus SCHOLA2010 je vyvážený především vzhledem ke skupinám vyučovacích předmětů k počtu sond: {{:cnk:schola-graf.gif?direct |}} ^ 1. skupina ^^^ | skupina **A** | český jazyk a literatura | 60 sond | | skupina **B** | matematické a přírodovědné předměty | 62 sond | ^ 2. skupina ^^^ | skupina **C** | společenskovědní a výchovné předměty | 45 sond | | skupina **D** | informatika, technické a profesně–pracovního vyučování | 37 sond | podrobněji viz [[oddíl Statistiky ke korpusu Schola2010]]. ==== Statistiky ke korpusu Schola2010 ==== Korpus SCHOLA2010 se s ostatními mluvenými korpusy shoduje v základních sociolingvistických proměnných. Kvůli srovnatelnosti s ostatními korpusy uvádíme situaci při nahrávání: ^ Kategorie ^ zkratky ^ ^ Situace při nahrávání | F (formální) | ^ Pohlaví | M (muž) a Z (žena) | ^ Věk | I (do 35 let) a V (35 let a více) | ^ Vzdělání | B (základní a středoškolské) a A (vysokoškolské včetně pouze započatého) | U všech mluvčích jsou taktéž zpřístupněny informace o jejich přesném věku a konkrétním dosahovaném stupni vzdělání (ZŠ, SŠ, VŠ). Korpus SCHOLA2010 navíc díky svému speciálnímu zaměření obsahuje další užitečné sociolingvistické charakteristiky: **informace o sondě, o škole, o třídě, o vyučovacím předmětu, o vyučovací hodině, doplňující údaje o mluvčím**, podrobněji viz [[Sociolingvistické značky a charakteristiky v korpusu SCHOLA2010]]. ====== Zásady pro přepis vyučovacích hodin ====== Zpracování nahrávek vyučovacích hodin a jejich přepisování vycházelo ze zásad uplatňovaných při přípravě předchozích mluvených korpusů v rámci Českého národního korpusu, zejména korpusu [[cnk:oral2006|ORAL2006]]. Pravidla pro přepis vyučovacích hodin však byla upravena v závislosti na charakteru a koncepci tohoto projektu, viz [[Zásady pro přepis vyučovacích hodin]]. ===Odkazy:=== * [[cnk:zasady_pro_prepis_vyucovacich_hodin|Zásady pro přepis vyučovacích hodin]]\\ * [[cnk:sociolingvisticke_znacky_a_charakteristiky_v_korpusu_schola2010|Sociolingvistické značky a charakteristiky v korpusu SCHOLA2010]]\\ * [[cnk:oddil_statistiky_ke_korpusu_schola2010|Statistiky ke korpusu Schola2010]]\\ * [[cnk:schola_vyhledavani_a_subkorpusy|Vyhledávání v korpusu SCHOLA2010 a vytváření subkorpusů]] ===Mapa nářečních oblastí ČR=== {{:cnk:oblasti_ridsi_mod2.jpg?direct&500| Mapa nářečních oblastí ČR}} ===== Poděkování ===== Korpus SCHOLA2010 by nemohl vzniknout bez výrazné pomoci učitelů a jejich cenné účasti v tomto projektu. Na přepisech vyučovacích hodin, na úpravách a jiných specifických úkolech se podíleli studenti z FF a z PedF Univerzity Karlovy v Praze a další spolupracovníci z ÚČJTK FF UK a z Ústavu českého národního korpusu (ÚČNK). Celému pracovnímu týmu tímto děkujeme. ===== Jak citovat ===== Šebesta, K. – Goláňová, H. – Křen, M. – Procházka, P.: //SCHOLA2010: korpus mluvené češtiny ve škole – přepisy nahrávek vyučovacích hodin na českých základních a středních školách//. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz --- //Karel Šebesta, Hana Goláňová, Olga Richterová// ===== Související odkazy ===== [[ORAL2006]] • [[ORAL2008]] • [[ORAL2013]] • [[PMK]] • [[BMK]] • [[cnk:czesl-plain|Korpus CZeSL-plain]] • [[cnk:skript2012|Korpus Skript2012]] • [[pojmy:mluveny|Korpus mluveného jazyka]]