Korpus mluvené češtiny ORAL2008
Korpus mluvené češtiny ORAL2008 zachycuje stejně jako ORAL2006 mluvu ve výhradně neformálních, dialogických situacích. Jde však o první mluvený korpus ČNK, který je plně vyvážený v základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství). Korpus ORAL2008 vychází ze stejné materiálové základny jako ORAL2006, avšak žádný z přepisů zařazených do korpusu ORAL2008 nebyl použitý v korpusu ORAL2006 - oba referenční korpusy jsou tedy disjunktní.
Název | ORAL2008 |
---|---|
Počet pozic (tokenů) | 1 349 536 |
Počet pozic (tokenů) bez interpunkce a dalších značek | 1 000 097 |
Počet slovních tvarů (wordů) | 65 778 |
Počet nahrávek rozhovorů | 297 |
Počet promluv | 106 941 |
Počet mluvčích | 995 |
Délka nahrávek v min. | 6883 |
Složení korpusu ORAL2008 a získávání dat
Korpus je sestaven z přepisů 297 nahrávek, které byly v letech 2002-2007 pořízeny na různých místech po celém území Čech (tj. ne Moravy a Slezska). Tyto nahrávky zachycují autentickou mluvenou češtinu v přirozeném prostředí na území tradičně vymezovaném jako oblast českých nářečí v užším slova smyslu. Data umožňují zkoumat především obecnou češtinu a její regionální varianty, všem nahrávkám je totiž společné to, že byly pořízeny výhradně v neformálních situacích, mluvčí se vzájemně znali a měli k sobě přátelský vztah. Mluvčí dále nebyli předem informováni o nahrávání, všichni však následně souhlasili s použitím nahrávky pro potřeby Českého národního korpusu. Nahrávky pro ORAL2008 jsou dlouhé 6 883 minut, tj. necelých 115 hodin, a obsahují projevy 995 mluvčích o celkové délce 1 000 097 slov.
Tab 1. Počet nahrávek podle roků
Rok | Počet nahrávek |
---|---|
2002 | 9 |
2003 | 7 |
2004 | 11 |
2005 | 49 |
2006 | 79 |
2007 | 142 |
Tab 2. Počet nahrávek podle počtu mluvčích
Počet mluvčích | Počet nahrávek |
---|---|
2 | 109 |
3 | 76 |
4 | 54 |
5 | 33 |
6 | 15 |
7 | 5 |
8 | 3 |
9 | 1 |
10 | 1 |
Tab 3. Počet mluvčích a pozic podle vzdělání
Vzdělání | Počet mluvčích | Počet pozic |
---|---|---|
A | 559 | 500672 |
B | 436 | 499425 |
ZŠ | 130 | 163988 |
SŠ | 306 | 335437 |
VŠ | 559 | 500672 |
Tab 4. Počet mluvčích a pozic podle pohlaví
Pohlaví | Počet mluvčích | Počet pozic |
---|---|---|
ženy | 522 | 500478 |
muži | 473 | 499619 |
Tab 5. Počet mluvčích a pozic podle věku
Věk | Počet mluvčích | Počet pozic |
---|---|---|
I | 576 | 500199 |
V | 419 | 499898 |
Tab 6. Počet mluvčích a pozic podle nářečních oblastí
Nářeční oblast | Počet mluvčích | Počet pozic |
---|---|---|
středočeská | 312 | 247630 |
severovýchodočeská | 167 | 242199 |
jihozápadočeská | 281 | 237417 |
české pohraničí | 206 | 239511 |
česko-moravská | 29 | 33340 |
Přepis nahrávek a další informace
Pořizování nahrávek, jejich přepisování a označování probíhalo v souladu s obecnými zásadami uplatňovanými při přípravě všech předchozích mluvených korpusů v rámci Českého národního korpusu, zejména korpusu ORAL2006. Všechny korpusy se shodují v označování základních tří binárních sociolingvistických kategorií mluvčích:
Kategorie | zkratky |
---|---|
Pohlaví | M (muž) a Z (žena) |
Věk | I (iunior, mladší, do 35 let) a V (vetus, starší, 35 let a více) |
Vzdělání | B (basis, základní a středoškolské) a A (altus, vysokoškolské včetně pouze započatého) |
U všech mluvčích jsou (stejně jako v ORALu2006) navíc zpřístupněny i informace o:
- jejich přesném věku
- konkrétním dosaženém stupni vzdělání (ZŠ, SŠ, VŠ)
- oblasti jejich převažujícího pobytu do 15 let
Oblast převažujícího pobytu do 15 let
Věk 15 let je stanoven jako hranice, kdy se formoval základ individuálního jazykového úzu. Tyto oblasti jsou vymezeny na základě tradičního nářečního členění podle Jaromíra Běliče (Nástin české dialektologie, SPN, Praha 1972). Území Čech je tedy rozděleno na oblast středočeskou, severovýchodočeskou, jihozápadočeskou, přechodnou oblast česko-moravskou a české pohraničí. U každého přepisu je zaznamenán počet mluvčích účastnících se hovoru, rok pořízení nahrávky a neformálnost situace. Poslední označení zachováváme kvůli srovnatelnosti s ostatními korpusy i přesto, že korpus ORAL2008 obsahuje pouze nahrávky neformálních situací (viz podrobný přehled strukturních značek pro korpusy řady ORAL).
Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici ke stažení ve formátu .csv.
Změny oproti korpusu ORAL2006 – sociolingvistická vyváženost
Korpus ORAL2008 je plně vyvážený s ohledem na základní čtyři sociolingvistické kategorie mluvčích. Znamená to, že přepisy nahrávek byly do korpusu ORAL2008 vybrány tak, aby byly všechny hodnoty základních sociolingvistických kategorií mluvčích zastoupeny přibližně stejným počtem slov. Polovinou všech slov v korpusu je tedy zastoupena každá z hodnot binárních kategorií:
- pohlaví (M / Z)
- věková skupina (I / V)
- dosažené vzdělání (A / B)
Přibližně čtvrtinou slov jsou pak zastoupeny hodnoty kategorie oblast pobytu v dětství, tj. oblasti středočeská, severovýchodočeská, jihozápadočeská a české pohraničí, přičemž přechodná oblast česko-moravská je zařazena pouze doplňkově.
Mapa nářečních oblastí
Struktura korpusu ORAL2008
Mezi strukturní jednotky používané v tomto korpusu patří <doc>
a <sp>
, tedy dokument a mluvčí (speaker), a pak každá jednotlivá pozice.
K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.
Jak citovat ORAL2008
Waclawičová, M. – Kopřivová, M. – Křen, M. – Válková, L.: ORAL2008: sociolingvisticky vyvážený korpus neformální mluvené češtiny. Ústav Českého národního korpusu FF UK, Praha 2008. Dostupný z WWW: http://www.korpus.cz
Waclawičová, M. – Křen, M. – Válková, L. (2009): Balanced Corpus of Informal Spoken Czech: Compilation, Design and Findings. In Proceedings of the 10th Annual Conference of the International Speech Communication Association INTERSPEECH 2009, 1819–1822, Brighton.
Poděkování
Na pořizování nahrávek, jejich přepisu a dalších úpravách se podíleli studenti pražských vysokých škol, především FF Univerzity Karlovy v Praze. Sběru materiálu se pod vedením svých pedagogů účastnili také studenti Univerzity Hradec Králové, Západočeské univerzity v Plzni, Jihočeské univerzity v Českých Budějovicích, PF Univerzity Karlovy v Praze, Univerzity Jana Evangelisty Purkyně v Ústí nad Labem a další spolupracovníci ÚČNK.
— Martina Waclawičová, Olga Richterová