Nastavení

Toto je starší verze dokumentu!


Korpus mluvené češtiny ORAL2008

Korpus mluvené češtiny ORAL2008 zachycuje stejně jako ORAL2006 mluvu ve výhradně neformálních, dialogických situacích. Jde však o první mluvený korpus ČNK, který je plně vyvážený v základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství). Korpus ORAL2008 vychází ze stejné materiálové základny jako ORAL2006, avšak žádný z přepisů zařazených do korpusu ORAL2008 nebyl použitý v korpusu ORAL2006 - oba referenční korpusy jsou tedy disjunktní.

Název ORAL2008
Počet pozic (tokenů) 1 349 536
Počet pozic (tokenů) bez interpunkce a dalších značek 1 000 097
Počet slovních tvarů (wordů) 65 778
Počet nahrávek rozhovorů 297
Počet promluv 106 941
Počet mluvčích 995
Délka nahrávek v min. 6883

Složení korpusu ORAL2008 a získávání dat

Korpus je sestaven z přepisů 297 nahrávek, které byly v letech 2002-2007 pořízeny na různých místech po celém území Čech (tj. ne Moravy a Slezska). Tyto nahrávky zachycují autentickou mluvenou češtinu v přirozeném prostředí na území tradičně vymezovaném jako oblast českých nářečí v užším slova smyslu. Data umožňují zkoumat především obecnou češtinu a její regionální varianty, všem nahrávkám je totiž společné to, že byly pořízeny výhradně v neformálních situacích, mluvčí se vzájemně znali a měli k sobě přátelský vztah. Mluvčí dále nebyli předem informováni o nahrávání, všichni však následně souhlasili s použitím nahrávky pro potřeby Českého národního korpusu. Nahrávky pro ORAL2008 jsou dlouhé 6 883 minut, tj. necelých 115 hodin, a obsahují projevy 995 mluvčích o celkové délce 1 000 097 slov.

Vložit grafy https://www.korpus.cz/struktura_oral08.php

Přepis nahrávek a další informace

Pořizování nahrávek, jejich přepisování a označování probíhalo v souladu s obecnými zásadami uplatňovanými při přípravě všech předchozích mluvených korpusů v rámci Českého národního korpusu, zejména korpusu ORAL2006. Všechny korpusy se shodují v označování základních tří binárních sociolingvistických kategorií mluvčích:

Kategorie zkratky
Pohlaví M (muž) a Z (žena)
Věk I (iunior, mladší, do 35 let) a V (vetus, starší, 35 let a více)
Vzdělání B (basis, základní a středoškolské) a A (altus, vysokoškolské včetně pouze započatého)

U všech mluvčích jsou (stejně jako v ORALu2006) navíc zpřístupněny i informace o:

  • jejich přesném věku
  • konkrétním dosaženém stupni vzdělání (ZŠ, SŠ, VŠ)
  • oblasti jejich převažujícího pobytu do 15 let

Oblast převažujícího pobytu do 15 let

Věk 15 let je stanoven jako hranice, kdy se formoval základ individuálního jazykového úzu. Tyto oblasti jsou vymezeny na základě tradičního nářečního členění podle Jaromíra Běliče (Nástin české dialektologie, SPN, Praha 1972) a dělení používaného v Českém jazykovém atlasu (Academia, Praha 1992-2005). Území Čech je tedy rozděleno na oblast středočeskou, severovýchodočeskou, jihozápadočeskou, přechodnou oblast česko-moravskou a české pohraničí. U každého přepisu je zaznamenán počet mluvčích účastnících se hovoru, rok pořízení nahrávky a neformálnost situace. Poslední označení zachováváme kvůli srovnatelnosti s ostatními korpusy i přesto, že korpus ORAL2008 obsahuje pouze nahrávky neformálních situací (viz podrobný přehled strukturních značek pro korpusy řady ORAL).

Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).

Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici ke stažení ve formátu .csv.

Změny oproti korpusu ORAL2006 – sociolingvistická vyváženost

Korpus ORAL2008 je plně vyvážený s ohledem na základní čtyři sociolingvistické kategorie mluvčích. Znamená to, že přepisy nahrávek byly do korpusu ORAL2008 vybrány tak, aby byly všechny hodnoty základních sociolingvistických kategorií mluvčích zastoupeny přibližně stejným počtem slov. Polovinou všech slov v korpusu je tedy zastoupena každá z hodnot binárních kategorií:

  • pohlaví (M / Z)
  • věková skupina (I / V)
  • dosažené vzdělání (A / B)

Přibližně čtvrtinou slov jsou pak zastoupeny hodnoty kategorie oblast pobytu v dětství, tj. oblasti středočeská, severovýchodočeská, jihozápadočeská a české pohraničí, přičemž přechodná oblast česko-moravská je zařazena pouze doplňkově.

Mapa nářečních oblastí

Mapa nářečních oblastí

Struktura korpusu ORAL2008

Mezi strukturní jednotky používané v tomto korpusu patří <doc> a <sp>, tedy dokument a mluvčí (speaker), a pak každá jednotlivá pozice.

K těmto strukturním jednotkám náležejí následující atributy, na obrázku patrné pod nadpisem Reference.

Jak citovat ORAL2008

Waclawičová, M. – Kopřivová, M. – Křen, M. – Válková, L.: ORAL2008: sociolingvisticky vyvážený korpus neformální mluvené češtiny. Ústav Českého národního korpusu FF UK, Praha 2008. Dostupný z WWW: http://www.korpus.cz

Waclawičová, M. – Křen, M. – Válková, L. (2009): Balanced Corpus of Informal Spoken Czech: Compilation, Design and Findings. In Proceedings of the 10th Annual Conference of the International Speech Communication Association INTERSPEECH 2009, 1819–1822, Brighton.

Poděkování

Na pořizování nahrávek, jejich přepisu a dalších úpravách se podíleli studenti pražských vysokých škol, především FF Univerzity Karlovy v Praze. Sběru materiálu se pod vedením svých pedagogů účastnili také studenti Univerzity Hradec Králové, Západočeské univerzity v Plzni, Jihočeské univerzity v Českých Budějovicích, PF Univerzity Karlovy v Praze, Univerzity Jana Evangelisty Purkyně v Ústí nad Labem a další spolupracovníci ÚČNK.

Martina Waclawičová, Olga Richterová

Související odkazy