Korpus neformální mluvené češtiny ORAL2013

Korpus mluvené spontánní češtiny ORAL2013 je dalším mluveným korpusem projektu Český národní korpus. Svou koncepcí navazuje na korpusy neformální mluvené češtiny ORAL2006ORAL2008, v mnoha podstatných ohledech ale doznal změn a vylepšení. Stejně jako stávající korpusy řady ORAL i tento korpus zachycuje spontánní konverzaci výhradně v neformálních komunikačních situacích. Nejzásadnějšími změnami je propojení přepisu se zvukovou stopou, zavedení pauzové interpunkce a pokrytí celého území České republiky.

Název ORAL2013
Počet pozic (tokenů) 3 285 508
Počet pozic (tokenů) bez interpunkce a dalších značek 2 785 189
Počet slovních tvarů (wordů) 131 246
Počet nahrávek rozhovorů 835
Počet promluv 394 982
Počet unikátních (různých) mluvčích 1 297
Délka nahrávek [hodiny:minuty] 291:11

Korpus ORAL2013 je koncipován tak, aby umožňoval zkoumat morfologii, syntax/syntagmatiku, lexikum a pragmatiku mluveného jazyka; vhodný je také pro výzkum struktury spontánního mluveného diskursu, nejedná se tedy o korpus určený primárně pro fonetický nebo dialektologický výzkum. Korpus ORAL2013 dosud není lemmatizován ani morfologicky označkován, obojí je však v plánu pro všechny korpusy řady ORAL.

Složení korpusu a sběr dat

Korpus ORAL2013 se skládá z 835 nahrávek z let 2008–2011 a obsahuje 2 785 189 textových slov, tj. celkem 3 285 508 pozic; v sondách vystupuje celkem 2 544 mluvčích, z toho 1 297 unikátních. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je 17 471 minut, tj. téměř 300 hodin (viz podrobnější údaje o složení a vyváženosti korpusu).

Pro korpus byl sbírán výhradně materiál představující prototypický spontánní mluvený jazyk, který se používá při bezprostřední interakci mluvčích v neformálních komunikačních situacích. Hlavními kritérii pro získávání nahrávek byly:

Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK.

Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).

Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici ke stažení ve formátu .csv.

Řada korpusů ORAL – v čem se ORAL2013 odlišuje?

ORAL2013 se od korpusů ORAL2006 a ORAL2008 liší v těchto rysech:

Obr. 1: Ukázka přepisu v Transcriberu.

Co má ORAL2013 s korpusy ORAL2006 a ORAL2008 společného?

pohlaví M (muž) Z (žena)
věk I (do 35 let) V (35 let a více)
vzdělání B (základní a středoškolské) A (vysokoškolské, včetně pouze započatého)

U všech mluvčích jsou zpřístupněny také informace o:

Jednotliví mluvčí jsou v přepisech označeni čísly, nulou (00) je vždy odlišen mluvčí, který nahrávku pořizoval, a tudíž o nahrávání nutně věděl.

Jak citovat ORAL2013

Benešová, L. – Křen, M. – Waclawičová, M.: ORAL2013: reprezentativní korpus neformální mluvené češtiny. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz

Benešová, L. – Křen, M. – Waclawičová, M. (2015): Korpus spontánní mluvené češtiny ORAL2013. In Časopis pro moderní filologii, 97(1), 42–50. ISSN 0008-7386.

Válková, L. – Waclawičová, M. – Křen, M. (2012): Balanced data repository of spontaneous spoken Czech. In Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12), 3345–3349. Istanbul: ELRA. ISBN 978-2-9517408-7-7.

Poděkování

Děkujeme všem, kteří se podíleli na pořizování nahrávek, jejich přepisu a následných úpravách, především studentům Filozofické fakulty Univerzity Karlovy v Praze. Sběru materiálu se pod vedením svých pedagogů účastnila také řada studentů z Univerzity Hradec Králové, Západočeské univerzity v Plzni, Masarykovy univerzity a Univerzity Palackého v Olomouci. Zvláštní poděkování za skvělou spolupráci patří také Haně Voralové.

Lucie Benešová a Martina Waclawičová (hlavní koordinátorky)

Související odkazy