Korpus mluvené spontánní češtiny ORAL2013 je dalším mluveným korpusem projektu Český národní korpus. Svou koncepcí navazuje na korpusy neformální mluvené češtiny ORAL2006 a ORAL2008, v mnoha podstatných ohledech ale doznal změn a vylepšení. Stejně jako stávající korpusy řady ORAL i tento korpus zachycuje spontánní konverzaci výhradně v neformálních komunikačních situacích. Nejzásadnějšími změnami je propojení přepisu se zvukovou stopou, zavedení pauzové interpunkce a pokrytí celého území České republiky.
Název | ORAL2013 |
---|---|
Počet pozic (tokenů) | 3 285 508 |
Počet pozic (tokenů) bez interpunkce a dalších značek | 2 785 189 |
Počet slovních tvarů (wordů) | 131 246 |
Počet nahrávek rozhovorů | 835 |
Počet promluv | 394 982 |
Počet unikátních (různých) mluvčích | 1 297 |
Délka nahrávek [hodiny:minuty] | 291:11 |
Korpus ORAL2013 je koncipován tak, aby umožňoval zkoumat morfologii, syntax/syntagmatiku, lexikum a pragmatiku mluveného jazyka; vhodný je také pro výzkum struktury spontánního mluveného diskursu, nejedná se tedy o korpus určený primárně pro fonetický nebo dialektologický výzkum. Korpus ORAL2013 dosud není lemmatizován ani morfologicky označkován, obojí je však v plánu pro všechny korpusy řady ORAL.
Korpus ORAL2013 se skládá z 835 nahrávek z let 2008–2011 a obsahuje 2 785 189 textových slov, tj. celkem 3 285 508 pozic; v sondách vystupuje celkem 2 544 mluvčích, z toho 1 297 unikátních. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je 17 471 minut, tj. téměř 300 hodin (viz podrobnější údaje o složení a vyváženosti korpusu).
Pro korpus byl sbírán výhradně materiál představující prototypický spontánní mluvený jazyk, který se používá při bezprostřední interakci mluvčích v neformálních komunikačních situacích. Hlavními kritérii pro získávání nahrávek byly:
Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK.
Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici ke stažení ve formátu .csv.
ORAL2013 se od korpusů ORAL2006 a ORAL2008 liší v těchto rysech:
prekryv
, mezi jednotlivými segmenty překryvu na konkordanční řádce navíc chybí znaménko +
pro přehrání dvou následujících segmentů.oznacenishody
). Maximální počet slov jednoho mluvčího byl při sběru dat omezen na 15 tisíc textových slov.pohlaví | M (muž) | Z (žena) |
---|---|---|
věk | I (do 35 let) | V (35 let a více) |
vzdělání | B (základní a středoškolské) | A (vysokoškolské, včetně pouze započatého) |
U všech mluvčích jsou zpřístupněny také informace o:
Jednotliví mluvčí jsou v přepisech označeni čísly, nulou (00) je vždy odlišen mluvčí, který nahrávku pořizoval, a tudíž o nahrávání nutně věděl.
Benešová, L. – Křen, M. – Waclawičová, M.: ORAL2013: reprezentativní korpus neformální mluvené češtiny. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz
Benešová, L. – Křen, M. – Waclawičová, M. (2015): Korpus spontánní mluvené češtiny ORAL2013. In Časopis pro moderní filologii, 97(1), 42–50. ISSN 0008-7386.
Válková, L. – Waclawičová, M. – Křen, M. (2012): Balanced data repository of spontaneous spoken Czech. In Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12), 3345–3349. Istanbul: ELRA. ISBN 978-2-9517408-7-7.
Děkujeme všem, kteří se podíleli na pořizování nahrávek, jejich přepisu a následných úpravách, především studentům Filozofické fakulty Univerzity Karlovy v Praze. Sběru materiálu se pod vedením svých pedagogů účastnila také řada studentů z Univerzity Hradec Králové, Západočeské univerzity v Plzni, Masarykovy univerzity a Univerzity Palackého v Olomouci. Zvláštní poděkování za skvělou spolupráci patří také Haně Voralové.
— Lucie Benešová a Martina Waclawičová (hlavní koordinátorky)