Korpus neformální mluvené češtiny ORAL2013

Korpus mluvené spontánní češtiny ORAL2013 je dalším mluveným korpusem projektu Český národní korpus. Svou koncepcí navazuje na korpusy neformální mluvené češtiny ORAL2006 a ORAL2008, v mnoha podstatných ohledech ale doznal změn a vylepšení. Stejně jako stávající korpusy řady ORAL i tento korpus zachycuje spontánní konverzaci výhradně v neformálních komunikačních situacích. Nejzásadnějšími změnami je propojení přepisu se zvukovou stopou, zavedení pauzové interpunkce a pokrytí celého území České republiky.

Název	ORAL2013
Počet pozic (tokenů)	3 285 508
Počet pozic (tokenů) bez interpunkce a dalších značek	2 785 189
Počet slovních tvarů (wordů)	131 246
Počet nahrávek rozhovorů	835
Počet promluv	394 982
Počet unikátních (různých) mluvčích	1 297
Délka nahrávek [hodiny:minuty]	291:11

Korpus ORAL2013 je koncipován tak, aby umožňoval zkoumat morfologii, syntax/syntagmatiku, lexikum a pragmatiku mluveného jazyka; vhodný je také pro výzkum struktury spontánního mluveného diskursu, nejedná se tedy o korpus určený primárně pro fonetický nebo dialektologický výzkum. Korpus ORAL2013 dosud není lemmatizován ani morfologicky označkován, obojí je však v plánu pro všechny korpusy řady ORAL.

Složení korpusu a sběr dat

Korpus ORAL2013 se skládá z 835 nahrávek z let 2008–2011 a obsahuje 2 785 189 textových slov, tj. celkem 3 285 508 pozic; v sondách vystupuje celkem 2 544 mluvčích, z toho 1 297 unikátních. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je 17 471 minut, tj. téměř 300 hodin (viz podrobnější údaje o složení a vyváženosti korpusu).

Pro korpus byl sbírán výhradně materiál představující prototypický spontánní mluvený jazyk, který se používá při bezprostřední interakci mluvčích v neformálních komunikačních situacích. Hlavními kritérii pro získávání nahrávek byly:

fyzická přítomnost všech mluvčích na jednom místě (záměrně se nesbírala data z telefonních rozhovorů, z komunikace přes Skype a jiných podobných situací);
dialogičnost promluv (muselo jít nutně o rozhovor dvou nebo více mluvčích);
vzájemný blízký vztah mluvčích;
nepřipravenost, spontánnost;
neveřejná a neoficiální komunikační situace.

Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK.

Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).

Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici ke stažení ve formátu .csv.

Řada korpusů ORAL – v čem se ORAL2013 odlišuje?

ORAL2013 se od korpusů ORAL2006 a ORAL2008 liší v těchto rysech:

Propojení přepisu se zvukovou stopou: Všechny nahrávky byly manuálně přepsány v transkripčním programu Transcriber, v němž byl zároveň přepis propojen se zvukem. Uživatel si tak může v rozhraní KonText ke každému zobrazenému výrazu přehrát odpovídající část zvukové stopy (tzv. segment, viz dále), a poslechnout si tak jeho realizaci.

Obr. 1: Ukázka přepisu v Transcriberu.

Použití pauzové interpunkce: Tradiční syntaktickou interpunkci nahradila interpunkce pauzová, která je pro přepis spontánního mluveného dialogu vhodnější. Rozlišují se celkem tři typy pauz (krátká pauza, delší pauza, odmlčení), které přepisující zaznamenávali podle individuálního tempa každého z mluvčích. Jednotlivé repliky jsou členěny na segmenty představující sémanticky, prozodicky i syntagmaticky ucelenou sekvenci v průměru o 5–10 slovech (maximálně však 15).
Značení překryvů replik dvou mluvčích: Nově jsou zachyceny simultánní úseky, v nichž mluví dva mluvčí současně. Ve webovém rozhraní je tato informace uživatelům přístupná jako hodnota strukturního atributu prekryv, mezi jednotlivými segmenty překryvu na konkordanční řádce navíc chybí znaménko + pro přehrání dvou následujících segmentů.
Proznačení shodných mluvčích: Nově jsou v korpusu ORAL2013 označeni mluvčí, kteří vystupují ve více nahrávkách. Toto označení je uživatelům přístupné ve formě náhodně vygenerované „přezdívky“, která je pro daného mluvčího v celém korpusu stejná (strukturní atribut oznacenishody). Maximální počet slov jednoho mluvčího byl při sběru dat omezen na 15 tisíc textových slov.
Pokrytí celého území České republiky (tj. Čech, Moravy i Slezska): Jednotlivé oblasti jsou vymezeny (stejně jako u stávajících korpusů řady ORAL) na základě tradičního nářečního členění podle Jaromíra Běliče a dělení používaného v Českém jazykovém atlase. Na rozdíl od korpusů ORAL2006 a ORAL2008, kde jsou zahrnuty jen oblasti českých nářečí v užším slova smyslu (tj. oblasti středočeská, severovýchodočeská, jihozápadočeská, přechodná oblast česko-moravská a české pohraničí), obsahuje korpus ORAL2013 nově také data z oblasti Moravy a Slezska (tj. z oblastí východomoravské, středomoravské, z oblasti moravského pohraničí a Slezska).
Vyváženost dat: Při sběru dat jsme usilovali o maximální regionální pokrytí a různorodost mluvčích, materiál byl proto průběžně vyvažován v těchto hlavních sociolingvistických kategoriích: pohlaví, věk, vzdělání a oblast pobytu mluvčího v dětství. Na rozdíl od korpusu ORAL2008 jsme však nepřistoupili k závěrečnému výběru, jehož výsledkem by bylo plné vyvážení korpusu. Znamenalo by to totiž zbavování se cenného materiálu v situaci, kdy je korpus už dostatečně reprezentativní, zatímco jeho hypotetická „ideální“ vyváženost by byla jednak sporná (zvláště její regionální faktor), a jednak by nebyla ani potřebná, protože nové webové rozhraní umožňuje práci s relativními (a tedy srovnatelnými) frekvencemi. Složení korpusu v základních sociolingvistických kategoriích najdete zde (odkaz na strukturu).
Nové metainformace: O jaký typ komunikační situace jde (např. rozhovor doma, restaurace, jízda dopravním prostředkem, oslava, návštěva, procházka atp.);

Co má ORAL2013 s korpusy ORAL2006 a ORAL2008 společného?

Přepisovací pravidla: Původní pravidla byla pro ORAL2013 pouze rozšířena o popis toho, jakým způsobem zachycovat vybrané specifické jazykové jevy vyskytující se na území Moravy a Slezska. Kompletní znění přepisovacích pravidel je k dispozici zde.
Sociolingvistické charakteristiky mluvčích: Všechny mluvené korpusy se shodují v označování tří základních binárních sociolingvistických kategorií mluvčích:

pohlaví	M (muž)	Z (žena)
věk	I (do 35 let)	V (35 let a více)
vzdělání	B (základní a středoškolské)	A (vysokoškolské, včetně pouze započatého)

U všech mluvčích jsou zpřístupněny také informace o:

jejich přesném věku;
dosaženém stupni vzdělání (ZŠ, SŠ, VŠ);
oblasti jejich převažujícího pobytu do 15 let.

Jednotliví mluvčí jsou v přepisech označeni čísly, nulou (00) je vždy odlišen mluvčí, který nahrávku pořizoval, a tudíž o nahrávání nutně věděl.

Údaje k přepisu: U každého přepisu je uveden:
- rok pořízení nahrávky;
- počet mluvčích v nahrávce;
- vzájemný vztah mluvčích (přátelskost / známost);
- neformálnost promluvy (přestože jsou všechny nahrávky neformálního charakteru, je tento údaj zaznamenán kvůli srovnatelnosti s jinými korpusy).

Anonymizaci citlivých údajů: Kvůli ochraně osobních údajů jsou veškerá příjmení a telefonní čísla v přepisech kódována anonymizačními zkratkami; kódování jiných vlastních jmen, jako jsou např. přezdívky, rodná jména, názvy firem, případně jiné citlivé údaje, bylo ponecháno na vůli a přání přepisujících nebo samotných mluvčích. Anonymizovány byly samozřejmě i odpovídající úseky ve zvukových souborech.

Jak citovat ORAL2013

Benešová, L. – Křen, M. – Waclawičová, M.: ORAL2013: reprezentativní korpus neformální mluvené češtiny. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz

Benešová, L. – Křen, M. – Waclawičová, M. (2015): Korpus spontánní mluvené češtiny ORAL2013. In Časopis pro moderní filologii, 97(1), 42–50. ISSN 0008-7386.

Válková, L. – Waclawičová, M. – Křen, M. (2012): Balanced data repository of spontaneous spoken Czech. In Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12), 3345–3349. Istanbul: ELRA. ISBN 978-2-9517408-7-7.

Poděkování

Děkujeme všem, kteří se podíleli na pořizování nahrávek, jejich přepisu a následných úpravách, především studentům Filozofické fakulty Univerzity Karlovy v Praze. Sběru materiálu se pod vedením svých pedagogů účastnila také řada studentů z Univerzity Hradec Králové, Západočeské univerzity v Plzni, Masarykovy univerzity a Univerzity Palackého v Olomouci. Zvláštní poděkování za skvělou spolupráci patří také Haně Voralové.

— Lucie Benešová a Martina Waclawičová (hlavní koordinátorky)