Korpus ORAL

Korpus ORAL představuje korpus transkriptů nahrávek převážně neformálních rozhovorů rodilých mluvčích češtiny z celého území ČR. Mluvčí se vzájemně dobře znali (jednalo se o přátele nebo rodinné příslušníky) a byli nahráváni ve svém přirozeném prostředí. Nahrávky byly pořizovány v průběhu deseti let, v letech 2002–2011. Korpus není vyvážený, převažují data z české části České republiky (více viz složení korpusu). Transkripce je jednoúrovňová, a pokud to bylo možné, byla spolu s tokenizací sjednocena pro všechny části korpusů. Korpus ORAL sjednocuje korpusy ORAL2006, ORAL2008, ORAL2013 a dosud nepublikované nahrávky ORAL-Z. Celková velikost korpusu je 5 368 391 slov, celkový čas nahrávek je 582 hodin. Část transkriptů není spojena se zvukem (data z korpusů ORAL2006 a ORAL2008). Korpus je lemmatizován a morfologicky označkován. Používá stejný typ morfologických značek jako současné psané korpusy.

Název	ORAL
Počet pozic (tokenů)	6 361 707
Počet pozic (tokenů) bez interpunkce a komentářů	5 368 392
Počet slovních tvarů (wordů)	193 497
Počet nahrávek rozhovorů	1 546
Počet replik	696 918
Počet unikátních (různých) mluvčích	1 297
Délka nahrávek části ORAL2013 + ORAL-Z [hh:mm:ss.ms]	354:44:36.722

Vytvoření korpusu ORAL

Korpus vznikl spojením a opravením dat z existujících korpusů ORAL2006, ORAL2008 a ORAL2013 a doplněním o část ORAL-Z, která obsahuje i několik nahrávek formálních situací. Tyto formální situace zachycují komunikaci, v níž jeden z mluvčích zastupuje nějakou instituci – např. pracovní rozhovor, rozhovor na úřadě, při nakupování apod., nebo jde o připravený mluvený projev, přednášku. Informace o původním korpusu, ze kterého nahrávka pochází, umožňuje vytvořit si stejný subkorpus s opravenými daty, doplněný lemmatizací a morfologickým značkováním.

Kvůli opravám a změnám tokenizace doznaly i dříve zveřejněné složky korpusu ORAL změn ve velikosti. Pro přehled a případné srovnání s původními korpusy zde uvádíme velikosti všech částí nového korpusu (počet pozic bez interpunkce a komentářů / počet pozic celkem):

ORAL2006: 999 380 / 1 149 678
ORAL2008: 995 484 / 1 172 509
ORAL2013: 2 749 840 / 327 5988
ORAL-Z: 623 688 / 763 532

Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).

Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici ke stažení ve formátu .xlsx.

Úprava sociolingvistických údajů

nářeční oblasti (8 tradičních + české a moravské pohraničí) byly změněny podle členění v ČJA (Balhar, 1992) a jejich hranice upraveny podle novějších výzkumů (viz mapa nářečních oblastí)
identifikace shodných mluvčích: v rámci nahrávek pořízených během let 2002–2007 (korpusy ORAL2006, ORAL2008 a ORAL-Z) byli zpětně propojeni shodní mluvčí, v nahrávkách z let 2008–2011 (korpus ORAL2013) už tato shoda označena byla; shodní mluvčí mezi oběma časovými obdobími označováni nebyli
doplnění přezdívky pro identifikaci totožného mluvčího: každý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví + identifikačním číslem (např. Simona_450)¹⁾
nově doplněno pro všechny mluvčí zaměstnání podle klasifikace zaměstnání a údaj o tom, kolika procenty se dotyčný mluvčí podílí na počtu tokenů (korpusových pozic) v nahrávce (viz údaje o mluvčím)

stejné zůstávají binární kategorie pro
- pohlaví: ženy, muži
- věk: 18–35 let, 35 let a více
- vzdělání: nižší (ZŠ, SŠ) a vyšší (VŠ i započaté)

Úprava segmentace

maximální délka segmentů u nahrávek spojených se zvukem z části korpusu ORAL2013 je 15 slov, u části ORAL-Z 25 slov (prodlouženo pro lepší poslech příslušného úseku); transkripty bez zvuku jsou členěny na repliky (úsek řeči jednoho mluvčího, než je vystřídán komunikačním partnerem)
přerušení repliky druhým mluvčím, po kterém došlo k navázání na původní téma, se označuje znaménkem plus (+); pokud nedošlo k navázání na původní téma, znaménkem minus (-)
interpunkce v částech ORAL2013 a ORAL-Z je pauzová; syntaktická interpunkce, užívaná pro korpusy ORAL2006 a ORAL2008, byla změněna následujícím způsobem: čárky byly smazány bez náhrady, tečky byly nahrazeny čárkami

Úprava transkripce

Transkripce ve spojeném korpusu ORAL zachovává většinu transkripčních zásad platných pro korpusy, v některých případech však došlo k jejich úpravě a sjednocení ²⁾. Přepis dat z části ORAL-Z odpovídá v podstatě transkripčním zásadám korpusu ORAL2013. Rozdílnost transkripce je způsobena nejen chybami a změnou pravidel, ale často i možností dubletního zápisu v psaných textech.

Tam, kde to bylo možné, byla transkripce sjednocována následujícím způsobem:

psaní dohromady: slova cizího původu (nonstop, secondhand), citátová spojení (apriori, defacto), spřežky s možností dvojího zápisu (bezesporu, načerno, vodmalička), číslovky s komponentem krát (čtyřikrát), substantivizované číslovky (dvacetdevítka), spojky (anebo, abysem), citoslovce (bubu, čičí, díkybohu),
psaní zvlášť: víceslovné kontaktové výrazy (no no; prosim tě), spojky (i když), číslovky (čtyři sta, dvacet dva, dvacátýho devátýho), víceslovná adverbia (přece jenom, všude možně), výrazy s komponentem (ne)vím (nevim kam; nevím co, bůh ví, čert ví) a spojení předložky a zájmena na ňho.
psaní s malým počátečním písmenem: jména nápojů (frankovka, mattonka, gambrinus), značky vozidel (fabia, fiat, zetor), internetových vyhledávačů google, youtube

Citlivé osobní údaje jsou v přepisech kódovány podle přání nahrávajících. Podrobnější údaje a přehled transkripčních značek se nachází v oddílu Transkripce.

Zobrazení

Pro mluvené korpusy byl zároveň implementován nový, názorný způsob zobrazení dialogu, který přehledně ukazuje střídání mluvčích, zachycuje jejich souběžný hovor (pro části ORAL2013 a ORAL-Z) a pomocí přezdívky jednoznačně identifikuje mluvčí.

Zobrazení promluv a překryvu v dialogu.

Literatura

Balhar, J. a kol. (1992) : Český jazykový atlas.Academia. Praha.

Hajič, J. – Hlaváčová, J. (2013): MorfFlex CZ. Univerzita Karlova v Praze, MFF, ÚFAL, Praha.

Straka, M. – Straková, J. – Hajič, J. (2014): Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In: Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, Baltimore, Maryland: Association for Computational Linguistics, 3–18.

Jak citovat ORAL

Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. - Waclawičová, M. - Benešová, L. – Křen, M.: ORAL: korpus neformální mluvené češtiny, verze 1 z 2. 6. 2017. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz

Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. (2017): Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In Korpus - Gramatika - Axiologie, 47-67.

Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015): Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: TSD 2015, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350.