ORAL Corpus

The ORAL corpus is a corpus containing the transcribed recordings of predominantly informal conversations taking place between native speakers of Czech from all regions of the Czech Republic. The speakers knew each other very well (they were either friends or family members) and they were recorded in their natural environment. The recordings were made over the course of ten years, between 2002 and 2011. The corpus is not balanced, with the majority of the data originating from the Bohemia region of the Czech Republic (for more visit the corpus structure). There is only one level of transcription, and wherever it was possible, it was unified along with tokenization for all parts of the corpus. The ORAL corpus unifies the corpora ORAL2006, ORAL2008, ORAL2013 and the as yet unpublished recordings ORAL-Z. Celková velikost korpusu je 5 368 391 slov, celkový čas nahrávek je 582 hodin. Část transkriptů není spojena se zvukem (data z korpusů ORAL2006 a ORAL2008). Korpus je lemmatizován a morfologicky označkován. Používá stejný typ morfologických značek jako současné psané korpusy.

Název	ORAL
Počet pozic (tokenů)	6 361 707
Počet pozic (tokenů) bez interpunkce a komentářů	5 368 392
Počet slovních tvarů (wordů)	193 497
Počet nahrávek rozhovorů	1 546
Počet replik	696 918
Počet unikátních (různých) mluvčích	1 297
Délka nahrávek části ORAL2013 + ORAL-Z [hh:mm:ss.ms]	354:44:36.722

Vytvoření korpusu ORAL

Korpus vznikl spojením a opravením dat z existujících korpusů ORAL2006, ORAL2008 a ORAL2013 a doplněním o část ORAL-Z, která obsahuje i několik nahrávek formálních situací. Tyto formální situace zachycují komunikaci, v níž jeden z mluvčích zastupuje nějakou instituci – např. pracovní rozhovor, rozhovor na úřadě, při nakupování apod., nebo jde o připravený mluvený projev, přednášku. Informace o původním korpusu, ze kterého nahrávka pochází, umožňuje vytvořit si stejný subkorpus s opravenými daty, doplněný lemmatizací a morfologickým značkováním.

Kvůli opravám a změnám tokenizace doznaly i dříve zveřejněné složky korpusu ORAL změn ve velikosti. Pro přehled a případné srovnání s původními korpusy zde uvádíme velikosti všech částí nového korpusu (počet pozic bez interpunkce a komentářů / počet pozic celkem):

ORAL2006: 999 380 / 1 149 678
ORAL2008: 995 484 / 1 172 509
ORAL2013: 2 749 840 / 327 5988
ORAL-Z: 623 688 / 763 532

Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).

Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici ke stažení ve formátu .xlsx.

Úprava sociolingvistických údajů

nářeční oblasti (8 tradičních + české a moravské pohraničí) byly změněny podle členění v ČJA (Balhar, 1992) a jejich hranice upraveny podle novějších výzkumů (viz mapa nářečních oblastí)
identifikace shodných mluvčích: v rámci nahrávek pořízených během let 2002–2007 (korpusy ORAL2006, ORAL2008 a ORAL-Z) byli zpětně propojeni shodní mluvčí, v nahrávkách z let 2008–2011 (korpus ORAL2013) už tato shoda označena byla; shodní mluvčí mezi oběma časovými obdobími označováni nebyli
doplnění přezdívky pro identifikaci totožného mluvčího: každý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví + identifikačním číslem (např. Simona_450)¹⁾
nově doplněno pro všechny mluvčí zaměstnání podle klasifikace zaměstnání a údaj o tom, kolika procenty se dotyčný mluvčí podílí na počtu tokenů (korpusových pozic) v nahrávce (viz údaje o mluvčím)

stejné zůstávají binární kategorie pro
- pohlaví: ženy, muži
- věk: 18–35 let, 35 let a více
- vzdělání: nižší (ZŠ, SŠ) a vyšší (VŠ i započaté)

Úprava segmentace

maximální délka segmentů u nahrávek spojených se zvukem z části korpusu ORAL2013 je 15 slov, u části ORAL-Z 25 slov (prodlouženo pro lepší poslech příslušného úseku); transkripty bez zvuku jsou členěny na repliky (úsek řeči jednoho mluvčího, než je vystřídán komunikačním partnerem)
přerušení repliky druhým mluvčím, po kterém došlo k navázání na původní téma, se označuje znaménkem plus (+); pokud nedošlo k navázání na původní téma, znaménkem minus (-)
interpunkce v částech ORAL2013 a ORAL-Z je pauzová; syntaktická interpunkce, užívaná pro korpusy ORAL2006 a ORAL2008, byla změněna následujícím způsobem: čárky byly smazány bez náhrady, tečky byly nahrazeny čárkami

Úprava transkripce

Transkripce ve spojeném korpusu ORAL zachovává většinu transkripčních zásad platných pro korpusy, v některých případech však došlo k jejich úpravě a sjednocení ²⁾. Přepis dat z části ORAL-Z odpovídá v podstatě transkripčním zásadám korpusu ORAL2013. Rozdílnost transkripce je způsobena nejen chybami a změnou pravidel, ale často i možností dubletního zápisu v psaných textech.

Tam, kde to bylo možné, byla transkripce sjednocována následujícím způsobem:

psaní dohromady: slova cizího původu (nonstop, secondhand), citátová spojení (apriori, defacto), spřežky s možností dvojího zápisu (bezesporu, načerno, vodmalička), číslovky s komponentem krát (čtyřikrát), substantivizované číslovky (dvacetdevítka), spojky (anebo, abysem), citoslovce (bubu, čičí, díkybohu),
psaní zvlášť: víceslovné kontaktové výrazy (no no; prosim tě), spojky (i když), číslovky (čtyři sta, dvacet dva, dvacátýho devátýho), víceslovná adverbia (přece jenom, všude možně), výrazy s komponentem (ne)vím (nevim kam; nevím co, bůh ví, čert ví) a spojení předložky a zájmena na ňho.
psaní s malým počátečním písmenem: jména nápojů (frankovka, mattonka, gambrinus), značky vozidel (fabia, fiat, zetor), internetových vyhledávačů google, youtube

Citlivé osobní údaje jsou v přepisech kódovány podle přání nahrávajících. Podrobnější údaje a přehled transkripčních značek se nachází v oddílu Transkripce.

Zobrazení

Pro mluvené korpusy byl zároveň implementován nový, názorný způsob zobrazení dialogu, který přehledně ukazuje střídání mluvčích, zachycuje jejich souběžný hovor (pro části ORAL2013 a ORAL-Z) a pomocí přezdívky jednoznačně identifikuje mluvčí.

Zobrazení promluv a překryvu v dialogu.

Sources

Balhar, J. et al. (1992) : Český jazykový atlas. Academia. Praha.

Hajič, J. – Hlaváčová, J. (2013): MorfFlex CZ. Univerzita Karlova v Praze, MFF, ÚFAL, Praha.

Straka, M. – Straková, J. – Hajič, J. (2014): Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In: Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, Baltimore, Maryland: Association for Computational Linguistics, 3–18.

How to cite ORAL

Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. - Waclawičová, M. - Benešová, L. – Křen, M.: ORAL: korpus neformální mluvené češtiny, verze 1 z 2. 6. 2017. Ústav Českého národního korpusu FF UK, Praha 2017. Retrieved from : http://www.korpus.cz

Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P.: Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In Korpus - Gramatika - Axiologie 2017 (in print).

Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015) : Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: TSD 2015, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350.