Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON

Korpus ORTOFON navazuje svou koncepcí sběru dat na korpusy neformální mluvené češtiny řady ORAL. Společně s korpusem DIALEKT se jedná o první dva mluvené korpusy češtiny, které disponují víceúrovňovým přepisem. Stejně jako korpusy řady ORAL shromažďuje i ORTOFON spontánní mluvený jazyk užívaný v neformálních situacích mezi mluvčími, kteří se znají. Podobně jako v korpusu ORAL2013 pocházejí mluvčí z celé České republiky a jsou o nich shromažďovány vybrané sociologické informace.

Korpus ORTOFON je také první korpus, který je plně vyvážený v rámci všech základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství). Korpus je lemmatizován a morfologicky značkován stejně jako korpus ORAL, transkript je propojen se zvukovou stopou.

Korpus ORTOFON umožňuje zkoumat různé aspekty mluveného jazyka, tj. lexikon, morfologii, syntax, pragmatiku, výstavbu dialogu. Korpus není primárně určen pro dialektologický¹⁾ či fonetický výzkum, přesto zjednodušený fonetický přepis umožňuje ověřit existenci výslovnostních či regionálních variant nebo jevů souvisejících s výslovností.

Zveřejněním korpusu ORTOFON spolu se spojeným korpusem ORAL se uživatelům otvírá možnost zkoumání neformální mluvené češtiny v dosud nejrozsáhlejším komplexu dat z patnáctiletého období (2002-2017).

Název	ORTOFON•v1
Počet pozic (tokenů)	1 236 508
Počet pozic (tokenů) bez interpunkce, hezitačních a citoslovečných zvuků a komentářů	1 014 786
Počet slovních tvarů (wordů)	65 294
Počet nahrávek rozhovorů	332
Počet promluv	172 736
Počet unikátních (různých) mluvčích	624
Délka nahrávek [hh:mm:ss.ms]	102:41:14.247

Složení korpusu a sběr dat

Korpus ORTOFON se skládá z 332 nahrávek z let 2012–2017 a obsahuje 1 014 786 textových slov, tj. celkem 1 236 508 pozic; v sondách vystupuje celkem 624 různých mluvčích. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je téměř 103 hodin. Více kvantitativních údajů viz na stránce o složení korpusu.

Materiál byl sbírán v souladu s kritérii platnými pro korpusy řady ORAL. Vzhledem k fonetické vrstvě přepisu byl kladen vyšší důraz na kvalitu nahrávek. Regionální původ mluvčích zahrnutých v korpusu ukazuje následující mapa. Hranice jednotlivých nářečních oblastí byly pro korpusy ORTOFON i DIALEKT zpřesněny.

Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).

Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici ke stažení ve formátu .xlsx.

Vyváženost korpusu

Již při sběru dat bylo dbáno na maximální možnou variabilitu mluvčích v rámci všech nářečních oblastí. Materiál byl proto průběžně vyvažován v rámci základních čtyř sociolingvistických kategorií: pohlaví, věk, nejvyšší dosažené vzdělání a nářeční oblast, v níž mluvčí strávil většinu života do svých 15 let. První tři kategorie, tj. pohlaví, věk, vzdělání, byly rozděleny binárně (viz obrázek), čtvrtá kategrie byla rozvržena do deseti skupin, tj. deseti nářečních oblastí. Následující obrázek představuje rozvržení binárních kategorií v rámci jedné nářeční oblasti. Každá oblast by tedy měla obsahovat stejný počet slov od mužů a žen, od osob ve věku 18-34 let a starších 35 let, od osob s nejvyšším dosaženým vzděláním maturitním a vysokoškolským.

Rozvržení binárních sociolingvistických kategorií v jedné nářeční oblasti.

Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNK. S ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) - stanovena cílová hranice 12 500 slov. Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích ²⁾. Cílem tohoto opatření bylo omezit vliv idiolektu.

Strukturní atributy korpusu ORTOFON

Struktura	Atribut	Popis	Možné hodnoty
doc	id	jednoznačný identifikátor sondy	`<řetězec čísel a velkých písmen>`
	year	rok nahrání sondy	např. `2008`
	month	měsíc nahrání sondy	např. `7`
	location	místo nahrání sondy	např. `Liberec`
	situation	typ mluvní situace sondy	např. `hovor doma`
	speakers	počet mluvčích v nahrávce	`<číslo>`
	relationship	vztah mezi mluvčími v nahrávce	např. `partnerský`
	genders	pohlaví mluvčích v nahrávce	`{jen ženy, jen muži, smíšené}`
	generations	počet generací mluvčích v nahrávce	`{1` (vrstevníci)`,2` (mladší a starší mluvčí v nahrávce)`}` atd.
	length	délka nahrávky	např. `10:47`
	tokens	počet tokenův rámci sondy	např. `2134`
sp	id	identifikátor segmentu (struktury sp)	např. `3784`
	nickname	označení mluvčího	např. `Světlana R.`
	speaker_id	identifikátor mluvčího	např. `19`
	gender	pohlaví mluvčího	`{M` (muž)`, Z` (žena)`}` nebo `Y`

age_binary	věková kategorie mluvčího	`{I` (iunior, mladší: ca 20–35 let)`,V` (vetus, starší: 35 let a více)`}` nebo `Y`
age	věk mluvčího (číselně)	`<číslo>`
edu_binary	vzdělání mluvčího (hrubé rozlišení)	`{A`(altus, vysokoškolské včetně pouze započatého)`,B`(basis, základní a středoškolské)`}` nebo `Y`
edu_level	vzdělání mluvčího (jemnější rozlišení)	`{SŠ,VŠ,ZŠ}` nebo `Y`
edu_field	obor vzdělání	`{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}` a další, výběr oborů z předdefinovaného seznamu
occupation	zaměstnání	např. `sociální pracovník`
occupation_category	specifikace zaměstnání podle ČZSO
reg_childhood	nářeční oblast místa pobytu mluvčího v dětství (do 15 let)	`{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}` nebo `Y`
loc_childhood	místo, kde mluvčí žil do 15 let
locsize_childhood	velikost sídla, kde mluvčí žil do 15 let věku	`{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}` nebo `Y`
reg_longest	nářeční oblast, v níž mluvčí žil nejdéle	`{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}` nebo `Y`
locsize_longest	velikost sídla, kde mluvčí žil nejdelší dobu	`{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}` nebo `Y`
reg_current	nářeční oblast, v níž mluvčí žije v současné době	`{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}` nebo `Y`
locsize_current	velikost sídla, kde mluvčí žije v současné době	`{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}` nebo `Y`
proportion	podíl segmentu na všech segmentech v sondě
soundfile	číslo a formát nahrávky

para	type	šeptem	označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem	`{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}`
pw	-	-	struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt)	-
overlap	-	-	struktura obaluje pozice řečené v překryvu s jiným mluvčím	-
unclear	-	-	struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného	-

Rozdíly mezi korpusem ORAL a ORTOFON

Víceúrovňový přepis: Přepis mluveného jazyka v korpusu ORTOFON realizován na dvou rovinách: ortografické a fonetické. Ortografická rovina slouží primárně k porozumění nahranému rozhovoru a orientaci v něm, zatímco fonetická rovina zachycuje skutečnou realizaci vyřčeného pomocí upraveného fonetického přepisu. Tyto dvě roviny doprovází ještě metajazyková, která zachycuje doprovodné zvuky produkované mluvčími (např. smích, kašel) nebo přítomné v okolí s možností ovlivnit rozhovor (např. zvonění telefonu může vést k přerušení dialogu). Více viz transkripční zásady.
Pauzová interpunkce založená na délce pauz: Část korpusu ORAL, konkrétně ORAL2013 a ORAL-Z, obsahuje pauzovou interpunkci založenou na intuitivním rozlišení kratších a delších pauz podle tempa mluvy konkrétního mluvčího. V korpusu ORTOFON jsou rozlišovány tři druhy pauz podle časového kritéria: předěly (méně než 120 ms), pauzy (120 ms - 2 s), dlouhé pauzy (delší než 2 s).
Plná vyváženost korpusu: V korpusu ORTOFON je každá kombinace čtyř sociolingvistických proměnných prezentována jako stejně velká skupina, srov. ORAL2013.
Pestré zastoupení mluvčích z celé České republiky: Vymezení jednotlivých nářečních oblastí vychází z nářečního členění používaného v Českém jazykovém atlase, hranice oblastí však byly zpřesněny (viz mapa nářečních oblastí). Při sběru dat bylo dbáno na variabilitu mluvčích i obcí, z nichž pocházejí.
Rozšíření segmentu k poslechu: Segment odděleného transkriptu může být dlouhý až 25 slov, což zlepšuje možnosti poslechu zvukového segmentu.
Jiný způsob značení překryvů: Překryvy jsou v traskriptu značeny hranatými závorkami, nejsou oddělovány ve zvuku, aby bylo možné je lépe poslouchat, srov. ORAL2013. V korpusovém manažeru KonTextu jsou zobrazeny jako strukturní atributy (více viz hledání v korpusu ORTOFON).
Dostupnost audia: Celý korpus ORTOFON je propojen se zvukem, takže je možné si vyhledanou konkordanci poslechnout (u korpusu ORAL jenom části ORAL-Z a ORAL2013).
Nové metainformace: Byl rozšířen soubor metainformací sbíraných k celé nahrávce i jednotlivým mluvčím. Více viz přehled strukturních atributů.

Název	ORTOFON•v2
Počet pozic (tokenů)	2 560 590
Počet pozic (tokenů) bez interpunkce, hezitačních a citoslovečných zvuků a komentářů	2 101 214
Počet slovních tvarů (wordů)	101 502
Počet nahrávek rozhovorů	615
Počet promluv	360 248
Počet unikátních (různých) mluvčích	960
Délka nahrávek [hh:mm:ss.ms]	210:09:35.155

Verze 2 (2020)

V roce 2020 byla zveřejněna rozšířená verze korpusu obsahující nahrávky z let 2012–2019. Na rozdíl od původní verze není vyvážená, jejím cílem je zpřístupnit co největší množství sebraného materiálu. Sběr neformálních dialogů pokračuje a část staršího materiálu se pro vydání zatím ještě připravuje, ale i tak je nárůst oproti předchozí verzi dvojnásobný.

Krom toho korpus obsahuje mnohá drobná vylepšení v konzistentnosti transkripce a v anotaci.

Poděkování

Děkujeme všem spolupracovníkům, kteří se podíleli na pořízení nahrávek, jejich přepisu a kontrole.

Jmenovitě chceme poděkovat především koordinátorům přepisu: PhDr. Iloně Adámkové, Mgr. Vendule Hálkové, dr. Daně Hlaváčkové, Mgr. Lence Klatovské, Mgr. Anně Marklové, PhDr. Evě Pasáčkové, Mgr. Pavle Smolové, Marice Svojanovské, Mgr. Pavlu Šturmovi, dr. Miloslavu Vondráčkovi a Mgr. Lence Zábojové.

Jak citovat

Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: ORTOFON v2: Korpus neformální mluvené češtiny s víceúrovňovým přepisem. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz

Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz

Komrsková, Z. - Kopřivová, M. - Lukeš, D. - Poukarová, P. - Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. Jazykovedný časopis, 68(2), 219-228. ISSN 0021-8897.

Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In Complex Visibles Out There. Olomouc: Univerzita Palackého v Olomouci, 529-544.

Kopřivová M. – Goláňová H. – Klimešová P. – Lukeš D.(2014): Mapping Diatopic and Diachronic Variation in Spoken Czech: the ORTOFON and DIALEKT Corpora. In Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014). Reykjavík, Iceland, European Language Resources Association, 376-382.

Související odkazy

Pravidla pro přepis nahrávek v korpusu ORTOFON • Hledání v korpusu ORTOFON • ORAL • ORAL2006 • ORAL2008 • ORAL2013 • PMK • BMK • SCHOLA2010 • Dialekt • Korpus mluveného jazyka • Struktura korpusů ORAL • Hledání v mluvených korpusech • Lemmatizace a tagování mluvených korpusů

¹⁾

Pro tento typ výzkumu je určen korpus DIALEKT.

²⁾

Feagin, C. (2002). Entering the community: Fieldwork. Chambers, J. K., Trudgill, P. and Schilling-Estes, N., editors, The Handbook of Language Variation and Change, 20–39. Blackwell Publishing, Malden, MA.

Historie: • orwell • oral • historie • klaus • onomos • pokrocile_dotazy • lexikalni_bohatost • verze12 • strukturni_atributy_mluvene • ortofon