AplikaceAplikace
Nastavení

This is an old revision of the document!


Corpus of informal spoken Czech with multilevel transcription: ORTOFON

The ORTOFON corpus, with its method of data collection, is a continuation of the corpora of informal spoken Czech from the ORAL series. Together with the DIALEKT corpus it is one of the first two spoken corpora of the Czech language which have a multilevel transcription. Same as with the corpora of the ORAL series, ORTOFON also collects spontaneous spoken languageused in informal situations between speakers who know each other. Similarly as in the corpus ORAL2013, the speakers come from all over the Czech Republic and selected sociological data are collected about them.

ORTOFON is also the first corpus to be fully balanced regarding all the basic sociolinguistic speaker categories (gender, age group, level of education and region of childhood residence). The corpus is lemmatized morphologically tagged in the same manner as the ORAL corpus, the transcription is linked to the corresponding audio track.

The ORTOFON corpus allows us to explore various aspects of spoken language, i.e. lexis, morphology, syntax, pragmatics, dialogue construction. The corpus is not primarily intended for dialectological 1) or phonetic research, even though a simplified phonetic transcription allows us to verify the existence of pronunciation or regional variants, or phenomena related to pronunciation.

The publication of ORTOFON in connection with the ORAL corpus presents users the chance to explore informal spoken Czech in the most extensive data complex to date, covering a period of fifteen years (2002-2017).

Name ORTOFON
Number of positions (tokens) 1 236 508
Number of positions (tokens) without puctuation, hesitations and interjections 1 014 786
Number of word forms (words) 65 294
Number of conversations recorded 332
Number of utterances 172 736
Number of unique (different) speakers 624
Length of recordings [hh:mm:ss.ms] 102:41:14.247

Corpus composition and data collection

The ORTOFON corpus is composed of 332 recordings from the years 2012–2017 and contains 1 014 786 orthographic words, i.e. a total of 1 236 508 positions; a total of 624 different speakers appear in the probes. The recordings were acquired in Bohemia, Moravia and Silesia, and their total length measures almost 103 hours. More quantitative data can be found on the page dedicated to the composition of the corpus.

The material was collected in accordance with the criteria concerning the corpora of the ORAL series. Due to the presence of the phonetic level of transcription, a greater emphasis was placed on the sound quality of recordings. The regional origin of the speakers who were included in the corpus is shown in the following map. The borders of the individual dialectal regions have been refined for the ORTOFON and DIALEKT corpora.

Relative representations of speakers from various parts of the Czech Republic (number of speakers according to place of birth).

The absolute values for the number of speakers according to place of birth, along with longitude and latitude coordinates, are available for download in .xlsx format.

Vyváženost korpusu

Již při sběru dat bylo dbáno na maximální možnou variabilitu mluvčích v rámci všech nářečních oblastí. Materiál byl proto průběžně vyvažován v rámci základních čtyř sociolingvistických kategorií: pohlaví, věk, nejvyšší dosažené vzdělání a nářeční oblast, v níž mluvčí strávil většinu života do svých 15 let. První tři kategorie, tj. pohlaví, věk, vzdělání, byly rozděleny binárně (viz obrázek), čtvrtá kategrie byla rozvržena do deseti skupin, tj. deseti nářečních oblastí. Následující obrázek představuje rozvržení binárních kategorií v rámci jedné nářeční oblasti. Každá oblast by tedy měla obsahovat stejný počet slov od mužů a žen, od osob ve věku 18-34 let a starších 35 let, od osob s nejvyšším dosaženým vzděláním maturitním a vysokoškolským.

Rozvržení binárních sociolingvistických kategorií v jedné nářeční oblasti.

Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNK. S ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) - stanovena cílová hranice 12 500 slov. Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích 2). Cílem tohoto opatření bylo omezit vliv idiolektu.

Rozdíly mezi korpusem ORAL a ORTOFON

  • Víceúrovňový přepis: Přepis mluveného jazyka v korpusu ORTOFON realizován na dvou rovinách: ortografické a fonetické. Ortografická rovina slouží primárně k porozumění nahranému rozhovoru a orientaci v něm, zatímco fonetická rovina zachycuje skutečnou realizaci vyřčeného pomocí upraveného fonetického přepisu. Tyto dvě roviny doprovází ještě metajazyková, která zachycuje doprovodné zvuky produkované mluvčími (např. smích, kašel) nebo přítomné v okolí s možností ovlivnit rozhovor (např. zvonění telefonu může vést k přerušení dialogu). Více viz transkripční zásady.
  • Pauzová interpunkce založená na délce pauz: Část korpusu ORAL, konkrétně ORAL2013 a ORAL-Z, obsahuje pauzovou interpunkci založenou na intuitivním rozlišení kratších a delších pauz podle tempa mluvy konkrétního mluvčího. V korpusu ORTOFON jsou rozlišovány tři druhy pauz podle časového kritéria: předěly (méně než 120 ms), pauzy (120 ms - 2 s), dlouhé pauzy (delší než 2 s).
  • Plná vyváženost korpusu: V korpusu ORTOFON je každá kombinace čtyř sociolingvistických proměnných prezentována jako stejně velká skupina, srov. ORAL2013.
  • Pestré zastoupení mluvčích z celé České republiky: Vymezení jednotlivých nářečních oblastí vychází z nářečního členění používaného v Českém jazykovém atlase, hranice oblastí však byly zpřesněny (viz mapa nářečních oblastí). Při sběru dat bylo dbáno na variabilitu mluvčích i obcí, z nichž pocházejí.
  • Rozšíření segmentu k poslechu: Segment odděleného transkriptu může být dlouhý až 25 slov, což zlepšuje možnosti poslechu zvukového segmentu.
  • Jiný způsob značení překryvů: Překryvy jsou v traskriptu značeny hranatými závorkami, nejsou oddělovány ve zvuku, aby bylo možné je lépe poslouchat, srov. ORAL2013. V korpusovém manažeru KonTextu jsou zobrazeny jako strukturní atributy (více viz hledání v korpusu ORTOFON).
  • Dostupnost audia: Celý korpus ORTOFON je propojen se zvukem, takže je možná si vyhledanou konkordanci poslechnout (u korpusu ORAL jenom části ORAL-Z a ORAL2013).
  • Nové metainformace: Byl rozšířen soubor metainformací sbíraných k celé nahrávce i jednotlivým mluvčím. Více viz přehled strukturních atributů.

Poděkování

Děkujeme všem spolupracovníkům, kteří se podíleli na pořízení nahrávek, jejich přepisu a kontrole.

Jmenovitě chceme poděkovat především koordinátorům přepisu: PhDr. Iloně Adámkové, Mgr. Vendule Hálkové, PhDr. Daně Hlaváčkové, Mgr. Lence Klatovské, Mgr. Anně Marklové, PhDr. Evě Pasáčkové, Mgr. Pavle Smolové, Marice Svojanovské, Mgr. Pavlu Šturmovi, doc. Miloslavu Vondráčkovi a Mgr. Lence Zábojové.

Jak citovat

Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: ORTOFON: Korpus neformální mluvené češtiny s víceúrovňovým přepisem. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz

Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In Complex Visibles Out There. Olomouc: Univerzita Palackého v Olomouci, 529-544.

Kopřivová M. – Goláňová H. – Klimešová P. – Lukeš D.(2014): Mapping Diatopic and Diachronic Variation in Spoken Czech: the ORTOFON and DIALEKT Corpora. In Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014). Reykjavík, Iceland, European Language Resources Association, 376-382.

Související odkazy

1)
The DIALEKT corpus is intended for this kind of research.
2)
Feagin, C. (2002). Entering the community: Fieldwork. Chambers, J. K., Trudgill, P. and Schilling-Estes, N., editors, The Handbook of Language Variation and Change, 20–39. Blackwell Publishing, Malden, MA.