Corpus of informal spoken Czech with multilevel transcription: ORTOFON

The ORTOFON corpus, with its method of data collection, is a continuation of the corpora of informal spoken Czech from the ORAL series. Together with the DIALEKT corpus it is one of the first two spoken corpora of the Czech language which have a multilevel transcription. Same as with the corpora of the ORAL series, ORTOFON also collects spontaneous spoken languageused in informal situations between speakers who know each other. Similarly as in the corpus ORAL2013, the speakers come from all over the Czech Republic and selected sociological data are collected about them.

ORTOFON is also the first corpus to be fully balanced regarding all the basic sociolinguistic speaker categories (gender, age group, level of education and region of childhood residence). The corpus is lemmatized morphologically tagged in the same manner as the ORAL corpus, the transcription is linked to the corresponding audio track.

The ORTOFON corpus allows us to explore various aspects of spoken language, i.e. lexis, morphology, syntax, pragmatics, dialogue construction. The corpus is not primarily intended for dialectological 1) or phonetic research, even though a simplified phonetic transcription allows us to verify the existence of pronunciation or regional variants, or phenomena related to pronunciation.

The publication of ORTOFON in connection with the ORAL corpus presents users the chance to explore informal spoken Czech in the most extensive data complex to date, covering a period of fifteen years (2002-2017).

Number of positions (tokens) 1 236 508
Number of positions (tokens) without puctuation, hesitations and interjections 1 014 786
Number of word forms (words) 65 294
Number of conversations recorded 332
Number of utterances 172 736
Number of unique (different) speakers 624
Length of recordings [hh:mm:ss.ms] 102:41:14.247

Corpus composition and data collection

The ORTOFON corpus is composed of 332 recordings from the years 2012–2017 and contains 1 014 786 orthographic words, i.e. a total of 1 236 508 positions; a total of 624 different speakers appear in the probes. The recordings were acquired in Bohemia, Moravia and Silesia, and their total length measures almost 103 hours. More quantitative data can be found on the page dedicated to the composition of the corpus.

The material was collected in accordance with the criteria concerning the corpora of the ORAL series. Due to the presence of the phonetic level of transcription, a greater emphasis was placed on the sound quality of recordings. The regional origin of the speakers who were included in the corpus is shown in the following map. The borders of the individual dialectal regions have been refined for the ORTOFON and DIALEKT corpora.

Relative representations of speakers from various parts of the Czech Republic (number of speakers according to place of birth).

The absolute values for the number of speakers according to place of birth, along with longitude and latitude coordinates, are available for download in .xlsx format.

Corpus balance

From the very beginning of data collection, special care was taken to achieve the maximum possible speaker variability with regard to dialectal regions. Over the course of the collection process, the material was adjusted in order to achieve a balanced corpus within the four basic sociolinguistic categories: gender, age, level of education and the dialectal region in which the speaker spent the majority of the first 15 years of his life. The first three categories, i.e. gender, age, education, were assigned binary values (see picture), while the fourth category was divided into ten groups i.e. ten dialectal regions. The following picture displays the distribution of the binary categories within one dialectal region. Each region should therefore contain the same number of words from men and women, from speakers of ages 18-34 years and those over 35 years, and from speakers with a high school education and those with a university education.

The distribution of binary sociolinguistic categories for one dialectal region.

The basic concept was the idea of ​​the same proportional representation of the sociolinguistic categories listed above, applied to the collection of material for all of the ČNK spoken corpora. Taking into account the target corpus size (1 000 000 words), byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) - stanovena cílová hranice 12 500 slov. Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích 2). Cílem tohoto opatření bylo omezit vliv idiolektu.

Rozdíly mezi korpusem ORAL a ORTOFON

  • Víceúrovňový přepis: Přepis mluveného jazyka v korpusu ORTOFON realizován na dvou rovinách: ortografické a fonetické. Ortografická rovina slouží primárně k porozumění nahranému rozhovoru a orientaci v něm, zatímco fonetická rovina zachycuje skutečnou realizaci vyřčeného pomocí upraveného fonetického přepisu. Tyto dvě roviny doprovází ještě metajazyková, která zachycuje doprovodné zvuky produkované mluvčími (např. smích, kašel) nebo přítomné v okolí s možností ovlivnit rozhovor (např. zvonění telefonu může vést k přerušení dialogu). Více viz transkripční zásady.
  • Pauzová interpunkce založená na délce pauz: Část korpusu ORAL, konkrétně ORAL2013 a ORAL-Z, obsahuje pauzovou interpunkci založenou na intuitivním rozlišení kratších a delších pauz podle tempa mluvy konkrétního mluvčího. V korpusu ORTOFON jsou rozlišovány tři druhy pauz podle časového kritéria: předěly (méně než 120 ms), pauzy (120 ms - 2 s), dlouhé pauzy (delší než 2 s).
  • Plná vyváženost korpusu: V korpusu ORTOFON je každá kombinace čtyř sociolingvistických proměnných prezentována jako stejně velká skupina, srov. ORAL2013.
  • Pestré zastoupení mluvčích z celé České republiky: Vymezení jednotlivých nářečních oblastí vychází z nářečního členění používaného v Českém jazykovém atlase, hranice oblastí však byly zpřesněny (viz mapa nářečních oblastí). Při sběru dat bylo dbáno na variabilitu mluvčích i obcí, z nichž pocházejí.
  • Rozšíření segmentu k poslechu: Segment odděleného transkriptu může být dlouhý až 25 slov, což zlepšuje možnosti poslechu zvukového segmentu.
  • Jiný způsob značení překryvů: Překryvy jsou v traskriptu značeny hranatými závorkami, nejsou oddělovány ve zvuku, aby bylo možné je lépe poslouchat, srov. ORAL2013. V korpusovém manažeru KonTextu jsou zobrazeny jako strukturní atributy (více viz hledání v korpusu ORTOFON).
  • Dostupnost audia: Celý korpus ORTOFON je propojen se zvukem, takže je možná si vyhledanou konkordanci poslechnout (u korpusu ORAL jenom části ORAL-Z a ORAL2013).
  • Nové metainformace: Byl rozšířen soubor metainformací sbíraných k celé nahrávce i jednotlivým mluvčím. Více viz přehled strukturních atributů.


Děkujeme všem spolupracovníkům, kteří se podíleli na pořízení nahrávek, jejich přepisu a kontrole.

Jmenovitě chceme poděkovat především koordinátorům přepisu: PhDr. Iloně Adámkové, Mgr. Vendule Hálkové, PhDr. Daně Hlaváčkové, Mgr. Lence Klatovské, Mgr. Anně Marklové, PhDr. Evě Pasáčkové, Mgr. Pavle Smolové, Marice Svojanovské, Mgr. Pavlu Šturmovi, doc. Miloslavu Vondráčkovi a Mgr. Lence Zábojové.

Jak citovat

Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: ORTOFON: Korpus neformální mluvené češtiny s víceúrovňovým přepisem. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz

Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In Complex Visibles Out There. Olomouc: Univerzita Palackého v Olomouci, 529-544.

Kopřivová M. – Goláňová H. – Klimešová P. – Lukeš D.(2014): Mapping Diatopic and Diachronic Variation in Spoken Czech: the ORTOFON and DIALEKT Corpora. In Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014). Reykjavík, Iceland, European Language Resources Association, 376-382.

