AplikaceAplikace
Nastavení

Struktury a strukturní atributy mluvených korpusů

Struktury korpusů mluvené češtiny

V korpusech mluvené češtiny se používají následující strukturní hierarchické jednotky:

  • doc - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor)
  • sp - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího a nesoucí jeho metadata (korpusy ORAL obsahují i nižší jednotku seg)

Struktuře sp se tradičně v textech o mluvených korpusech ČNK říká promluva, nicméně s lingvistickým konceptem téhož jména nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech ORAL2006 a ORAL2008 lze do velké míry hovořit o tom, že hranice jednotek sp odpovídají hranicím replik, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek sp s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat.

Dotaz Vyhodnocení
[word="ne"]</doc> výskyty slova ne na konci sondy
<sp> [word="hmm"] výskyty slova hmm na začátku promluvy

Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. metadata), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže. Společně s tím uvádíme i další, tzv. nehierarchické struktury, které jsou u některých korpusů použity.

Strukturní atributy korpusu ORTOFON a spojeného korpusu ORAL

Korpusy ORTOFON a ORAL obsahují následující údaje:

Struktura Atribut Příklad Vysvětlení Možné hodnoty
doc id 06H080N identifikační označení nahrávky - první dvojčíslí uvádí rok pořízení, písmeno na konci značí neformální (N) či formální situaci (F) <řetězec čísel a velkých písmen>
month březen měsíc pořízení nahrávky <řetězec malých písmen>
speakers 5 počet všech mluvčích v nahrávce <číslo>
formality neformální neformální situace (pozn.: v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (N pro neformální, F pro formální)) {neformální, formální}
preparedness nepřipravená označení, zda byl rozhovor předem připraven, či ne (pozn.: souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak) {připravená, nepřipravená}
audio ne informace, zda je k transkriptu dostupný zvuk (pozn.: nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano) {ano, ne}
year 2006 rok pořízení nahrávky
location Praha místo pořízení nahrávky
relationship přátelský vztah mluvčích v nahrávce (pozn.: pod označení přátelský jsou zařazeny i rodinné vztahy) {přátelský, znají se, neznají se}
situation návštěva označení, za jaké situace k hovoru došlo {návštěva, rozhovor doma, rozhovor u jídla doma, restaurace, oslava, posezení na zahradě} a další
tokens 9008 počet všech tokenů v nahrávce
oral 2006 označuje korpus, z něhož nahrávka pochází {2006, 2008, 2013, Z}
number 2 počet mluvčích v nahrávce
Tyto atributy pod strukturou doc jsou obsažené pouze v korpusu ORTOFON:
generations 1 počet generací mluvčích v nahrávce {1 (vrstevníci),2 (mladší a starší mluvčí v nahrávce)} atd.
genders smíšené {jen ženy, jen muži, smíšené}
sp nickname Milena_2633 automaticky přiřazená přezdívka
gender M pohlaví mluvčího {Z (žena), M (muž)} nebo Y
edu_level nejvyšší dosažené vzdělání {SŠ, VŠ, ZŠ} nebo Y
age 54 věk mluvčího
reg_current středomoravská nářeční oblast současného pobytu mluvčího {česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská} nebo Y
proportion 23 % procentuální zastoupení řeči mluvčího v rámci celé nahrávky
confederate ne informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách {ano, ne}
edu_binary B vzdělání mluvčího (hrubé rozlišení) {A (altus, vysokoškolské včetně pouze započatého),B (basis, základní a středoškolské)} nebo Y
age_binary I věk mluvčího (hrubé rozlišení) {I (iunior, mladší: cca 20–35 let),V (vetus, starší: 35 let a více)} nebo Y
reg_childhood středomoravská nářeční oblast místa pobytu mluvčího v dětství (do 15 let) {česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská} nebo Y
occupation kvalifikovaný pracovník ve stavebnictví specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco- {kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač} a další
overlap ano značí, zda se promluva daného mluvčího nachází v překryvu {ano, ne}
Tyto atributy pod strukturou sp jsou obsažené pouze v korpusu ORTOFON:
locsize_childhood město nad 100 tisíc velikost sídla, kde mluvčí žil do 15 let věku {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y
locsize_longest město nad 100 tisíc velikost sídla, kde mluvčí žil nejdelší dobu {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y
locsize_current město nad 100 tisíc velikost sídla, kde mluvčí žije v současné době {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y
soundfile 5/3/ef2e315f.mp3 číslo a formát nahrávky
id 3784 identifikátor segmentu (struktury sp)
edu_field chemické obory obor vzdělání {ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost} a další, výběr oborů z předdefinovaného seznamu
occupation sociální pracovník
occupation_category jiný odborný pracovník specifikace zaměstnání podle ČZSO
loc_childhood Praha místo, kde mluvčí žil do 15 let
reg_longest severovýchodočeská nářeční oblast, v níž mluvčí žil nejdéle {česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská} nebo Y
Nižší hierarchická struktura - obsažená pouze v korpusu ORAL:
seg - - nižší technická jednotka členění mluveného textu
Další struktury a atributy jsou obsažené pouze v korpusu ORTOFON:
para type šeptem označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem {šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}
pw - - struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) -
overlap - - struktura obaluje pozice řečené v překryvu s jiným mluvčím -
unclear - - struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného -

Strukturní atributy korpusu ORATOR

Korpus ORATOR obsahuje tyto údaje:

Struktura Atribut Popis Možné hodnoty (položky jsou řazeny podle abecedy)
doc id jednoznačný identifikátor sondy
year rok pořízení nahrávky
location místo nahrávky obce ČR
situation typ situace {ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení}
framing zaměření projevu {oficiální, popularizační, politické, profesní, vědecké}
genre žánr projevu hodnoty shodné s atributem genre u psaných korpusů
audience_present přítomnost publika {ano, ne}
intended_audience jakému publiku je projev určen {skupina, veřejnost}
special speciální příznak projevu {čtené, pro děti, Y} (Y pro projevy bez příznaku)
source zdroj {vlastní sběr, volně dostupná nahrávka}
speakers počet mluvčích v nahrávce
length délka nahrávky v minutách
tokens počet všech tokenů v nahrávce
sp id identifikátor segmentu unikátní číslo pro každý segment
nickname přezdívka mluvčího náhodně přidělená příjmení
speaker_id číslo doplňující přezdívku mluvčího stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího
gender pohlaví
proportion procentuální zastoupení řeči mluvčího v rámci celé nahrávky
soundfile číslo a formát nahrávky

Strukturní atributy korpusu DIALEKT

Korpus DIALEKT obsahuje tyto údaje:

Struktura Atribut Příklad Vysvětlení Možné hodnoty (položky jsou řazeny podle abecedy) Poznámka
doc id 001-C-SVC-1957-SA identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky
zdroj Ústav Českého národního korpusu zdroj nahrávky {Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně, Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}
rok 1957 rok pořízení nahrávky 195X - blíže neurčený rok v padesátých letech
vrstva stará nářeční vrstva {nová, stará}
misto Křečovice místo pořízení nahrávky část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)
sidlotyp městská lokalita typ sídla {městská lokalita, venkovská lokalita}
sidlovelikost nad 100 tis. místo pořízení nahrávky - velikost sídla {méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500}
stat Česká republika místo pořízení nahrávky - stát {Česká republika, Polsko}
region Čechy místo pořízení nahrávky - region {Čechy, Morava, Slezsko}
noblast středočeská místo pořízení nahrávky - nářeční oblast {českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
npodskupina jižní (slovácká) místo pořízení nahrávky - nářeční podskupina {centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
núsek západní (opavský) místo pořízení nahrávky - nářeční úsek {českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
ntyp doudlebský místo pořízení nahrávky - nářeční typ {čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
okres Domažlice místo pořízení nahrávky - okres
promluvatyp monolog typ promluvy podle dialogičnosti {dialog, monolog, převážně dialog, převážně monolog}
tema Vánoce téma promluvy
pocetml 2 celkový počet mluvčích v nahrávce
explorator ano přítomnost exploratora v nahrávce {ano, ne}
sp id 2533 identifikátor segmentu (struktury sp)
prezdivka Dalibor_208 automaticky vygenerovaná přezdívka, ze které je patrné pohlaví
explorator ano mluvčí je/není explorátor {ano, ne}
pohlavi M: muž pohlaví mluvčího {M: muž, Z: žena}
rok 1877 rok narození mluvčího
veknum 85 věk mluvčího v době pořízení nahrávky 5X - věk mezi padesáti a šedesáti lety
vek V: nad 35 let věková kategorie užívaná v mluvených korpusech {I: do 35 let, V: nad 35 let}
vzdelanitypI A: vysokoškolské vzdělání - typ užívaný ve všech mluvených korpusech {A: vysokoškolské, B: základní či střední}
vzdelanitypII vzdělání - typ užívaný v mluvených korpusech řady ORAL {SOU, SŠ, VŠ, ZŠ}
profese cestář nejdelší zaměstnání mluvčího
mistonej Stachy místo nejdelšího pobytu mluvčího část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)
statnej Česká republika nejdelší pobyt mluvčího - stát {Česká republika, Polsko}
regionnej Čechy nejdelší pobyt mluvčího - region {Čechy, Morava, Slezsko}
noblastnej českomoravská nejdelší pobyt mluvčího - nářeční oblast {českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
npodskupinanej severní (valašská) nejdelší pobyt mluvčího - nářeční podskupina {centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
nuseknej východní (ostravský) nejdelší pobyt mluvčího - nářeční úsek {českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
ntypnej jemnický nejdelší pobyt mluvčího - nářeční typ {čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
mistodet Zápy místo pobytu mluvčího v dětství (do 15 let) část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)
noblastdet východomoravská pobyt mluvčího v dětství (do 15 let) - nářeční oblast {českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská} pouze hodnoty, pro které se v korpusu nachází nářeční materiál

Strukturní atributy korpusu Jazyky v migraci

Korpus Jazyky v migraci obsahuje následující údaje:

Struktura Atribut Příklad Vysvětlení Možné hodnoty
doc id A1CS11 unikátní identifikátor nahrávky <řetězec čísel a velkých písmen>
language cs hlavní jazyk {cs, de}
speakers 1 počet mluvčích, vyjma explorátory <číslo>
situation_cs doma popis situace česky {doma, kancelář, veřejný prostor}
situation_de zu Hause popis situace německy {Büro, zu Hause, öffentlicher Raum}
topics_cs emigrace|známí|škola témata česky více možností, vč. multihodnot
topics_de Auswanderung|Bekannte|Schule témata německy více možností, vč. multihodnot
sp id A1CS11:187 unikátní identifikátor segmentu <doc.id>:<pořadové číslo v rámci nahrávky>
nickname Erika B. přezdívka mluvčího
gender F pohlaví mluvčího {F, M}
born 1956 rok narození mluvčího <číslo>
immigrated 1968 rok emigrace mluvčího do Německa <číslo>
reg_birth Liberecký kraj region narození mluvčího {Hlavní město Praha, Jihočeský kraj, Karlovarský kraj, Královéhradecký kraj, Liberecký kraj, Moravskoslezský kraj, Olomoucký kraj, Plzeňský kraj, západní Čechy, Ústecký kraj}
reg_current Bayern region současného pobytu mluvčího {Baden-Württemberg, Bayern, Hessen}
loctype_birth_cs venkov typ místa narození mluvčího česky {město, venkov}
loctype_birth_de ländlich typ místa narození mluvčího německy {ländlich, städtisch}
loctype_current_cs venkov typ místa současného pobytu mluvčího česky {město, venkov}
loctype_current_de ländlich typ místa současného pobytu mluvčího německy {ländlich, städtisch}
generation_cs pozdní vysídlenci generace mluvčího česky {migranti, pozdní vysídlenci}
generation_de Spätaussiedler:innen generace mluvčího německy {Migrant:innen, Spätaussiedler:innen}
education_cs vzdělání mluvčího česky {SŠ, VŠ}
education_de Hochschulabschluss vzdělání mluvčího německy {Abitur/Berufsbildende Schule, Hochschulabschluss}
langgener_category PAT|AA viz první tabulka v sekci Značkování v popisu korpusu hodnoty z tabulky jako multihodnoty dle pořadí výskytu v segmentu (mohou se i opakovat)
syntactic_phrase VP|NP viz druhá tabulka v sekci Značkování v popisu korpusu hodnoty z tabulky jako multihodnoty dle pořadí výskytu v segmentu (mohou se i opakovat)
soundfile 7/f/66466a1f.mp3 soubor s odpovídající zvukovou nahrávkou

Strukturní atributy korpusů ORAL2006, ORAL2008 a ORAL2013

Korpusy ORAL2006, ORAL2008 a ORAL2013 obsahují následující údaje:

Struktura Atribut Popis Možné hodnoty
doc id jednoznačný identifikátor sondy <řetězec čísel a velkých písmen>
temp rok nahrání sondy např. 2008
pocet počet mluvčích v sondě <číslo>
promluva typ promluvy N (neformální)
Další atributy pod strukturou doc jsou obsažené pouze v korpusu ORAL2013:
vztah vztah mezi mluvčími {přátelskost,známost}
situace typ situace, v níž byla nahrávka pořízena {hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}
sp num číselné označení mluvčího v rámci sondy (doc) od 00 výš (podle počtu mluvčích, přičemž 00 označuje mluvčího, který rozhovor nahrával); možné je i Y
pohlavi pohlaví mluvčího {M (muž), Z (žena)} nebo Y
vek věková kategorie mluvčího {I (iunior, mladší: ca 20–35 let),V (vetus, starší: 35 let a více)} nebo Y
veknum věk mluvčího (číselně) <číslo>
vzdelani vzdělání mluvčího (hrubé rozlišení) {A(altus, vysokoškolské včetně pouze započatého),B(basis, základní a středoškolské)} nebo Y
vzdelanityp vzdělání mluvčího (jemnější rozlišení) {SŠ,VŠ,ZŠ} nebo Y
oblast nářeční oblast místa pobytu mluvčího v dětství (do 15 let) {česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská} nebo Y
Další atributy pod strukturou sp jsou obsažené pouze v korpusu ORAL2013:
oznacenishody jednoznačné označení mluvčího v rámci celého korpusu <řetězec malých písmen>
prekryv nachází se tato promluva daného mluvčího v překryvu? {ano,ne}
seg - nižší hierarchická jednotka členění mluveného textu

Pozn. Některé atributy mluvených korpusů připouštějí hodnotu Y, která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).