AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Struktury a strukturní atributy mluvených korpusů

Struktury korpusů mluvené češtiny

V korpusech mluvené češtiny se používají následující strukturní hierarchické jednotky:

  • doc - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor)
  • sp - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího a nesoucí jeho metadata (korpusy ORAL obsahují i nižší jednotku seg)

Struktuře sp se tradičně v textech o mluvených korpusech ČNK říká promluva, nicméně s lingvistickým konceptem téhož jména nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech ORAL2006 a ORAL2008 lze do velké míry hovořit o tom, že hranice jednotek sp odpovídají hranicím replik, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek sp s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat.

Dotaz Vyhodnocení
[word="ne"]</doc> výskyty slova ne na konci sondy
<sp> [word="hm"] výskyty slova hm na začátku promluvy

Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. metadata), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže. Společně s tím uvádíme i další, tzv. nehierarchické struktury, které jsou u některých korpusů použity.

Strukturní atributy korpusu ORTOFON a spojeného korpusu ORAL

Korpusy ORAL a ORTOFON obsahují následující údaje:

Struktura Atribut Příklad Vysvětlení Možné hodnoty
doc id 06H080N identifikační označení nahrávky - první dvojčíslí uvádí rok pořízení, písmeno na konci značí neformální (N) či formální situaci (F) <řetězec čísel a velkých písmen>
month březen měsíc pořízení nahrávky <řetězec malých písmen>
speakers 5 počet všech mluvčích v nahrávce <číslo>
formality neformální neformální situace (pozn.: v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (N pro neformální, F pro formální)) {neformální, formální}
preparedness nepřipravená označení, zda byl rozhovor předem připraven, či ne (pozn.: souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak) {připravená, nepřipravená}
audio ne informace, zda je k transkriptu dostupný zvuk (pozn.: nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano) {ano, ne}
year 2006 rok pořízení nahrávky
location Praha místo pořízení nahrávky
relationship přátelský vztah mluvčích v nahrávce (pozn.: pod označení přátelský jsou zařazeny i rodinné vztahy) {přátelský, znají se, neznají se}
situation návštěva označení, za jaké situace k hovoru došlo {návštěva, rozhovor doma, rozhovor u jídla doma, restaurace, oslava, posezení na zahradě} a další
tokens 9008 počet všech tokenů v nahrávce
oral 2006 označuje korpus, z něhož nahrávka pochází {2006, 2008, 2013, Z}
number 2 počet mluvčích v nahrávce
Tyto atributy pod strukturou doc jsou obsažené pouze v korpusu ORTOFON:
generations 1 počet generací mluvčích v nahrávce {1 (vrstevníci),2 (mladší a starší mluvčí v nahrávce)} atd.
genders smíšené {jen ženy, jen muži, smíšené}
sp nickname Milena_2633 automaticky přiřazená přezdívka
gender M pohlaví mluvčího {Z (žena), M (muž)} nebo Y
edu_level nejvyšší dosažené vzdělání {SŠ, VŠ, ZŠ} nebo Y
age 54 věk mluvčího
reg_current středomoravská nářeční oblast současného pobytu mluvčího {česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská} nebo Y
proportion 23 % procentuální zastoupení řeči mluvčího v rámci celé nahrávky
confederate ne informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách {ano, ne}
edu_binary B vzdělání mluvčího (hrubé rozlišení) {A (altus, vysokoškolské včetně pouze započatého),B (basis, základní a středoškolské)} nebo Y
age_binary I věk mluvčího (hrubé rozlišení) {I (iunior, mladší: cca 20–35 let),V (vetus, starší: 35 let a více)} nebo Y
reg_childhood středomoravská nářeční oblast místa pobytu mluvčího v dětství (do 15 let) {česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská} nebo Y
occupation kvalifikovaný pracovník ve stavebnictví specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco- {kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač} a další
overlap ano značí, zda se promluva daného mluvčího nachází v překryvu {ano, ne}
Tyto atributy pod strukturou sp jsou obsažené pouze v korpusu ORTOFON:
locsize_childhood město nad 100 tisíc velikost sídla, kde mluvčí žil do 15 let věku {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y
locsize_longest město nad 100 tisíc velikost sídla, kde mluvčí žil nejdelší dobu {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y
locsize_current město nad 100 tisíc velikost sídla, kde mluvčí žije v současné době {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y
soundfile 5/3/ef2e315f.mp3 číslo a formát nahrávky
id 3784 identifikátor segmentu (struktury sp)
edu_field chemické obory obor vzdělání {ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost} a další, výběr oborů z předdefinovaného seznamu
occupation sociální pracovník
occupation_category jiný odborný pracovník specifikace zaměstnání podle ČZSO
loc_childhood Praha místo, kde mluvčí žil do 15 let
reg_longest severovýchodočeská nářeční oblast, v níž mluvčí žil nejdéle {česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská} nebo Y
Nižší hierarchická struktura - obsažená pouze v korpusu ORAL:
seg - - nižší technická jednotka členění mluveného textu
Další struktury a atributy jsou obsažené pouze v korpusu ORTOFON:
para type šeptem označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem {šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}
pw - - struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) -
overlap - - struktura obaluje pozice řečené v překryvu s jiným mluvčím -
unclear - - struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného -

Strukturní atributy korpusů ORAL2006, ORAL2008 a ORAL2013

Korpusy ORAL2006, ORAL2008 a ORAL2013 obsahují následující strukturní atributy:

Struktura Atribut Popis Možné hodnoty
doc id jednoznačný identifikátor sondy <řetězec čísel a velkých písmen>
temp rok nahrání sondy např. 2008
pocet počet mluvčích v sondě <číslo>
promluva typ promluvy N (neformální)
Atributy vztah a situace jsou obsažené pouze v korpusu ORAL2013:
vztah vztah mezi mluvčími {přátelskost,známost}
situace typ situace, v níž byla nahrávka pořízena {hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}
sp num číselné označení mluvčího v rámci sondy (doc) od 00 výš (podle počtu mluvčích, přičemž 00 označuje mluvčího, který rozhovor nahrával); možné je i Y
pohlavi pohlaví mluvčího {M (muž), Z (žena)} nebo Y
vek věková kategorie mluvčího {I (iunior, mladší: ca 20–35 let),V (vetus, starší: 35 let a více)} nebo Y
veknum věk mluvčího (číselně) <číslo>
vzdelani vzdělání mluvčího (hrubé rozlišení) {A(altus, vysokoškolské včetně pouze započatého),B(basis, základní a středoškolské)} nebo Y
vzdelanityp vzdělání mluvčího (jemnější rozlišení) {SŠ,VŠ,ZŠ} nebo Y
oblast nářeční oblast místa pobytu mluvčího v dětství (do 15 let) {česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská} nebo Y
Atributy oznacenishody a prekryv jsou obsažené pouze v korpusu ORAL2013:
oznacenishody jednoznačné označení mluvčího v rámci celého korpusu <řetězec malých písmen>
prekryv nachází se tato promluva daného mluvčího v překryvu? {ano,ne}
seg - nižší hierarchická jednotka členění mluveného textu

Strukturní atributy korpusu DIALEKT

Korpus DIALEKT obsahuje tyto údaje:

Struktura Atribut Příklad Vysvětlení Možné hodnoty (položky jsou řazeny podle abecedy) Poznámka
doc id 001-C-SVC-1957-SA identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky
zdroj Ústav Českého národního korpusu zdroj nahrávky {Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně, Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}
rok 1957 rok pořízení nahrávky 195X - blíže neurčený rok v padesátých letech
vrstva stará nářeční vrstva {nová, stará}
misto Křečovice místo pořízení nahrávky část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)
sidlotyp městská lokalita typ sídla {městská lokalita, venkovská lokalita}
sidlovelikost nad 100 tis. místo pořízení nahrávky - velikost sídla {méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500}
stat Česká republika místo pořízení nahrávky - stát {Česká republika, Polsko}
region Čechy místo pořízení nahrávky - region {Čechy, Morava, Slezsko}
noblast středočeská místo pořízení nahrávky - nářeční oblast {českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
npodskupina jižní (slovácká) místo pořízení nahrávky - nářeční podskupina {centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
núsek západní (opavský) místo pořízení nahrávky - nářeční úsek {českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
ntyp doudlebský místo pořízení nahrávky - nářeční typ {čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
okres Domažlice místo pořízení nahrávky - okres
promluvatyp monolog typ promluvy podle dialogičnosti {dialog, monolog, převážně dialog, převážně monolog}
tema Vánoce téma promluvy
pocetml 2 celkový počet mluvčích v nahrávce
explorator ano přítomnost exploratora v nahrávce {ano, ne}
sp id 2533 identifikátor segmentu (struktury sp)
prezdivka Dalibor_208 automaticky vygenerovaná přezdívka, ze které je patrné pohlaví
explorator ano mluvčí je/není explorátor {ano, ne}
pohlavi M: muž pohlaví mluvčího {M: muž, Z: žena}
rok 1877 rok narození mluvčího
veknum 85 věk mluvčího v době pořízení nahrávky 5X - věk mezi padesáti a šedesáti lety
vek V: nad 35 let věková kategorie užívaná v mluvených korpusech {I: do 35 let, V: nad 35 let}
vzdelanitypI A: vysokoškolské vzdělání - typ užívaný ve všech mluvených korpusech {A: vysokoškolské, B: základní či střední}
vzdelanitypII vzdělání - typ užívaný v mluvených korpusech řady ORAL {SOU, SŠ, VŠ, ZŠ}
profese cestář nejdelší zaměstnání mluvčího
mistonej Stachy místo nejdelšího pobytu mluvčího část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)
statnej Česká republika nejdelší pobyt mluvčího - stát {Česká republika, Polsko}
regionnej Čechy nejdelší pobyt mluvčího - region {Čechy, Morava, Slezsko}
noblastnej českomoravská nejdelší pobyt mluvčího - nářeční oblast {českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
npodskupinanej severní (valašská) nejdelší pobyt mluvčího - nářeční podskupina {centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
nuseknej východní (ostravský) nejdelší pobyt mluvčího - nářeční úsek {českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
ntypnej jemnický nejdelší pobyt mluvčího - nářeční typ {čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický} pouze hodnoty, pro které se v korpusu nachází nářeční materiál
mistodet Zápy místo pobytu mluvčího v dětství (do 15 let) část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)
noblastdet východomoravská pobyt mluvčího v dětství (do 15 let) - nářeční oblast {českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská} pouze hodnoty, pro které se v korpusu nachází nářeční materiál

Strukturní atributy korpusu ORATOR

Korpus ORATOR obsahuje tyto údaje:

Struktura Atribut Popis Možné hodnoty (položky jsou řazeny podle abecedy)
doc id jednoznačný identifikátor sondy
year rok pořízení nahrávky
location místo nahrávky obce ČR
situation typ situace ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení
framing zaměření projevu oficiální, popularizační, politické, profesní, vědecké
genre žánr projevu hodnoty shodné s atributem genre u psaných korpusů
audience_present přítomnost publika ano, ne
intended_audience jakému publiku je projev určen skupina, veřejnost
special speciální příznak projevu čtené, pro děti, Y (pro projevy bez příznaku)
source zdroj vlastní sběr, volně dostupná nahrávka
speakers počet mluvčích v nahrávce
length délka nahrávky v minutách
tokens počet všech tokenů v nahrávce
sp id identifikátor segmentu unikátní číslo pro každý segment
nickname přezdívka mluvčího náhodně přidělená příjmení
speaker_id číslo doplňující přezdívku mluvčího stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího
gender pohlaví
proportion procentuální zastoupení řeči mluvčího v rámci celé nahrávky
soundfile číslo a formát nahrávky

Pozn. Některé atributy mluvených korpusů připouštějí hodnotu Y, která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).