AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Strukturní atributy mluvených korpusů

Některé atributy připouštějí hodnotu Y, která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).

Strukturní atributy korpusů ORAL2006, ORAL2008 a ORAL2013

Korpusy ORAL2006, ORAL2008 a ORAL2013 obsahují následující strukturní atributy:

Struktura Atribut Popis Možné hodnoty
doc id jednoznačný identifikátor sondy <řetězec čísel a velkých písmen>
temp rok nahrání sondy např. 2008
pocet počet mluvčích v sondě <číslo>
promluva typ promluvy N (neformální)
Atributy vztah a situace jsou obsažené pouze v korpusu ORAL2013:
vztah vztah mezi mluvčími {přátelskost,známost}
situace typ situace, v níž byla nahrávka pořízena {hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}
sp num číselné označení mluvčího v rámci sondy (doc) od 00 výš (podle počtu mluvčích, přičemž 00 označuje mluvčího, který rozhovor nahrával); možné je i Y
pohlavi pohlaví mluvčího {M (muž), Z (žena)} nebo Y
vek věková kategorie mluvčího {I (iunior, mladší: ca 20–35 let),V (vetus, starší: 35 let a více)} nebo Y
veknum věk mluvčího (číselně) <číslo>
vzdelani vzdělání mluvčího (hrubé rozlišení) {A(altus, vysokoškolské včetně pouze započatého),B(basis, základní a středoškolské)} nebo Y
vzdelanityp vzdělání mluvčího (jemnější rozlišení) {SŠ,VŠ,ZŠ} nebo Y
oblast nářeční oblast místa pobytu mluvčího v dětství (do 15 let) {česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská} nebo Y
Atributy oznacenishody a prekryv jsou obsažené pouze v korpusu ORAL2013:
oznacenishody jednoznačné označení mluvčího v rámci celého korpusu <řetězec malých písmen>
prekryv nachází se tato promluva daného mluvčího v překryvu? {ano,ne}

Atributy korpusu ORTOFON a spojeného korpusu ORAL

Korpusy ORAL a ORTOFON obsahují následující údaje k nahrávce:

Struktura Atribut Příklad Vysvětlení Možné hodnoty
doc id 06H080N identifikační označení nahrávky - první dvojčíslí uvádí rok pořízení, písmeno na konci značí neformální (N) či formální situaci (F) <řetězec čísel a velkých písmen>
month březen měsíc pořízení nahrávky <řetězec malých písmen>
speakers 5 počet všech mluvčích v nahrávce <číslo>
formality neformální neformální situace (pozn.: v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (N pro neformální, F pro formální)) {neformální, formální}
preparedness nepřipravená označení, zda byl rozhovor předem připraven, či ne (pozn.: souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak) {připravená, nepřipravená}
audio ne informace, zda je k transkriptu dostupný zvuk (pozn.: nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano) {ano, ne}
year 2006 rok pořízení nahrávky
location Praha místo pořízení nahrávky
relationship přátelský vztah mluvčích v nahrávce (pozn.: pod označení přátelský jsou zařazeny i rodinné vztahy) {přátelský, znají se, neznají se}
situation návštěva označení, za jaké situace k hovoru došlo {návštěva, rozhovor doma, rozhovor u jídla doma, restaurace, oslava, posezení na zahradě} a další
tokens 9008 počet všech tokenů v nahrávce
oral 2006 označuje korpus, z něhož nahrávka pochází {2006, 2008, 2013, Z}
number 2 počet mluvčích v nahrávce
Atributy generations a genders jsou obsažené pouze v korpusu ORTOFON:
generations 1 počet generací mluvčích v nahrávce {1 (vrstevníci),2 (mladší a starší mluvčí v nahrávce)} atd.
genders smíšené {jen ženy, jen muži, smíšené}
sp nickname Milena_2633 automaticky přiřazená přezdívka
gender M pohlaví mluvčího {Z (žena), M (muž)} nebo Y
edu_level nejvyšší dosažené vzdělání {SŠ, VŠ, ZŠ} nebo Y
age 54 věk mluvčího
reg_current středomoravská nářeční oblast současného pobytu mluvčího {česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská} nebo Y
proportion 23 % procentuální zastoupení řeči mluvčího v rámci celé nahrávky
confederate ne informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách {ano, ne}
edu_binary B vzdělání mluvčího (hrubé rozlišení) {A (altus, vysokoškolské včetně pouze započatého),B (basis, základní a středoškolské)} nebo Y
age_binary I věk mluvčího (hrubé rozlišení) {I (iunior, mladší: cca 20–35 let),V (vetus, starší: 35 let a více)} nebo Y
reg_childhood středomoravská nářeční oblast místa pobytu mluvčího v dětství (do 15 let) {česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská} nebo Y
occupation kvalifikovaný pracovník ve stavebnictví specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco- {kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač} a další
overlap ano značí, zda se promluva daného mluvčího nachází v překryvu {ano, ne}
Tyto atributy pod strukturou sp jsou obsažené pouze v korpusu ORTOFON:
locsize_childhood město nad 100 tisíc velikost sídla, kde mluvčí žil do 15 let věku {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y
locsize_longest město nad 100 tisíc velikost sídla, kde mluvčí žil nejdelší dobu {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y
locsize_current město nad 100 tisíc velikost sídla, kde mluvčí žije v současné době {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y
soundfile 5/3/ef2e315f.mp3 číslo a formát nahrávky
id 3784 identifikátor segmentu (struktury sp)
edu_field chemické obory obor vzdělání {ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost} a další, výběr oborů z předdefinovaného seznamu
occupation sociální pracovník
occupation_category jiný odborný pracovník specifikace zaměstnání podle ČZSO
loc_childhood Praha místo, kde mluvčí žil do 15 let
reg_longest severovýchodočeská nářeční oblast, v níž mluvčí žil nejdéle {česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská} nebo Y