Toto je starší verze dokumentu!
Strukturní atributy mluvených korpusů
Některé atributy připouštějí hodnotu Y
, která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).
Strukturní atributy korpusů ORAL2006, ORAL2008 a ORAL2013
Korpusy ORAL2006, ORAL2008 a ORAL2013 obsahují následující strukturní atributy:
Struktura | Atribut | Popis | Možné hodnoty |
---|---|---|---|
doc | id | jednoznačný identifikátor sondy | <řetězec čísel a velkých písmen> |
temp | rok nahrání sondy | např. 2008 |
|
pocet | počet mluvčích v sondě | <číslo> |
|
promluva | typ promluvy | N (neformální) |
|
Atributy vztah a situace jsou obsažené pouze v korpusu ORAL2013: |
|||
vztah | vztah mezi mluvčími | {přátelskost,známost} |
|
situace | typ situace, v níž byla nahrávka pořízena | {hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet} |
|
sp | num | číselné označení mluvčího v rámci sondy (doc) | od 00 výš (podle počtu mluvčích, přičemž 00 označuje mluvčího, který rozhovor nahrával); možné je i Y |
pohlavi | pohlaví mluvčího | {M (muž), Z (žena)} nebo Y |
|
vek | věková kategorie mluvčího | {I (iunior, mladší: ca 20–35 let),V (vetus, starší: 35 let a více)} nebo Y |
|
veknum | věk mluvčího (číselně) | <číslo> |
|
vzdelani | vzdělání mluvčího (hrubé rozlišení) | {A (altus, vysokoškolské včetně pouze započatého),B (basis, základní a středoškolské)} nebo Y |
|
vzdelanityp | vzdělání mluvčího (jemnější rozlišení) | {SŠ,VŠ,ZŠ} nebo Y |
|
oblast | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | {česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská} nebo Y |
|
Atributy oznacenishody a prekryv jsou obsažené pouze v korpusu ORAL2013: |
|||
oznacenishody | jednoznačné označení mluvčího v rámci celého korpusu | <řetězec malých písmen> |
|
prekryv | nachází se tato promluva daného mluvčího v překryvu? | {ano,ne} |
Atributy korpusu ORTOFON a spojeného korpusu ORAL
Korpusy ORAL a ORTOFON obsahují následující údaje k nahrávce:
Struktura | Atribut | Příklad | Vysvětlení | Možné hodnoty | |
---|---|---|---|---|---|
doc | id | 06H080N | identifikační označení nahrávky - první dvojčíslí uvádí rok pořízení, písmeno na konci značí neformální (N) či formální situaci (F) | <řetězec čísel a velkých písmen> | |
month | březen | měsíc pořízení nahrávky | <řetězec malých písmen> | ||
speakers | 5 | počet všech mluvčích v nahrávce | <číslo> | ||
formality | neformální | neformální situace | {neformální, formální} | v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (N pro neformální, F pro formální) |
|
preparedness | nepřipravená | označení, zda byl rozhovor předem připraven, či ne (pozn.: souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak) | {připravená, nepřipravená} | ||
audio | ne | informace, zda je k transkriptu dostupný zvuk (pozn.: nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano) | {ano, ne} | ||
year | 2006 | rok pořízení nahrávky | |||
location | Praha | místo pořízení nahrávky | |||
relationship | přátelský | vztah mluvčích v nahrávce (pozn.: pod označení přátelský jsou zařazeny i rodinné vztahy) | {přátelský, znají se, neznají se} | ||
situation | návštěva | označení, za jaké situace k hovoru došlo | {návštěva, rozhovor doma, rozhovor u jídla doma, restaurace, oslava, posezení na zahradě} a další | ||
tokens | 9008 | počet všech tokenů v nahrávce | |||
oral | 2006 | označuje korpus, z něhož nahrávka pochází | {2006, 2008, 2013, Z} | ||
number | 2 | počet mluvčích v nahrávce | |||
Atributy generations a genders jsou obsažené pouze v korpusu ORTOFON: | |||||
generations | 1 | počet generací mluvčích v nahrávce | {1 (vrstevníci),2 (mladší a starší mluvčí v nahrávce)} atd. | ||
genders | smíšené | {jen ženy, jen muži, smíšené} | |||
sp | nickname | Milena_2633 | automaticky přiřazená přezdívka | ||
gender | M | pohlaví mluvčího | {Z (žena), M (muž)} nebo Y | ||
edu_level | SŠ | nejvyšší dosažené vzdělání | {SŠ, VŠ, ZŠ} nebo Y | ||
age | 54 | věk mluvčího | |||
reg_current | středomoravská | nářeční oblast současného pobytu mluvčího | {česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská} nebo Y | ||
proportion | 23 % | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | |||
confederate | ne | informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách | {ano, ne} | ||
edu_binary | B | vzdělání mluvčího (hrubé rozlišení) | {A (altus, vysokoškolské včetně pouze započatého),B (basis, základní a středoškolské)} nebo Y | ||
age_binary | I | věk mluvčího (hrubé rozlišení) | {I (iunior, mladší: cca 20–35 let),V (vetus, starší: 35 let a více)} nebo Y | ||
reg_childhood | středomoravská | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | {česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská} nebo Y | ||
occupation | kvalifikovaný pracovník ve stavebnictví | specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco- | {kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač} a další | ||
overlap | ano | značí, zda se promluva daného mluvčího nachází v překryvu | {ano, ne} | ||
Tyto atributy pod strukturou doc jsou obsažené pouze v korpusu ORTOFON: | |||||
locsize_childhood | město nad 100 tisíc | velikost sídla, kde mluvčí žil do 15 let věku | {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y | ||
locsize_longest | město nad 100 tisíc | velikost sídla, kde mluvčí žil nejdelší dobu | {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y | ||
locsize_current | město nad 100 tisíc | velikost sídla, kde mluvčí žije v současné době | {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y | ||
soundfile | 5/3/ef2e315f.mp3 | číslo a formát nahrávky | |||
id | 3784 | identifikátor segmentu (struktury sp) | |||
edu_field | chemické obory | obor vzdělání | {ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost} a další, výběr oborů z předdefinovaného seznamu | ||
occupation | sociální pracovník | ||||
occupation_category | jiný odborný pracovník | specifikace zaměstnání podle ČZSO | |||
loc_childhood | Praha | místo, kde mluvčí žil do 15 let | |||
reg_longest | severovýchodočeská | nářeční oblast, v níž mluvčí žil nejdéle | {česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská} nebo Y | ||