===== Struktury a strukturní atributy mluvených korpusů =====
==== Struktury korpusů mluvené češtiny ====
V korpusech **[[pojmy:mluveny|mluvené]] češtiny** se používají následující strukturní hierarchické jednotky:
* **doc** - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor)
* **sp** - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího a nesoucí jeho metadata (korpusy ORAL obsahují i nižší jednotku **seg**)
Struktuře **sp** se tradičně v textech o mluvených korpusech ČNK říká **promluva**, nicméně s [[http://sas.ujc.cas.cz/archiv.php?art=203|lingvistickým konceptem téhož jména]] nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] lze do velké míry hovořit o tom, že hranice jednotek **sp** odpovídají hranicím **replik**, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek **sp** s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat.
^ Dotaz ^ Vyhodnocení ^
| ''[word="ne"]'' | výskyty slova //ne// na konci sondy |
| '' [word="hmm"]'' | výskyty slova //hmm// na začátku promluvy |
Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy:metadata|metadata]]), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže. Společně s tím uvádíme i další, tzv. nehierarchické struktury, které jsou u některých korpusů použity.
==== Strukturní atributy korpusu ORTOFON a spojeného korpusu ORAL ====
Korpusy [[cnk:ortofon|ORTOFON]] a [[cnk:oral|ORAL]] obsahují následující údaje:
^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^
| doc | id | 06H080N | identifikační označení nahrávky - první dvojčíslí uvádí rok pořízení, písmeno na konci značí neformální (N) či formální situaci (F) | ''<řetězec čísel a velkých písmen>'' |
| ::: | month | březen | měsíc pořízení nahrávky | ''<řetězec malých písmen>'' |
| ::: | speakers | 5 | počet všech mluvčích v nahrávce | ''<číslo>'' |
| ::: | formality | neformální | neformální situace (pozn.: v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (''N'' pro neformální, ''F'' pro formální)) | ''{neformální, formální}'' |
| ::: | preparedness | nepřipravená | označení, zda byl rozhovor předem připraven, či ne (pozn.: souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak) | ''{připravená, nepřipravená}'' |
| ::: | audio | ne | informace, zda je k transkriptu dostupný zvuk (pozn.: nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano) | ''{ano, ne}''|
| ::: | year | 2006 | rok pořízení nahrávky |
| ::: | location | Praha | místo pořízení nahrávky |
| ::: | relationship | přátelský | vztah mluvčích v nahrávce (pozn.: pod označení přátelský jsou zařazeny i rodinné vztahy) | ''{přátelský, znají se, neznají se}'' |
| ::: | situation | návštěva | označení, za jaké situace k hovoru došlo | ''{návštěva, rozhovor doma, rozhovor u jídla doma, restaurace, oslava, posezení na zahradě}'' a další |
| ::: | tokens | 9008 | počet všech tokenů v nahrávce |
| ::: | oral | 2006 | označuje korpus, z něhož nahrávka pochází | ''{2006, 2008, 2013, Z}''|
| ::: | number | 2 | počet mluvčích v nahrávce|
| ::: | //Tyto atributy pod strukturou ''doc'' jsou obsažené pouze v korpusu ORTOFON:// ||||
| ::: | generations | 1 | počet generací mluvčích v nahrávce | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd. |
| ::: | genders | smíšené | |''{jen ženy, jen muži, smíšené}'' |
| sp | nickname | Milena_2633 | automaticky přiřazená přezdívka |
| ::: | gender | M | pohlaví mluvčího | ''{Z'' (žena)'', M ''(muž)''}'' nebo ''Y'' |
| ::: | edu_level | SŠ | nejvyšší dosažené vzdělání | ''{SŠ, VŠ, ZŠ}'' nebo ''Y'' |
| ::: | age | 54 | věk mluvčího |
| ::: | reg_current | středomoravská | nářeční oblast současného pobytu mluvčího | ''{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}'' nebo ''Y'' |
| ::: | proportion | 23 % | procentuální zastoupení řeči mluvčího v rámci celé nahrávky |
| ::: | confederate | ne | informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách | ''{ano, ne}'' |
| ::: | edu_binary | B | vzdělání mluvčího (hrubé rozlišení) | ''{A'' (altus, vysokoškolské včetně pouze započatého)'',B'' (basis, základní a středoškolské)''}'' nebo ''Y'' |
| ::: | age_binary | I | věk mluvčího (hrubé rozlišení) | ''{I'' (iunior, mladší: cca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' |
| ::: | reg_childhood | středomoravská | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}'' nebo ''Y'' |
| ::: | occupation | kvalifikovaný pracovník ve stavebnictví | specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco- | ''{kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač}'' a další |
| ::: | overlap | ano | značí, zda se promluva daného mluvčího nachází v překryvu | ''{ano, ne}'' |
| ::: | //Tyto atributy pod strukturou ''sp'' jsou obsažené pouze v korpusu ORTOFON:// ||||
| ::: | locsize_childhood | město nad 100 tisíc | velikost sídla, kde mluvčí žil do 15 let věku | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' |
| ::: | locsize_longest | město nad 100 tisíc | velikost sídla, kde mluvčí žil nejdelší dobu | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' |
| ::: | locsize_current | město nad 100 tisíc | velikost sídla, kde mluvčí žije v současné době | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' |
| ::: | soundfile | 5/3/ef2e315f.mp3 | číslo a formát nahrávky |
| ::: | id | 3784 | identifikátor segmentu (struktury sp) |
| ::: | edu_field | chemické obory | obor vzdělání | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu |
| ::: | occupation | sociální pracovník |
| ::: | occupation_category | jiný odborný pracovník | specifikace zaměstnání podle [[https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco-|ČZSO]] |
| ::: | loc_childhood | Praha | místo, kde mluvčí žil do 15 let |
| ::: | reg_longest | severovýchodočeská | nářeční oblast, v níž mluvčí žil nejdéle | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' |
| //Nižší hierarchická struktura - obsažená pouze v korpusu ORAL:// |||||
| seg | - | - | nižší technická jednotka členění mluveného textu |
| //Další struktury a atributy jsou obsažené pouze v korpusu ORTOFON:// |||||
| para | type | šeptem | označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem | ''{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}'' |
| pw | - | - | struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) | - |
| overlap | - | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - |
| unclear | - | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - |
==== Strukturní atributy korpusu ORATOR ====
Korpus [[cnk:orator|ORATOR]] obsahuje tyto údaje:
^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^
| doc | id | jednoznačný identifikátor sondy | |
| ::: | year | rok pořízení nahrávky | |
| ::: | location | místo nahrávky | obce ČR |
| ::: | situation | typ situace | ''{ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení}'' |
| ::: | framing | zaměření projevu | ''{oficiální, popularizační, politické, profesní, vědecké}'' |
| ::: | genre | žánr projevu | hodnoty shodné s atributem [[cnk:klasifikace_textu_syn2015?s[]=genre|genre]] u psaných korpusů |
| ::: | audience_present | přítomnost publika | ''{ano, ne}'' |
| ::: | intended_audience | jakému publiku je projev určen | ''{skupina, veřejnost}'' |
| ::: | special | speciální příznak projevu | ''{čtené, pro děti, Y}'' (''Y'' pro projevy bez příznaku) |
| ::: | source | zdroj | ''{vlastní sběr, volně dostupná nahrávka}'' |
| ::: | speakers | počet mluvčích v nahrávce | |
| ::: | length | délka nahrávky v minutách | |
| ::: | tokens | počet všech tokenů v nahrávce | |
| sp | id | identifikátor segmentu | unikátní číslo pro každý segment |
| ::: | nickname | přezdívka mluvčího | náhodně přidělená příjmení |
| ::: | speaker_id | číslo doplňující přezdívku mluvčího | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího|
| ::: | gender | pohlaví | |
| ::: | proportion | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | |
| ::: | soundfile | číslo a formát nahrávky | |
==== Strukturní atributy korpusu DIALEKT ====
Korpus [[cnk:dialekt|DIALEKT]] obsahuje tyto údaje:
^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^
| doc | id | 001-C-SVC-1957-SA | identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky |
| ::: | zdroj | Ústav Českého národního korpusu | zdroj nahrávky | ''{Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně, Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}'' |
| ::: | rok | 1957 | rok pořízení nahrávky | | 195X - blíže neurčený rok v padesátých letech |
| ::: | vrstva | stará | nářeční vrstva | ''{nová, stará}'' |
| ::: | misto | Křečovice | místo pořízení nahrávky | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov) |
| ::: | sidlotyp | městská lokalita | typ sídla | ''{městská lokalita, venkovská lokalita}'' |
| ::: | sidlovelikost | nad 100 tis. | místo pořízení nahrávky - velikost sídla | ''{méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500}'' |
| ::: | stat | Česká republika | místo pořízení nahrávky - stát | ''{Česká republika, Polsko}'' |
| ::: | region | Čechy | místo pořízení nahrávky - region | ''{Čechy, Morava, Slezsko}'' |
| ::: | noblast | středočeská | místo pořízení nahrávky - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
| ::: | npodskupina | jižní (slovácká) | místo pořízení nahrávky - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
| ::: | núsek | západní (opavský) | místo pořízení nahrávky - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
| ::: | ntyp | doudlebský | místo pořízení nahrávky - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
| ::: | okres | Domažlice | místo pořízení nahrávky - okres |
| ::: | promluvatyp | monolog | typ promluvy podle dialogičnosti | ''{dialog, monolog, převážně dialog, převážně monolog}'' |
| ::: | tema | Vánoce | téma promluvy |
| ::: | pocetml | 2 | celkový počet mluvčích v nahrávce |
| ::: | explorator | ano | přítomnost exploratora v nahrávce | ''{ano, ne}'' |
| sp | id | 2533 | identifikátor segmentu (struktury sp) |
| ::: | prezdivka | Dalibor_208 | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví |
| ::: | explorator | ano | mluvčí je/není explorátor | ''{ano, ne}'' |
| ::: | pohlavi | M: muž | pohlaví mluvčího | ''{M: muž, Z: žena}'' |
| ::: | rok | 1877 | rok narození mluvčího |
| ::: | veknum | 85 | věk mluvčího v době pořízení nahrávky | | 5X - věk mezi padesáti a šedesáti lety |
| ::: | vek | V: nad 35 let | věková kategorie užívaná v mluvených korpusech | ''{I: do 35 let, V: nad 35 let}'' |
| ::: | vzdelanitypI | A: vysokoškolské | vzdělání - typ užívaný ve všech mluvených korpusech | ''{A: vysokoškolské, B: základní či střední}'' |
| ::: | vzdelanitypII | ZŠ | vzdělání - typ užívaný v mluvených korpusech řady ORAL | ''{SOU, SŠ, VŠ, ZŠ}'' |
| ::: | profese | cestář | nejdelší zaměstnání mluvčího |
| ::: | mistonej | Stachy | místo nejdelšího pobytu mluvčího | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)|
| ::: | statnej | Česká republika | nejdelší pobyt mluvčího - stát | ''{Česká republika, Polsko}'' |
| ::: | regionnej | Čechy | nejdelší pobyt mluvčího - region | ''{Čechy, Morava, Slezsko}'' |
| ::: | noblastnej | českomoravská | nejdelší pobyt mluvčího - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
| ::: | npodskupinanej | severní (valašská) | nejdelší pobyt mluvčího - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
| ::: | nuseknej | východní (ostravský) | nejdelší pobyt mluvčího - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
| ::: | ntypnej | jemnický | nejdelší pobyt mluvčího - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
| ::: | mistodet | Zápy | místo pobytu mluvčího v dětství (do 15 let) | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)|
| ::: | noblastdet | východomoravská | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
==== Strukturní atributy korpusu Jazyky v migraci ====
Korpus [[cnk:jazyky-v-migraci|Jazyky v migraci]] obsahuje následující údaje:
^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^
| doc | id | A1CS11 | unikátní identifikátor nahrávky | ''<řetězec čísel a velkých písmen>'' |
| ::: | language | cs | hlavní jazyk | ''{cs, de}'' |
| ::: | speakers | 1 | počet mluvčích, vyjma explorátory | ''<číslo>'' |
| ::: | situation_cs | doma | popis situace česky | ''{doma, kancelář, veřejný prostor}'' |
| ::: | situation_de | zu Hause | popis situace německy | ''{Büro, zu Hause, öffentlicher Raum}'' |
| ::: | topics_cs | emigrace%%|%%známí%%|%%škola | témata česky | více možností, vč. multihodnot |
| ::: | topics_de | Auswanderung%%|%%Bekannte%%|%%Schule | témata německy | více možností, vč. multihodnot |
| sp | id | A1CS11:187 | unikátní identifikátor segmentu | '':'' |
| ::: | nickname | Erika B. | přezdívka mluvčího | |
| ::: | gender | F | pohlaví mluvčího | ''{F, M}'' |
| ::: | born | 1956 | rok narození mluvčího | ''<číslo>'' |
| ::: | immigrated | 1968 | rok emigrace mluvčího do Německa | ''<číslo>'' |
| ::: | reg_birth | Liberecký kraj | region narození mluvčího | ''{Hlavní město Praha, Jihočeský kraj, Karlovarský kraj, Královéhradecký kraj, Liberecký kraj, Moravskoslezský kraj, Olomoucký kraj, Plzeňský kraj, západní Čechy, Ústecký kraj}'' |
| ::: | reg_current | Bayern | region současného pobytu mluvčího | ''{Baden-Württemberg, Bayern, Hessen}'' |
| ::: | loctype_birth_cs | venkov | typ místa narození mluvčího česky| ''{město, venkov}'' |
| ::: | loctype_birth_de | ländlich | typ místa narození mluvčího německy | ''{ländlich, städtisch}'' |
| ::: | loctype_current_cs | venkov | typ místa současného pobytu mluvčího česky| ''{město, venkov}'' |
| ::: | loctype_current_de | ländlich | typ místa současného pobytu mluvčího německy | ''{ländlich, städtisch}'' |
| ::: | generation_cs | pozdní vysídlenci | generace mluvčího česky | ''{migranti, pozdní vysídlenci}'' |
| ::: | generation_de | Spätaussiedler:innen | generace mluvčího německy | ''{Migrant:innen, Spätaussiedler:innen}'' |
| ::: | education_cs | VŠ | vzdělání mluvčího česky | ''{SŠ, VŠ}'' |
| ::: | education_de | Hochschulabschluss | vzdělání mluvčího německy | ''{Abitur/Berufsbildende Schule, Hochschulabschluss}'' |
| ::: | langgener_category | PAT%%|%%AA | viz první tabulka [[cnk:jazyky-v-migraci#znackovani|v sekci Značkování v popisu korpusu]] | hodnoty z tabulky jako multihodnoty dle pořadí výskytu v segmentu (mohou se i opakovat) |
| ::: | syntactic_phrase | VP%%|%%NP | viz druhá tabulka [[cnk:jazyky-v-migraci#znackovani|v sekci Značkování v popisu korpusu]] | hodnoty z tabulky jako multihodnoty dle pořadí výskytu v segmentu (mohou se i opakovat) |
| ::: | soundfile | 7/f/66466a1f.mp3 | soubor s odpovídající zvukovou nahrávkou | |
==== Strukturní atributy korpusů ORAL2006, ORAL2008 a ORAL2013 ====
Korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]] a [[cnk:oral2013|ORAL2013]] obsahují následující údaje:
^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^
| doc | id | jednoznačný identifikátor sondy | ''<řetězec čísel a velkých písmen>'' |
| ::: | temp | rok nahrání sondy | např. ''2008'' |
| ::: | pocet | počet mluvčích v sondě | ''<číslo>'' |
| ::: | promluva | typ promluvy | ''N'' (neformální) |
| ::: | //Další atributy pod strukturou ''doc'' jsou obsažené pouze v korpusu ORAL2013:// |||
| ::: | vztah | vztah mezi mluvčími | ''{přátelskost,známost}'' |
| ::: | situace | typ situace, v níž byla nahrávka pořízena | ''{hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}'' |
| sp | num | číselné označení mluvčího **v rámci sondy (doc)** | od ''00'' výš (podle počtu mluvčích, přičemž ''00'' označuje mluvčího, který rozhovor nahrával); možné je i ''Y'' |
| ::: | pohlavi | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y'' |
| ::: | vek | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' |
| ::: | veknum | věk mluvčího (číselně) | ''<číslo>'' |
| ::: | vzdelani | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' |
| ::: | vzdelanityp | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' |
| ::: | oblast | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' |
| ::: | //Další atributy pod strukturou ''sp'' jsou obsažené pouze v korpusu ORAL2013:// |||
| ::: | oznacenishody | jednoznačné označení mluvčího **v rámci celého korpusu** | ''<řetězec malých písmen>'' |
| ::: | prekryv | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' |
| seg | - | nižší hierarchická jednotka členění mluveného textu |
Pozn. Některé atributy mluvených korpusů připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).