===== Struktury a strukturní atributy mluvených korpusů ===== ==== Struktury korpusů mluvené češtiny ==== V korpusech **[[pojmy:mluveny|mluvené]] češtiny** se používají následující strukturní hierarchické jednotky: * **doc** - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor) * **sp** - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího a nesoucí jeho metadata (korpusy ORAL obsahují i nižší jednotku **seg**) Struktuře **sp** se tradičně v textech o mluvených korpusech ČNK říká **promluva**, nicméně s [[http://sas.ujc.cas.cz/archiv.php?art=203|lingvistickým konceptem téhož jména]] nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] lze do velké míry hovořit o tom, že hranice jednotek **sp** odpovídají hranicím **replik**, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek **sp** s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat. ^ Dotaz ^ Vyhodnocení ^ | ''[word="ne"]'' | výskyty slova //ne// na konci sondy | | '' [word="hmm"]'' | výskyty slova //hmm// na začátku promluvy | Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy:metadata|metadata]]), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže. Společně s tím uvádíme i další, tzv. nehierarchické struktury, které jsou u některých korpusů použity. ==== Strukturní atributy korpusu ORTOFON a spojeného korpusu ORAL ==== Korpusy [[cnk:ortofon|ORTOFON]] a [[cnk:oral|ORAL]] obsahují následující údaje: ^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ | doc | id | 06H080N | identifikační označení nahrávky - první dvojčíslí uvádí rok pořízení, písmeno na konci značí neformální (N) či formální situaci (F) | ''<řetězec čísel a velkých písmen>'' | | ::: | month | březen | měsíc pořízení nahrávky | ''<řetězec malých písmen>'' | | ::: | speakers | 5 | počet všech mluvčích v nahrávce | ''<číslo>'' | | ::: | formality | neformální | neformální situace (pozn.: v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (''N'' pro neformální, ''F'' pro formální)) | ''{neformální, formální}'' | | ::: | preparedness | nepřipravená | označení, zda byl rozhovor předem připraven, či ne (pozn.: souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak) | ''{připravená, nepřipravená}'' | | ::: | audio | ne | informace, zda je k transkriptu dostupný zvuk (pozn.: nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano) | ''{ano, ne}''| | ::: | year | 2006 | rok pořízení nahrávky | | ::: | location | Praha | místo pořízení nahrávky | | ::: | relationship | přátelský | vztah mluvčích v nahrávce (pozn.: pod označení přátelský jsou zařazeny i rodinné vztahy) | ''{přátelský, znají se, neznají se}'' | | ::: | situation | návštěva | označení, za jaké situace k hovoru došlo | ''{návštěva, rozhovor doma, rozhovor u jídla doma, restaurace, oslava, posezení na zahradě}'' a další | | ::: | tokens | 9008 | počet všech tokenů v nahrávce | | ::: | oral | 2006 | označuje korpus, z něhož nahrávka pochází | ''{2006, 2008, 2013, Z}''| | ::: | number | 2 | počet mluvčích v nahrávce| | ::: | //Tyto atributy pod strukturou ''doc'' jsou obsažené pouze v korpusu ORTOFON:// |||| | ::: | generations | 1 | počet generací mluvčích v nahrávce | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd. | | ::: | genders | smíšené | |''{jen ženy, jen muži, smíšené}'' | | sp | nickname | Milena_2633 | automaticky přiřazená přezdívka | | ::: | gender | M | pohlaví mluvčího | ''{Z'' (žena)'', M ''(muž)''}'' nebo ''Y'' | | ::: | edu_level | SŠ | nejvyšší dosažené vzdělání | ''{SŠ, VŠ, ZŠ}'' nebo ''Y'' | | ::: | age | 54 | věk mluvčího | | ::: | reg_current | středomoravská | nářeční oblast současného pobytu mluvčího | ''{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}'' nebo ''Y'' | | ::: | proportion | 23 % | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | | ::: | confederate | ne | informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách | ''{ano, ne}'' | | ::: | edu_binary | B | vzdělání mluvčího (hrubé rozlišení) | ''{A'' (altus, vysokoškolské včetně pouze započatého)'',B'' (basis, základní a středoškolské)''}'' nebo ''Y'' | | ::: | age_binary | I | věk mluvčího (hrubé rozlišení) | ''{I'' (iunior, mladší: cca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' | | ::: | reg_childhood | středomoravská | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}'' nebo ''Y'' | | ::: | occupation | kvalifikovaný pracovník ve stavebnictví | specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco- | ''{kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač}'' a další | | ::: | overlap | ano | značí, zda se promluva daného mluvčího nachází v překryvu | ''{ano, ne}'' | | ::: | //Tyto atributy pod strukturou ''sp'' jsou obsažené pouze v korpusu ORTOFON:// |||| | ::: | locsize_childhood | město nad 100 tisíc | velikost sídla, kde mluvčí žil do 15 let věku | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | | ::: | locsize_longest | město nad 100 tisíc | velikost sídla, kde mluvčí žil nejdelší dobu | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | | ::: | locsize_current | město nad 100 tisíc | velikost sídla, kde mluvčí žije v současné době | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | | ::: | soundfile | 5/3/ef2e315f.mp3 | číslo a formát nahrávky | | ::: | id | 3784 | identifikátor segmentu (struktury sp) | | ::: | edu_field | chemické obory | obor vzdělání | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu | | ::: | occupation | sociální pracovník | | ::: | occupation_category | jiný odborný pracovník | specifikace zaměstnání podle [[https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco-|ČZSO]] | | ::: | loc_childhood | Praha | místo, kde mluvčí žil do 15 let | | ::: | reg_longest | severovýchodočeská | nářeční oblast, v níž mluvčí žil nejdéle | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' | | //Nižší hierarchická struktura - obsažená pouze v korpusu ORAL:// ||||| | seg | - | - | nižší technická jednotka členění mluveného textu | | //Další struktury a atributy jsou obsažené pouze v korpusu ORTOFON:// ||||| | para | type | šeptem | označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem | ''{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}'' | | pw | - | - | struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) | - | | overlap | - | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - | | unclear | - | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - | ==== Strukturní atributy korpusu ORATOR ==== Korpus [[cnk:orator|ORATOR]] obsahuje tyto údaje: ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ | doc | id | jednoznačný identifikátor sondy | | | ::: | year | rok pořízení nahrávky | | | ::: | location | místo nahrávky | obce ČR | | ::: | situation | typ situace | ''{ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení}'' | | ::: | framing | zaměření projevu | ''{oficiální, popularizační, politické, profesní, vědecké}'' | | ::: | genre | žánr projevu | hodnoty shodné s atributem [[cnk:klasifikace_textu_syn2015?s[]=genre|genre]] u psaných korpusů | | ::: | audience_present | přítomnost publika | ''{ano, ne}'' | | ::: | intended_audience | jakému publiku je projev určen | ''{skupina, veřejnost}'' | | ::: | special | speciální příznak projevu | ''{čtené, pro děti, Y}'' (''Y'' pro projevy bez příznaku) | | ::: | source | zdroj | ''{vlastní sběr, volně dostupná nahrávka}'' | | ::: | speakers | počet mluvčích v nahrávce | | | ::: | length | délka nahrávky v minutách | | | ::: | tokens | počet všech tokenů v nahrávce | | | sp | id | identifikátor segmentu | unikátní číslo pro každý segment | | ::: | nickname | přezdívka mluvčího | náhodně přidělená příjmení | | ::: | speaker_id | číslo doplňující přezdívku mluvčího | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího| | ::: | gender | pohlaví | | | ::: | proportion | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | | | ::: | soundfile | číslo a formát nahrávky | | ==== Strukturní atributy korpusu DIALEKT ==== Korpus [[cnk:dialekt|DIALEKT]] obsahuje tyto údaje: ^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ | doc | id | 001-C-SVC-1957-SA | identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky | | ::: | zdroj | Ústav Českého národního korpusu | zdroj nahrávky | ''{Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně, Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}'' | | ::: | rok | 1957 | rok pořízení nahrávky | | 195X - blíže neurčený rok v padesátých letech | | ::: | vrstva | stará | nářeční vrstva | ''{nová, stará}'' | | ::: | misto | Křečovice | místo pořízení nahrávky | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov) | | ::: | sidlotyp | městská lokalita | typ sídla | ''{městská lokalita, venkovská lokalita}'' | | ::: | sidlovelikost | nad 100 tis. | místo pořízení nahrávky - velikost sídla | ''{méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500}'' | | ::: | stat | Česká republika | místo pořízení nahrávky - stát | ''{Česká republika, Polsko}'' | | ::: | region | Čechy | místo pořízení nahrávky - region | ''{Čechy, Morava, Slezsko}'' | | ::: | noblast | středočeská | místo pořízení nahrávky - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | ::: | npodskupina | jižní (slovácká) | místo pořízení nahrávky - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | ::: | núsek | západní (opavský) | místo pořízení nahrávky - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | ::: | ntyp | doudlebský | místo pořízení nahrávky - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | ::: | okres | Domažlice | místo pořízení nahrávky - okres | | ::: | promluvatyp | monolog | typ promluvy podle dialogičnosti | ''{dialog, monolog, převážně dialog, převážně monolog}'' | | ::: | tema | Vánoce | téma promluvy | | ::: | pocetml | 2 | celkový počet mluvčích v nahrávce | | ::: | explorator | ano | přítomnost exploratora v nahrávce | ''{ano, ne}'' | | sp | id | 2533 | identifikátor segmentu (struktury sp) | | ::: | prezdivka | Dalibor_208 | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví | | ::: | explorator | ano | mluvčí je/není explorátor | ''{ano, ne}'' | | ::: | pohlavi | M: muž | pohlaví mluvčího | ''{M: muž, Z: žena}'' | | ::: | rok | 1877 | rok narození mluvčího | | ::: | veknum | 85 | věk mluvčího v době pořízení nahrávky | | 5X - věk mezi padesáti a šedesáti lety | | ::: | vek | V: nad 35 let | věková kategorie užívaná v mluvených korpusech | ''{I: do 35 let, V: nad 35 let}'' | | ::: | vzdelanitypI | A: vysokoškolské | vzdělání - typ užívaný ve všech mluvených korpusech | ''{A: vysokoškolské, B: základní či střední}'' | | ::: | vzdelanitypII | ZŠ | vzdělání - typ užívaný v mluvených korpusech řady ORAL | ''{SOU, SŠ, VŠ, ZŠ}'' | | ::: | profese | cestář | nejdelší zaměstnání mluvčího | | ::: | mistonej | Stachy | místo nejdelšího pobytu mluvčího | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| | ::: | statnej | Česká republika | nejdelší pobyt mluvčího - stát | ''{Česká republika, Polsko}'' | | ::: | regionnej | Čechy | nejdelší pobyt mluvčího - region | ''{Čechy, Morava, Slezsko}'' | | ::: | noblastnej | českomoravská | nejdelší pobyt mluvčího - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | ::: | npodskupinanej | severní (valašská) | nejdelší pobyt mluvčího - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | ::: | nuseknej | východní (ostravský) | nejdelší pobyt mluvčího - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | ::: | ntypnej | jemnický | nejdelší pobyt mluvčího - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | ::: | mistodet | Zápy | místo pobytu mluvčího v dětství (do 15 let) | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| | ::: | noblastdet | východomoravská | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | ==== Strukturní atributy korpusu Jazyky v migraci ==== Korpus [[cnk:jazyky-v-migraci|Jazyky v migraci]] obsahuje následující údaje: ^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ | doc | id | A1CS11 | unikátní identifikátor nahrávky | ''<řetězec čísel a velkých písmen>'' | | ::: | language | cs | hlavní jazyk | ''{cs, de}'' | | ::: | speakers | 1 | počet mluvčích, vyjma explorátory | ''<číslo>'' | | ::: | situation_cs | doma | popis situace česky | ''{doma, kancelář, veřejný prostor}'' | | ::: | situation_de | zu Hause | popis situace německy | ''{Büro, zu Hause, öffentlicher Raum}'' | | ::: | topics_cs | emigrace%%|%%známí%%|%%škola | témata česky | více možností, vč. multihodnot | | ::: | topics_de | Auswanderung%%|%%Bekannte%%|%%Schule | témata německy | více možností, vč. multihodnot | | sp | id | A1CS11:187 | unikátní identifikátor segmentu | '':'' | | ::: | nickname | Erika B. | přezdívka mluvčího | | | ::: | gender | F | pohlaví mluvčího | ''{F, M}'' | | ::: | born | 1956 | rok narození mluvčího | ''<číslo>'' | | ::: | immigrated | 1968 | rok emigrace mluvčího do Německa | ''<číslo>'' | | ::: | reg_birth | Liberecký kraj | region narození mluvčího | ''{Hlavní město Praha, Jihočeský kraj, Karlovarský kraj, Královéhradecký kraj, Liberecký kraj, Moravskoslezský kraj, Olomoucký kraj, Plzeňský kraj, západní Čechy, Ústecký kraj}'' | | ::: | reg_current | Bayern | region současného pobytu mluvčího | ''{Baden-Württemberg, Bayern, Hessen}'' | | ::: | loctype_birth_cs | venkov | typ místa narození mluvčího česky| ''{město, venkov}'' | | ::: | loctype_birth_de | ländlich | typ místa narození mluvčího německy | ''{ländlich, städtisch}'' | | ::: | loctype_current_cs | venkov | typ místa současného pobytu mluvčího česky| ''{město, venkov}'' | | ::: | loctype_current_de | ländlich | typ místa současného pobytu mluvčího německy | ''{ländlich, städtisch}'' | | ::: | generation_cs | pozdní vysídlenci | generace mluvčího česky | ''{migranti, pozdní vysídlenci}'' | | ::: | generation_de | Spätaussiedler:innen | generace mluvčího německy | ''{Migrant:innen, Spätaussiedler:innen}'' | | ::: | education_cs | VŠ | vzdělání mluvčího česky | ''{SŠ, VŠ}'' | | ::: | education_de | Hochschulabschluss | vzdělání mluvčího německy | ''{Abitur/Berufsbildende Schule, Hochschulabschluss}'' | | ::: | langgener_category | PAT%%|%%AA | viz první tabulka [[cnk:jazyky-v-migraci#znackovani|v sekci Značkování v popisu korpusu]] | hodnoty z tabulky jako multihodnoty dle pořadí výskytu v segmentu (mohou se i opakovat) | | ::: | syntactic_phrase | VP%%|%%NP | viz druhá tabulka [[cnk:jazyky-v-migraci#znackovani|v sekci Značkování v popisu korpusu]] | hodnoty z tabulky jako multihodnoty dle pořadí výskytu v segmentu (mohou se i opakovat) | | ::: | soundfile | 7/f/66466a1f.mp3 | soubor s odpovídající zvukovou nahrávkou | | ==== Strukturní atributy korpusů ORAL2006, ORAL2008 a ORAL2013 ==== Korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]] a [[cnk:oral2013|ORAL2013]] obsahují následující údaje: ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ | doc | id | jednoznačný identifikátor sondy | ''<řetězec čísel a velkých písmen>'' | | ::: | temp | rok nahrání sondy | např. ''2008'' | | ::: | pocet | počet mluvčích v sondě | ''<číslo>'' | | ::: | promluva | typ promluvy | ''N'' (neformální) | | ::: | //Další atributy pod strukturou ''doc'' jsou obsažené pouze v korpusu ORAL2013:// ||| | ::: | vztah | vztah mezi mluvčími | ''{přátelskost,známost}'' | | ::: | situace | typ situace, v níž byla nahrávka pořízena | ''{hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}'' | | sp | num | číselné označení mluvčího **v rámci sondy (doc)** | od ''00'' výš (podle počtu mluvčích, přičemž ''00'' označuje mluvčího, který rozhovor nahrával); možné je i ''Y'' | | ::: | pohlavi | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y'' | | ::: | vek | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' | | ::: | veknum | věk mluvčího (číselně) | ''<číslo>'' | | ::: | vzdelani | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' | | ::: | vzdelanityp | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | | ::: | oblast | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | | ::: | //Další atributy pod strukturou ''sp'' jsou obsažené pouze v korpusu ORAL2013:// ||| | ::: | oznacenishody | jednoznačné označení mluvčího **v rámci celého korpusu** | ''<řetězec malých písmen>'' | | ::: | prekryv | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' | | seg | - | nižší hierarchická jednotka členění mluveného textu | Pozn. Některé atributy mluvených korpusů připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).