Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
seznamy:strukturni_atributy_mluvene [2022/06/07 20:18] – jankrivan | seznamy:strukturni_atributy_mluvene [2022/06/14 11:40] – jankrivan |
---|
===== Strukturní atributy mluvených korpusů ===== | ===== Struktury a strukturní atributy mluvených korpusů ===== |
| |
Některé atributy připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci). | ==== Struktury korpusů mluvené češtiny ==== |
| |
==== Strukturní atributy korpusů ORAL2006, ORAL2008 a ORAL2013 ==== | V korpusech **[[pojmy:mluveny|mluvené]] češtiny** se používají následující strukturní hierarchické jednotky: |
| * **doc** - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor) |
| * **sp** - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího a nesoucí jeho metadata (korpusy ORAL obsahují i nižší jednotku **seg**) |
| |
Korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]] a [[cnk:oral2013|ORAL2013]] obsahují následující strukturní atributy: | Struktuře **sp** se tradičně v textech o mluvených korpusech ČNK říká **promluva**, nicméně s [[http://sas.ujc.cas.cz/archiv.php?art=203|lingvistickým konceptem téhož jména]] nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] lze do velké míry hovořit o tom, že hranice jednotek **sp** odpovídají hranicím **replik**, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek **sp** s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat. |
| |
^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ | ^ Dotaz ^ Vyhodnocení ^ |
| doc | id | jednoznačný identifikátor sondy | ''<řetězec čísel a velkých písmen>'' | | | ''[word=<nowiki>"</nowiki>ne<nowiki>"</nowiki>]</doc>'' | výskyty slova //ne// na konci sondy | |
| ::: | temp | rok nahrání sondy | např. ''2008'' | | | ''<sp> [word=<nowiki>"</nowiki>hm<nowiki>"</nowiki>]'' | výskyty slova //hm// na začátku promluvy | |
| ::: | pocet | počet mluvčích v sondě | ''<číslo>'' | | |
| ::: | promluva | typ promluvy | ''N'' (neformální) | | |
| ::: | //Atributy ''vztah'' a ''situace'' jsou obsažené pouze v korpusu ORAL2013:// ||| | |
| ::: | vztah | vztah mezi mluvčími | ''{přátelskost,známost}'' | | |
| ::: | situace | typ situace, v níž byla nahrávka pořízena | ''{hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}'' | | |
| sp | num | číselné označení mluvčího **v rámci sondy (doc)** | od ''00'' výš (podle počtu mluvčích, přičemž ''00'' označuje mluvčího, který rozhovor nahrával); možné je i ''Y'' | | |
| ::: | pohlavi | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y'' | | |
| ::: | vek | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' | | |
| ::: | veknum | věk mluvčího (číselně) | ''<číslo>'' | | |
| ::: | vzdelani | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' | | |
| ::: | vzdelanityp | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | | |
| ::: | oblast | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | | |
| ::: | //Atributy ''oznacenishody'' a ''prekryv'' jsou obsažené pouze v korpusu ORAL2013:// ||| | |
| ::: | oznacenishody | jednoznačné označení mluvčího **v rámci celého korpusu** | ''<řetězec malých písmen>'' | | |
| ::: | prekryv | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' | | |
| |
=== Atributy korpusu ORTOFON a spojeného korpusu ORAL === | Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy:metadata|metadata]]), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže. Společně s tím uvádíme i další, tzv. nehierarchické struktury, které jsou u některých korpusů použity. |
| |
Korpusy [[cnk:oral|ORAL]] a [[cnk:ortofon|ORTOFON]] obsahují následující údaje k nahrávce: | |
| ==== Strukturní atributy korpusu ORTOFON a spojeného korpusu ORAL ==== |
| |
| Korpusy [[cnk:ortofon|ORTOFON]] a [[cnk:oral|ORAL]] obsahují následující údaje: |
| |
^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ | ^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ |
| ::: | oral | 2006 | označuje korpus, z něhož nahrávka pochází | ''{2006, 2008, 2013, Z}''| | | ::: | oral | 2006 | označuje korpus, z něhož nahrávka pochází | ''{2006, 2008, 2013, Z}''| |
| ::: | number | 2 | počet mluvčích v nahrávce| | | ::: | number | 2 | počet mluvčích v nahrávce| |
| ::: | //Atributy ''generations'' a ''genders'' jsou obsažené pouze v korpusu ORTOFON:// |||| | | ::: | //Tyto atributy pod strukturou ''doc'' jsou obsažené pouze v korpusu ORTOFON:// |||| |
| ::: | generations | 1 | počet generací mluvčích v nahrávce | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd. | | | ::: | generations | 1 | počet generací mluvčích v nahrávce | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd. | |
| ::: | genders | smíšené | |''{jen ženy, jen muži, smíšené}'' | | | ::: | genders | smíšené | |''{jen ženy, jen muži, smíšené}'' | |
| ::: | occupation_category | jiný odborný pracovník | specifikace zaměstnání podle [[https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco-|ČZSO]] | | | ::: | occupation_category | jiný odborný pracovník | specifikace zaměstnání podle [[https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco-|ČZSO]] | |
| ::: | loc_childhood | Praha | místo, kde mluvčí žil do 15 let | | | ::: | loc_childhood | Praha | místo, kde mluvčí žil do 15 let | |
| ::: | reg_longest | severovýchodočeská | nářeční oblast, v níž mluvčí žil nejdéle | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' | | | ::: | reg_longest | severovýchodočeská | nářeční oblast, v níž mluvčí žil nejdéle | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' | |
| Další struktury a atributy jsou obsažené pouze v korpusu ORTOFON:// ||||| | | //Nižší hierarchická struktura - obsažená pouze v korpusu ORAL:// ||||| |
| | seg | - | - | nižší technická jednotka členění mluveného textu | |
| | //Další struktury a atributy jsou obsažené pouze v korpusu ORTOFON:// ||||| |
| para | type | šeptem | označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem | ''{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}'' | | | para | type | šeptem | označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem | ''{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}'' | |
| pw | - | - | struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) | - | | | pw | - | - | struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) | - | |
| **overlap** | - | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - | | | overlap | - | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - | |
| **unclear** | - | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - | | | unclear | - | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - | |
| |
=== Atributy pro korpus DIALEKT === | |
| |
Korpus [[cnk:dialekt|DIALEKT]] obsahuje tyto údaje k nahrávce: | ==== Strukturní atributy korpusu ORATOR ==== |
| |
^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ | Korpus [[cnk:orator|ORATOR]] obsahuje tyto údaje: |
| doc.id | 001-C-SVC-1957-SA | identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky | | |
| doc.zdroj | Ústav Českého národního korpusu | zdroj nahrávky | ''{Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně, Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}'' | | |
| doc.rok | 1957 | rok pořízení nahrávky | | 195X - blíže neurčený rok v padesátých letech | | |
| doc.vrstva | stará | nářeční vrstva | ''{nová, stará}'' | | |
| doc.misto | Křečovice | místo pořízení nahrávky | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov) | | |
| doc.sidlotyp | městská lokalita | typ sídla | ''{městská lokalita, venkovská lokalita}'' | | |
| doc.sidlovelikost | nad 100 tis. | místo pořízení nahrávky - velikost sídla | ''{méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500}'' | | |
| doc.stat | Česká republika | místo pořízení nahrávky - stát | ''{Česká republika, Polsko}'' | | |
| doc.region | Čechy | místo pořízení nahrávky - region | ''{Čechy, Morava, Slezsko}'' | | |
| doc.noblast | středočeská | místo pořízení nahrávky - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| doc.npodskupina | jižní (slovácká) | místo pořízení nahrávky - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| doc.núsek | západní (opavský) | místo pořízení nahrávky - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| doc.ntyp | doudlebský | místo pořízení nahrávky - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| doc.okres | Domažlice | místo pořízení nahrávky - okres | | |
| doc.promluvatyp | monolog | typ promluvy podle dialogičnosti | ''{dialog, monolog, převážně dialog, převážně monolog}'' | | |
| doc.tema | Vánoce | téma promluvy | | |
| doc.pocetml | 2 | celkový počet mluvčích v nahrávce | | |
| doc.explorator | ano | přítomnost exploratora v nahrávce | ''{ano, ne}'' | | |
| |
A tyto údaje k mluvčímu: | ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ |
| | doc | id | jednoznačný identifikátor sondy | | |
| | ::: | year | rok pořízení nahrávky | | |
| | ::: | location | místo nahrávky | obce ČR | |
| | ::: | situation | typ situace | ''{ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení}'' | |
| | ::: | framing | zaměření projevu | ''{oficiální, popularizační, politické, profesní, vědecké}'' | |
| | ::: | genre | žánr projevu | hodnoty shodné s atributem [[cnk:klasifikace_textu_syn2015?s[]=genre|genre]] u psaných korpusů | |
| | ::: | audience_present | přítomnost publika | ''{ano, ne}'' | |
| | ::: | intended_audience | jakému publiku je projev určen | ''{skupina, veřejnost}'' | |
| | ::: | special | speciální příznak projevu | ''{čtené, pro děti, Y}'' (''Y'' pro projevy bez příznaku) | |
| | ::: | source | zdroj | ''{vlastní sběr, volně dostupná nahrávka}'' | |
| | ::: | speakers | počet mluvčích v nahrávce | | |
| | ::: | length | délka nahrávky v minutách | | |
| | ::: | tokens | počet všech tokenů v nahrávce | | |
| | sp | id | identifikátor segmentu | unikátní číslo pro každý segment | |
| | ::: | nickname | přezdívka mluvčího | náhodně přidělená příjmení | |
| | ::: | speaker_id | číslo doplňující přezdívku mluvčího | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího| |
| | ::: | gender | pohlaví | | |
| | ::: | proportion | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | | |
| | ::: | soundfile | číslo a formát nahrávky | | |
| |
^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ | |
| sp.id | 2533 | identifikátor segmentu (struktury sp) | | |
| sp.prezdivka | Dalibor_208 | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví | | |
| sp.explorator | ano | mluvčí je/není explorátor | ''{ano, ne}'' | | |
| sp.pohlavi | M: muž | pohlaví mluvčího | ''{M: muž, Z: žena}'' | | |
| sp.rok | 1877 | rok narození mluvčího | | |
| sp.veknum | 85 | věk mluvčího v době pořízení nahrávky | | 5X - věk mezi padesáti a šedesáti lety | | |
| sp.vek | V: nad 35 let | věková kategorie užívaná v mluvených korpusech | ''{I: do 35 let, V: nad 35 let}'' | | |
| sp.vzdelanitypI | A: vysokoškolské | vzdělání - typ užívaný ve všech mluvených korpusech | ''{A: vysokoškolské, B: základní či střední}'' | | |
| sp.vzdelanitypII | ZŠ | vzdělání - typ užívaný v mluvených korpusech řady ORAL | ''{SOU, SŠ, VŠ, ZŠ}'' | | |
| sp.profese | cestář | nejdelší zaměstnání mluvčího | | |
| sp.mistonej | Stachy | místo nejdelšího pobytu mluvčího | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| | |
| sp.statnej | Česká republika | nejdelší pobyt mluvčího - stát | ''{Česká republika, Polsko}'' | | |
| sp.regionnej | Čechy | nejdelší pobyt mluvčího - region | ''{Čechy, Morava, Slezsko}'' | | |
| sp.noblastnej | českomoravská | nejdelší pobyt mluvčího - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| sp.npodskupinanej | severní (valašská) | nejdelší pobyt mluvčího - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| sp.nuseknej | východní (ostravský) | nejdelší pobyt mluvčího - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| sp.ntypnej | jemnický | nejdelší pobyt mluvčího - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| sp.mistodet | Zápy | místo pobytu mluvčího v dětství (do 15 let) | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| | |
| sp.noblastdet | východomoravská | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| |
=== Atributy pro korpus ORATOR === | ==== Strukturní atributy korpusu DIALEKT ==== |
| |
Korpus [[cnk:orator|ORATOR]] obsahuje tyto údaje k nahrávce: | Korpus [[cnk:dialekt|DIALEKT]] obsahuje tyto údaje: |
| |
^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ | ^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ |
| doc | id | jednoznačný identifikátor sondy | | | | doc | id | 001-C-SVC-1957-SA | identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky | |
| | year | rok pořízení nahrávky | | | | ::: | zdroj | Ústav Českého národního korpusu | zdroj nahrávky | ''{Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně, Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}'' | |
| | location | místo nahrávky | obce ČR | | | ::: | rok | 1957 | rok pořízení nahrávky | | 195X - blíže neurčený rok v padesátých letech | |
| | situation | typ situace | ''ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení'' | | | ::: | vrstva | stará | nářeční vrstva | ''{nová, stará}'' | |
| | framing | zaměření projevu | ''oficiální, popularizační, politické, profesní, vědecké'' | | | ::: | misto | Křečovice | místo pořízení nahrávky | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov) | |
| | genre | žánr projevu | hodnoty shodné s atributem [[cnk:klasifikace_textu_syn2015?s[]=genre|genre]] u psaných korpusů | | | ::: | sidlotyp | městská lokalita | typ sídla | ''{městská lokalita, venkovská lokalita}'' | |
| | audience_present | přítomnost publika | ''ano, ne'' | | | ::: | sidlovelikost | nad 100 tis. | místo pořízení nahrávky - velikost sídla | ''{méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500}'' | |
| | intended_audience | jakému publiku je projev určen | ''skupina, veřejnost'' | | | ::: | stat | Česká republika | místo pořízení nahrávky - stát | ''{Česká republika, Polsko}'' | |
| | special | speciální příznak projevu | ''čtené, pro děti, Y'' (pro projevy bez příznaku) | | | ::: | region | Čechy | místo pořízení nahrávky - region | ''{Čechy, Morava, Slezsko}'' | |
| | source | zdroj | ''vlastní sběr, volně dostupná nahrávka'' | | | ::: | noblast | středočeská | místo pořízení nahrávky - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| | speakers | počet mluvčích v nahrávce | | | | ::: | npodskupina | jižní (slovácká) | místo pořízení nahrávky - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| | length | délka nahrávky v minutách | | | | ::: | núsek | západní (opavský) | místo pořízení nahrávky - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| | tokens | počet všech tokenů v nahrávce | | | | ::: | ntyp | doudlebský | místo pořízení nahrávky - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| | ::: | okres | Domažlice | místo pořízení nahrávky - okres | |
| | ::: | promluvatyp | monolog | typ promluvy podle dialogičnosti | ''{dialog, monolog, převážně dialog, převážně monolog}'' | |
| | ::: | tema | Vánoce | téma promluvy | |
| | ::: | pocetml | 2 | celkový počet mluvčích v nahrávce | |
| | ::: | explorator | ano | přítomnost exploratora v nahrávce | ''{ano, ne}'' | |
| | sp | id | 2533 | identifikátor segmentu (struktury sp) | |
| | ::: | prezdivka | Dalibor_208 | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví | |
| | ::: | explorator | ano | mluvčí je/není explorátor | ''{ano, ne}'' | |
| | ::: | pohlavi | M: muž | pohlaví mluvčího | ''{M: muž, Z: žena}'' | |
| | ::: | rok | 1877 | rok narození mluvčího | |
| | ::: | veknum | 85 | věk mluvčího v době pořízení nahrávky | | 5X - věk mezi padesáti a šedesáti lety | |
| | ::: | vek | V: nad 35 let | věková kategorie užívaná v mluvených korpusech | ''{I: do 35 let, V: nad 35 let}'' | |
| | ::: | vzdelanitypI | A: vysokoškolské | vzdělání - typ užívaný ve všech mluvených korpusech | ''{A: vysokoškolské, B: základní či střední}'' | |
| | ::: | vzdelanitypII | ZŠ | vzdělání - typ užívaný v mluvených korpusech řady ORAL | ''{SOU, SŠ, VŠ, ZŠ}'' | |
| | ::: | profese | cestář | nejdelší zaměstnání mluvčího | |
| | ::: | mistonej | Stachy | místo nejdelšího pobytu mluvčího | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| |
| | ::: | statnej | Česká republika | nejdelší pobyt mluvčího - stát | ''{Česká republika, Polsko}'' | |
| | ::: | regionnej | Čechy | nejdelší pobyt mluvčího - region | ''{Čechy, Morava, Slezsko}'' | |
| | ::: | noblastnej | českomoravská | nejdelší pobyt mluvčího - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| | ::: | npodskupinanej | severní (valašská) | nejdelší pobyt mluvčího - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| | ::: | nuseknej | východní (ostravský) | nejdelší pobyt mluvčího - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| | ::: | ntypnej | jemnický | nejdelší pobyt mluvčího - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| | ::: | mistodet | Zápy | místo pobytu mluvčího v dětství (do 15 let) | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| |
| | ::: | noblastdet | východomoravská | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| |
A tyto údaje k mluvčímu: | |
| |
^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ | ==== Strukturní atributy korpusů ORAL2006, ORAL2008 a ORAL2013 ==== |
| sp | id | identifikátor segmentu | unikátní číslo pro každý segment | | |
| | nickname | přezdívka mluvčího | náhodně přidělená příjmení | | Korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]] a [[cnk:oral2013|ORAL2013]] obsahují následující údaje: |
| | speaker_id | číslo doplňující přezdívku mluvčího | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího| | |
| | gender | pohlaví | | | ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ |
| | proportion | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | | | | doc | id | jednoznačný identifikátor sondy | ''<řetězec čísel a velkých písmen>'' | |
| | soundfile | číslo a formát nahrávky | | | | ::: | temp | rok nahrání sondy | např. ''2008'' | |
| | ::: | pocet | počet mluvčích v sondě | ''<číslo>'' | |
| | ::: | promluva | typ promluvy | ''N'' (neformální) | |
| | ::: | //Další atributy pod strukturou ''doc'' jsou obsažené pouze v korpusu ORAL2013:// ||| |
| | ::: | vztah | vztah mezi mluvčími | ''{přátelskost,známost}'' | |
| | ::: | situace | typ situace, v níž byla nahrávka pořízena | ''{hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}'' | |
| | sp | num | číselné označení mluvčího **v rámci sondy (doc)** | od ''00'' výš (podle počtu mluvčích, přičemž ''00'' označuje mluvčího, který rozhovor nahrával); možné je i ''Y'' | |
| | ::: | pohlavi | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y'' | |
| | ::: | vek | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' | |
| | ::: | veknum | věk mluvčího (číselně) | ''<číslo>'' | |
| | ::: | vzdelani | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' | |
| | ::: | vzdelanityp | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | |
| | ::: | oblast | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | |
| | ::: | //Další atributy pod strukturou ''sp'' jsou obsažené pouze v korpusu ORAL2013:// ||| |
| | ::: | oznacenishody | jednoznačné označení mluvčího **v rámci celého korpusu** | ''<řetězec malých písmen>'' | |
| | ::: | prekryv | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' | |
| | seg | - | nižší hierarchická jednotka členění mluveného textu | |
| |
| Pozn. Některé atributy mluvených korpusů připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci). |
| |