AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
seznamy:strukturni_atributy_mluvene [2022/06/07 20:37] – [Strukturní atributy korpusu ORATOR] jankrivanseznamy:strukturni_atributy_mluvene [2023/02/24 17:08] lukes
Řádek 1: Řádek 1:
-===== Strukturní atributy mluvených korpusů =====+===== Struktury a strukturní atributy mluvených korpusů =====
  
-Některé atributy připouštějí hodnotu ''Y'', která značí, žúdaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).+==== Struktury korpusů mluvené češtiny ====
  
-=== Atributy korpusu ORTOFON spojeného korpusu ORAL ===+V korpusech **[[pojmy:mluveny|mluvené]] češtiny** se používají následující strukturní hierarchické jednotky: 
 +  * **doc** - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor) 
 +  * **sp** - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího nesoucí jeho metadata (korpusy ORAL obsahují i nižší jednotku **seg**)
  
-Korpusy [[cnk:oral|ORAL]] a [[cnk:ortofon|ORTOFON]] obsahují následující údaje:+Struktuře **sp** se tradičně v textech o mluvených korpusech ČNK říká **promluva**, nicméně s [[http://sas.ujc.cas.cz/archiv.php?art=203|lingvistickým konceptem téhož jména]] nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] lze do velké míry hovořit o tom, že hranice jednotek **sp** odpovídají hranicím **replik**, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek **sp** s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat. 
 + 
 +^ Dotaz ^ Vyhodnocení ^ 
 +| ''[word=<nowiki>"</nowiki>ne<nowiki>"</nowiki>]</doc>'' | výskyty slova //ne// na konci sondy | 
 +| ''<sp> [word=<nowiki>"</nowiki>hmm<nowiki>"</nowiki>]'' | výskyty slova //hmm// na začátku promluvy | 
 + 
 +Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy:metadata|metadata]]), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže. Společně s tím uvádíme i další, tzv. nehierarchické struktury, které jsou u některých korpusů použity. 
 + 
 + 
 +==== Strukturní atributy korpusu ORTOFON a spojeného korpusu ORAL ==== 
 + 
 +Korpusy [[cnk:ortofon|ORTOFON]] a [[cnk:oral|ORAL]] obsahují následující údaje:
  
 ^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ ^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^
Řádek 21: Řádek 34:
 | ::: | oral          | 2006         | označuje korpus, z něhož nahrávka pochází | ''{2006, 2008, 2013, Z}''| | ::: | oral          | 2006         | označuje korpus, z něhož nahrávka pochází | ''{2006, 2008, 2013, Z}''|
 | ::: | number        | 2            | počet mluvčích v nahrávce| | ::: | number        | 2            | počet mluvčích v nahrávce|
-| ::: | //Atributy ''generations'' a ''genders'' jsou obsažené pouze v korpusu ORTOFON:// ||||+| ::: | //Tyto atributy pod strukturou ''doc'' jsou obsažené pouze v korpusu ORTOFON:// ||||
 | ::: | generations        | 1  | počet generací mluvčích v nahrávce  | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd.  | | ::: | generations        | 1  | počet generací mluvčích v nahrávce  | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd.  |
 | ::: | genders            | smíšené  | |''{jen ženy, jen muži, smíšené}''  | | ::: | genders            | smíšené  | |''{jen ženy, jen muži, smíšené}''  |
Řádek 47: Řádek 60:
 | ::: | loc_childhood      | Praha  | místo, kde mluvčí žil do 15 let  | | ::: | loc_childhood      | Praha  | místo, kde mluvčí žil do 15 let  |
 | ::: | reg_longest        | severovýchodočeská  | nářeční oblast, v níž mluvčí žil nejdéle  | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' | | ::: | reg_longest        | severovýchodočeská  | nářeční oblast, v níž mluvčí žil nejdéle  | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' |
 +| //Nižší hierarchická struktura - obsažená pouze v korpusu ORAL:// |||||
 +| seg | - | - | nižší technická jednotka členění mluveného textu |
 | //Další struktury a atributy jsou obsažené pouze v korpusu ORTOFON:// ||||| | //Další struktury a atributy jsou obsažené pouze v korpusu ORTOFON:// |||||
 | para   | type               | šeptem  | označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem  | ''{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}''  | | para   | type               | šeptem  | označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem  | ''{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}''  |
Řádek 52: Řádek 67:
 | overlap | - | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - |  | overlap | - | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - | 
 | unclear | - | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - |  | unclear | - | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - | 
 +
 +
 +==== Strukturní atributy korpusu ORATOR ====
 +
 +Korpus [[cnk:orator|ORATOR]] obsahuje tyto údaje:
 +
 +^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^
 +| doc | id                | jednoznačný identifikátor sondy | |
 +| ::: | year              | rok pořízení nahrávky           | |
 +| ::: | location          | místo nahrávky                  | obce ČR |
 +| ::: | situation         | typ situace | ''{ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení}'' |
 +| ::: | framing           | zaměření projevu                | ''{oficiální, popularizační, politické, profesní, vědecké}'' |
 +| ::: | genre             | žánr projevu                    | hodnoty shodné s atributem [[cnk:klasifikace_textu_syn2015?s[]=genre|genre]] u psaných korpusů |
 +| ::: | audience_present  | přítomnost publika              | ''{ano, ne}'' |
 +| ::: | intended_audience | jakému publiku je projev určen  | ''{skupina, veřejnost}'' |
 +| ::: | special           | speciální příznak projevu       | ''{čtené, pro děti, Y}'' (''Y'' pro projevy bez příznaku) |
 +| ::: | source            | zdroj                           | ''{vlastní sběr, volně dostupná nahrávka}'' |
 +| ::: | speakers          | počet mluvčích v nahrávce       | |
 +| ::: | length            | délka nahrávky v minutách       | |
 +| ::: | tokens            | počet všech tokenů v nahrávce   | |
 +| sp | id          | identifikátor segmentu                                      | unikátní číslo pro každý segment |
 +| ::: | nickname    | přezdívka mluvčího                                          | náhodně přidělená příjmení |
 +| ::: | speaker_id  | číslo doplňující přezdívku mluvčího                         | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího|
 +| ::: | gender      | pohlaví                                                      |
 +| ::: | proportion  | procentuální zastoupení řeči mluvčího v rámci celé nahrávky |  |
 +| ::: | soundfile   | číslo a formát nahrávky                                      |
 +
 +
 +==== Strukturní atributy korpusu DIALEKT ====
 +
 +Korpus [[cnk:dialekt|DIALEKT]] obsahuje tyto údaje:
 +
 +^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^
 +| doc | id          | 001-C-SVC-1957-SA               | identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky |
 +| ::: | zdroj       | Ústav Českého národního korpusu | zdroj nahrávky | ''{Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně,  Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}'' |
 +| ::: | rok         | 1957                            | rok pořízení nahrávky | | 195X - blíže neurčený rok v padesátých letech |
 +| ::: | vrstva      | stará                           | nářeční vrstva | ''{nová, stará}'' |
 +| ::: | misto       | Křečovice                       | místo pořízení nahrávky | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov) |
 +| ::: | sidlotyp    | městská lokalita                | typ sídla | ''{městská lokalita, venkovská lokalita}'' |
 +| ::: | sidlovelikost | nad 100 tis. | místo pořízení nahrávky - velikost sídla | ''{méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500}'' |
 +| ::: | stat        | Česká republika                 | místo pořízení nahrávky - stát | ''{Česká republika, Polsko}'' |
 +| ::: | region      | Čechy                           | místo pořízení nahrávky - region | ''{Čechy, Morava, Slezsko}'' |
 +| ::: | noblast     | středočeská                     | místo pořízení nahrávky - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
 +| ::: | npodskupina | jižní (slovácká)                | místo pořízení nahrávky - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
 +| ::: | núsek       | západní (opavský)               | místo pořízení nahrávky - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
 +| ::: | ntyp        | doudlebský                      | místo pořízení nahrávky - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
 +| ::: | okres       | Domažlice                       | místo pořízení nahrávky - okres |
 +| ::: | promluvatyp | monolog                         | typ promluvy podle dialogičnosti | ''{dialog, monolog, převážně dialog, převážně monolog}'' |
 +| ::: | tema        | Vánoce                          | téma promluvy |
 +| ::: | pocetml     | 2                               | celkový počet mluvčích v nahrávce |
 +| ::: | explorator  | ano                             | přítomnost exploratora v nahrávce | ''{ano, ne}'' |
 +| sp  | id             | 2533                 | identifikátor segmentu (struktury sp) |
 +| ::: | prezdivka      | Dalibor_208          | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví |
 +| ::: | explorator     | ano                  | mluvčí je/není explorátor | ''{ano, ne}'' |
 +| ::: | pohlavi        | M: muž               | pohlaví mluvčího | ''{M: muž, Z: žena}'' |
 +| ::: | rok            | 1877                 | rok narození mluvčího |
 +| ::: | veknum         | 85                   | věk mluvčího v době pořízení nahrávky | | 5X - věk mezi padesáti a šedesáti lety |
 +| ::: | vek            | V: nad 35 let        | věková kategorie užívaná v mluvených korpusech | ''{I: do 35 let, V: nad 35 let}'' |
 +| ::: | vzdelanitypI   | A: vysokoškolské     | vzdělání - typ užívaný ve všech mluvených korpusech | ''{A: vysokoškolské, B: základní či střední}'' |
 +| ::: | vzdelanitypII  | ZŠ                   | vzdělání - typ užívaný v mluvených korpusech řady ORAL | ''{SOU, SŠ, VŠ, ZŠ}'' |
 +| ::: | profese        | cestář               | nejdelší zaměstnání mluvčího |
 +| ::: | mistonej       | Stachy               | místo nejdelšího pobytu mluvčího | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)|
 +| ::: | statnej        | Česká republika      | nejdelší pobyt mluvčího - stát | ''{Česká republika, Polsko}'' |
 +| ::: | regionnej      | Čechy                | nejdelší pobyt mluvčího - region | ''{Čechy, Morava, Slezsko}'' |
 +| ::: | noblastnej     | českomoravská        | nejdelší pobyt mluvčího - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
 +| ::: | npodskupinanej | severní (valašská)   | nejdelší pobyt mluvčího - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
 +| ::: | nuseknej       | východní (ostravský) | nejdelší pobyt mluvčího - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
 +| ::: | ntypnej        | jemnický             | nejdelší pobyt mluvčího - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
 +| ::: | mistodet       | Zápy                 | místo pobytu mluvčího v dětství (do 15 let) | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)|
 +| ::: | noblastdet     | východomoravská      | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
 +
  
 ==== Strukturní atributy korpusů ORAL2006, ORAL2008 a ORAL2013 ==== ==== Strukturní atributy korpusů ORAL2006, ORAL2008 a ORAL2013 ====
  
-Korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]] a [[cnk:oral2013|ORAL2013]] obsahují následující strukturní atributy:+Korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]] a [[cnk:oral2013|ORAL2013]] obsahují následující údaje:
  
 ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^
Řádek 62: Řádek 148:
 | ::: | pocet         | počet mluvčích v sondě | ''<číslo>'' | | ::: | pocet         | počet mluvčích v sondě | ''<číslo>'' |
 | ::: | promluva      | typ promluvy | ''N'' (neformální) | | ::: | promluva      | typ promluvy | ''N'' (neformální) |
-| ::: | //Atributy ''vztah'' a ''situace'' jsou obsažené pouze v korpusu ORAL2013:// |||+| ::: | //Další atributy pod strukturou ''doc'' jsou obsažené pouze v korpusu ORAL2013:// |||
 | ::: | vztah         | vztah mezi mluvčími | ''{přátelskost,známost}'' | | ::: | vztah         | vztah mezi mluvčími | ''{přátelskost,známost}'' |
 | ::: | situace       | typ situace, v níž byla nahrávka pořízena | ''{hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}'' | | ::: | situace       | typ situace, v níž byla nahrávka pořízena | ''{hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}'' |
Řádek 72: Řádek 158:
 | ::: | vzdelanityp   | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | | ::: | vzdelanityp   | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' |
 | ::: | oblast        | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | | ::: | oblast        | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' |
-| ::: | //Atributy ''oznacenishody'' a ''prekryv'' jsou obsažené pouze v korpusu ORAL2013:// |||+| ::: | //Další atributy pod strukturou ''sp'' jsou obsažené pouze v korpusu ORAL2013:// |||
 | ::: | oznacenishody | jednoznačné označení mluvčího **v rámci celého korpusu** | ''<řetězec malých písmen>'' | | ::: | oznacenishody | jednoznačné označení mluvčího **v rámci celého korpusu** | ''<řetězec malých písmen>'' |
 | ::: | prekryv       | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' | | ::: | prekryv       | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' |
 +| seg | - | nižší hierarchická jednotka členění mluveného textu |
  
-==== Strukturní atributy korpusu DIALEKT ====+Pozn. Některé atributy mluvených korpusů připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).
  
-Korpus [[cnk:dialekt|DIALEKT]] obsahuje tyto údaje:+==== Strukturní atributy korpusu Jazyky v migraci ====
  
-^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ +Korpus [[cnk:jazyky-v-migraci|Jazyky migraci]] obsahuje následující údaje:
-| doc.id          | 001-C-SVC-1957-SA               | identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky | +
-| doc.zdroj       | Ústav Českého národního korpusu | zdroj nahrávky | ''{Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF Českých Budějovicích, Universitní sběr nahrávek MU FF v Brně,  Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}'' | +
-| doc.rok         | 1957                            | rok pořízení nahrávky | | 195X - blíže neurčený rok padesátých letech | +
-| doc.vrstva      | stará                           | nářeční vrstva | ''{nová, stará}''+
-| doc.misto       | Křečovice                       | místo pořízení nahrávky | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov) | +
-| doc.sidlotyp    | městská lokalita                | typ sídla | ''{městská lokalita, venkovská lokalita}''+
-| doc.sidlovelikost | nad 100 tis. | místo pořízení nahrávky - velikost sídla | ''{méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500}''+
-| doc.stat        | Česká republika                 | místo pořízení nahrávky - stát | ''{Česká republika, Polsko}''+
-| doc.region      | Čechy                           | místo pořízení nahrávky - region | ''{Čechy, Morava, Slezsko}''+
-| doc.noblast     | středočeská                     | místo pořízení nahrávky - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
-| doc.npodskupina | jižní (slovácká)                | místo pořízení nahrávky - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
-| doc.núsek       | západní (opavský)               | místo pořízení nahrávky - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
-| doc.ntyp        | doudlebský                      | místo pořízení nahrávky - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
-| doc.okres       | Domažlice                       | místo pořízení nahrávky - okres | +
-| doc.promluvatyp | monolog                         | typ promluvy podle dialogičnosti | ''{dialog, monolog, převážně dialog, převážně monolog}''+
-| doc.tema        | Vánoce                          | téma promluvy | +
-| doc.pocetml     | 2                               | celkový počet mluvčích v nahrávce | +
-| doc.explorator  | ano                             | přítomnost exploratora v nahrávce | ''{ano, ne}''+
-| sp.id             | 2533                 | identifikátor segmentu (struktury sp) | +
-| sp.prezdivka      | Dalibor_208          | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví | +
-| sp.explorator     | ano                  | mluvčí je/není explorátor | ''{ano, ne}''+
-| sp.pohlavi        | Mmuž               | pohlaví mluvčího | ''{M: muž, Z: žena}''+
-| sp.rok            | 1877                 | rok narození mluvčího | +
-| sp.veknum         | 85                   | věk mluvčího v době pořízení nahrávky | | 5X - věk mezi padesáti a šedesáti lety | +
-| sp.vek            | V: nad 35 let        | věková kategorie užívaná v mluvených korpusech | ''{I: do 35 let, V: nad 35 let}''+
-| sp.vzdelanitypI   | A: vysokoškolské     | vzdělání - typ užívaný ve všech mluvených korpusech | ''{A: vysokoškolské, B: základní či střední}''+
-| sp.vzdelanitypII  | ZŠ                   | vzdělání - typ užívaný v mluvených korpusech řady ORAL | ''{SOU, SŠ, VŠ, ZŠ}''+
-| sp.profese        | cestář               | nejdelší zaměstnání mluvčího | +
-| sp.mistonej       | Stachy               | místo nejdelšího pobytu mluvčího | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| +
-| sp.statnej        | Česká republika      | nejdelší pobyt mluvčího - stát | ''{Česká republika, Polsko}''+
-| sp.regionnej      | Čechy                | nejdelší pobyt mluvčího - region | ''{Čechy, Morava, Slezsko}''+
-| sp.noblastnej     | českomoravská        | nejdelší pobyt mluvčího - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
-| sp.npodskupinanej | severní (valašská)   | nejdelší pobyt mluvčího - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
-| sp.nuseknej       | východní (ostravský) | nejdelší pobyt mluvčího - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
-| sp.ntypnej        | jemnický             | nejdelší pobyt mluvčího - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
-| sp.mistodet       | Zápy                 | místo pobytu mluvčího v dětství (do 15 let) | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| +
-| sp.noblastdet     | východomoravská      | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |+
  
-==== Strukturní atributy korpusu ORATOR ==== 
- 
-Korpus [[cnk:orator|ORATOR]] obsahuje tyto údaje: 
- 
-^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ 
-| doc | id                | jednoznačný identifikátor sondy | | 
-| ::: | year              | rok pořízení nahrávky           | | 
-| ::: | location          | místo nahrávky                  | obce ČR | 
-| ::: | situation         | typ situace | ''ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení'' | 
-| ::: | framing           | zaměření projevu                | ''oficiální, popularizační, politické, profesní, vědecké'' | 
-| ::: | genre             | žánr projevu                    | hodnoty shodné s atributem [[cnk:klasifikace_textu_syn2015?s[]=genre|genre]] u psaných korpusů | 
-| ::: | audience_present  | přítomnost publika              | ''ano, ne'' | 
-| ::: | intended_audience | jakému publiku je projev určen  | ''skupina, veřejnost'' | 
-| ::: | special           | speciální příznak projevu       | ''čtené, pro děti, Y'' (pro projevy bez příznaku) | 
-| ::: | source            | zdroj                           | ''vlastní sběr, volně dostupná nahrávka'' | 
-| ::: | speakers          | počet mluvčích v nahrávce       | | 
-| ::: | length            | délka nahrávky v minutách       | | 
-| ::: | tokens            | počet všech tokenů v nahrávce   | | 
-| sp | id          | identifikátor segmentu                                      | unikátní číslo pro každý segment | 
-| ::: | nickname    | přezdívka mluvčího                                          | náhodně přidělená příjmení | 
-| ::: | speaker_id  | číslo doplňující přezdívku mluvčího                         | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího| 
-| ::: | gender      | pohlaví                                                      | 
-| ::: | proportion  | procentuální zastoupení řeči mluvčího v rámci celé nahrávky |  | 
-| ::: | soundfile   | číslo a formát nahrávky                                      |