Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
pojmy:atributy_strukturni [2017/06/01 09:46]
Zuzana Komrsková [Strukturní atributy mluvených korpusů]
pojmy:atributy_strukturni [2019/12/19 13:29] (aktuální)
Marie Kopřivová [Strukturní atributy mluvených korpusů]
Řádek 34: Řádek 34:
 | ''​[word=<​nowiki>"</​nowiki>​život<​nowiki>"</​nowiki>​][word=<​nowiki>"</​nowiki>​\.<​nowiki>"</​nowiki>​]</​doc>''​ | výskyty sekvence slov //život// a "​."​ na konci (libovolného) dokumentu | | ''​[word=<​nowiki>"</​nowiki>​život<​nowiki>"</​nowiki>​][word=<​nowiki>"</​nowiki>​\.<​nowiki>"</​nowiki>​]</​doc>''​ | výskyty sekvence slov //život// a "​."​ na konci (libovolného) dokumentu |
 | ''<​doc>​ [lemma=<​nowiki>"</​nowiki>​kdepak<​nowiki>"</​nowiki>​]''​ | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | | ''<​doc>​ [lemma=<​nowiki>"</​nowiki>​kdepak<​nowiki>"</​nowiki>​]''​ | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu |
-| ''​[word=<​nowiki>"</​nowiki>​jak<​nowiki>"</​nowiki>​][]*[word=<​nowiki>"</​nowiki>​tak<​nowiki>"</​nowiki>​] within <s />''​ | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty ((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) |+| ''​[word=<​nowiki>"</​nowiki>​jak<​nowiki>"</​nowiki>​][]*[word=<​nowiki>"</​nowiki>​tak<​nowiki>"</​nowiki>​] within <s />''​ | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) |
 ==== Struktura korpusů mluvené češtiny ==== ==== Struktura korpusů mluvené češtiny ====
  
 V korpusech **[[pojmy:​mluveny|mluvené]] češtiny** je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu: V korpusech **[[pojmy:​mluveny|mluvené]] češtiny** je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu:
-  * **doc** - dokument; v případě dialogických mluvených korpusů ​řady ORAL ([[cnk:​oral2006|ORAL2006]] a [[cnk:​oral2008|ORAL2008]]) ​se jedná o jednu sondu (ucelený rozhovor) +  * **doc** - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor) 
-  * **sp** - mluvčí (//​speaker//​)resp. jedna jeho promluva +  * **sp** - vyšší technická jednotka členění mluveného textuvázaná na identitu mluvčího a nesoucí ​jeho metadata 
-  * **seg** - technické (tj. nijak lingvisticky motivované) ​členění ​promluv ​**sp** na kratší úseky+  * **seg** - nižší technická jednotka ​členění ​mluveného textu, v rámci jednotek ​**sp** 
 + 
 +Struktuře **sp** se tradičně v textech o mluvených korpusech ČNK říká **promluva**,​ nicméně s [[http://​sas.ujc.cas.cz/​archiv.php?​art=203|lingvistickým konceptem téhož jména]] nemá nic společného:​ pokyn členit projev ​na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech [[cnk:​oral2006|ORAL2006]] a [[cnk:​oral2008|ORAL2008]] lze do velké míry hovořit o tom, že hranice jednotek **sp** odpovídají hranicím **replik**, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek **sp** s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat.
  
 ^ Dotaz ^ Vyhodnocení ^ ^ Dotaz ^ Vyhodnocení ^
Řádek 130: Řádek 132:
 |     | vzdelani ​     | vzdělání mluvčího (hrubé rozlišení) | ''​{A''​(altus,​ vysokoškolské včetně pouze započatého)'',​B''​(basis,​ základní a středoškolské)''​}''​ nebo ''​Y''​ | |     | vzdelani ​     | vzdělání mluvčího (hrubé rozlišení) | ''​{A''​(altus,​ vysokoškolské včetně pouze započatého)'',​B''​(basis,​ základní a středoškolské)''​}''​ nebo ''​Y''​ |
 |     | vzdelanityp ​  | vzdělání mluvčího (jemnější rozlišení) | ''​{SŠ,​VŠ,​ZŠ}''​ nebo ''​Y''​ | |     | vzdelanityp ​  | vzdělání mluvčího (jemnější rozlišení) | ''​{SŠ,​VŠ,​ZŠ}''​ nebo ''​Y''​ |
-|     | oblast ​       | nářeční oblast, kde se mluvčí narodil ​| ''​{česko-moravská,​jihozápadočeská,​pohraničí české,​pohraničí moravské,​severovýchodočeská,​slezská,​středočeská,​středomoravská,​východomoravská}''​ nebo ''​Y''​ |+|     | oblast ​       | nářeční oblast ​místa pobytu ​mluvčího v dětství (do 15 let) | ''​{česko-moravská,​jihozápadočeská,​pohraničí české,​pohraničí moravské,​severovýchodočeská,​slezská,​středočeská,​středomoravská,​východomoravská}''​ nebo ''​Y''​ |
  
 **Atributy dostupné pouze v korpusu [[cnk:​oral2013|ORAL2013]]** **Atributy dostupné pouze v korpusu [[cnk:​oral2013|ORAL2013]]**
Řádek 148: Řádek 150:
 | doc.formality ​    | neformální ​  | neformální situace | ''​{neformální,​ formální}''​ | v korpusu ORAL se vyskytují převážně nahrávky neformální,​ nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (''​N''​ pro neformální,​ ''​F''​ pro formální) | ''​N'',​ ''​F''​ | doc.formality ​    | neformální ​  | neformální situace | ''​{neformální,​ formální}''​ | v korpusu ORAL se vyskytují převážně nahrávky neformální,​ nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (''​N''​ pro neformální,​ ''​F''​ pro formální) | ''​N'',​ ''​F''​
 | doc.preparedness ​ | nepřipravená | označení, zda byl rozhovor předem připraven, či ne | ''​{připravená,​ nepřipravená}''​ | souvisí se strukturním atributem doc.formality;​ formální hovory lze považovat za připravené a naopak | | doc.preparedness ​ | nepřipravená | označení, zda byl rozhovor předem připraven, či ne | ''​{připravená,​ nepřipravená}''​ | souvisí se strukturním atributem doc.formality;​ formální hovory lze považovat za připravené a naopak |
-| doc.audio ​        | ne           | je k transkriptu dostupný zvuk| ''​{ano,​ ne}''​| nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano |+| doc.audio ​        | ne           ​| ​informace, zda je k transkriptu dostupný zvuk | ''​{ano,​ ne}''​| nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano |
 | doc.year ​         | 2006         | rok pořízení nahrávky | | doc.year ​         | 2006         | rok pořízení nahrávky |
 | doc.location ​     | Praha        | místo pořízení nahrávky | | doc.location ​     | Praha        | místo pořízení nahrávky |
Řádek 160: Řádek 162:
  
 ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^  ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ 
-| sp.nickname ​     | Milena_2633 ​   | automaticky ​vygenerovaná ​ezdívka, ze které je patrné pohlaví: ​ezdívky pro muže končí souhláskou,​ pro ženy samohláskou ​|+| sp.nickname ​     | Milena_2633 ​   | automaticky přiřazená ​ezdívka ​|
 | sp.gender ​       | M              | pohlaví mluvčího | ''​{Z''​ (žena)'',​ M ''​(muž)''​}''​ nebo ''​Y''​ | | sp.gender ​       | M              | pohlaví mluvčího | ''​{Z''​ (žena)'',​ M ''​(muž)''​}''​ nebo ''​Y''​ |
 | sp.edu_level ​    | SŠ             | nejvyšší dosažené vzdělání | ''​{SŠ,​ VŠ, ZŠ}''​ nebo ''​Y''​ |  | sp.edu_level ​    | SŠ             | nejvyšší dosažené vzdělání | ''​{SŠ,​ VŠ, ZŠ}''​ nebo ''​Y''​ | 
 | sp.age ​          | 54             | věk mluvčího |  | sp.age ​          | 54             | věk mluvčího | 
-| sp.reg_current ​  | středomoravská | místo ​současného pobytu mluvčího | ''​{česko-moravská,​ jihozápadočeská,​ pohraničí české, pohraničí moravské, severovýchodočeská,​ středomoravská,​ slezská, středočeská,​ východomoravská}''​ nebo ''​Y''​ | +| sp.reg_current ​  | středomoravská | nářeční oblast ​současného pobytu mluvčího | ''​{česko-moravská,​ jihozápadočeská,​ pohraničí české, pohraničí moravské, severovýchodočeská,​ středomoravská,​ slezská, středočeská,​ východomoravská}''​ nebo ''​Y''​ | 
 | sp.proportion ​   | 23 %           | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | | sp.proportion ​   | 23 %           | procentuální zastoupení řeči mluvčího v rámci celé nahrávky |
 | sp.confederate ​  | ne             | informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách | ''​{ano,​ ne}''​ | | sp.confederate ​  | ne             | informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách | ''​{ano,​ ne}''​ |
 | sp.edu_binary ​   | B              | vzdělání mluvčího (hrubé rozlišení) | ''​{A''​ (altus, vysokoškolské včetně pouze započatého)'',​B''​ (basis, základní a středoškolské)''​}''​ nebo ''​Y''​ | | sp.edu_binary ​   | B              | vzdělání mluvčího (hrubé rozlišení) | ''​{A''​ (altus, vysokoškolské včetně pouze započatého)'',​B''​ (basis, základní a středoškolské)''​}''​ nebo ''​Y''​ |
 | sp.age_binary ​   | I              | věk mluvčího (hrubé rozlišení) | ''​{I''​ (iunior, mladší: cca 20–35 let)'',​V''​ (vetus, starší: 35 let a více)''​}''​ nebo ''​Y''​ | | sp.age_binary ​   | I              | věk mluvčího (hrubé rozlišení) | ''​{I''​ (iunior, mladší: cca 20–35 let)'',​V''​ (vetus, starší: 35 let a více)''​}''​ nebo ''​Y''​ |
-| sp.reg_childhood | středomoravská | místo ​pobytu mluvčího v dětství (do 15 let) | ''​{česko-moravská,​ jihozápadočeská,​ pohraničí české, pohraničí moravské, severovýchodočeská,​ středomoravská,​ slezská, středočeská,​ východomoravská}''​ nebo ''​Y''​ | +| sp.reg_childhood | středomoravská | nářeční oblast místa ​pobytu mluvčího v dětství (do 15 let) | ''​{česko-moravská,​ jihozápadočeská,​ pohraničí české, pohraničí moravské, severovýchodočeská,​ středomoravská,​ slezská, středočeská,​ východomoravská}''​ nebo ''​Y''​ | 
 | sp.occupation ​   | kvalifikovaný pracovník ve stavebnictví | specifikace zaměstnání podle klasifikace zaměstnání,​ viz https://​www.czso.cz/​csu/​czso/​klasifikace_zamestnani_-cz_isco- | ''​{kvalifikovaný pracovník ve stavebnictví,​ student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání,​ technik, kancelářský pracovník, prodavač}''​ a další | | sp.occupation ​   | kvalifikovaný pracovník ve stavebnictví | specifikace zaměstnání podle klasifikace zaměstnání,​ viz https://​www.czso.cz/​csu/​czso/​klasifikace_zamestnani_-cz_isco- | ''​{kvalifikovaný pracovník ve stavebnictví,​ student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání,​ technik, kancelářský pracovník, prodavač}''​ a další |
-| sp.overlap ​      | ano            | značí, zda se se promluva daného mluvčího nachází v překryvu | ''​{ano,​ ne}''​ |+| sp.overlap ​      | ano            | značí, zda se promluva daného mluvčího nachází v překryvu | ''​{ano,​ ne}''​ |
  
 === Atributy dostupné pro mluvené korpusy s dvouúrovňovou transkripcí === === Atributy dostupné pro mluvené korpusy s dvouúrovňovou transkripcí ===
Řádek 183: Řádek 185:
 |             | locsize_longest ​   | město nad 100 tisíc ​ | velikost sídla, kde mluvčí žil nejdelší dobu  | ''​{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}''​ nebo ''​Y'' ​ | |             | locsize_longest ​   | město nad 100 tisíc ​ | velikost sídla, kde mluvčí žil nejdelší dobu  | ''​{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}''​ nebo ''​Y'' ​ |
 |             | locsize_current ​   | město nad 100 tisíc ​ | velikost sídla, kde mluvčí žije v současné době  | ''​{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}''​ nebo ''​Y'' ​ | |             | locsize_current ​   | město nad 100 tisíc ​ | velikost sídla, kde mluvčí žije v současné době  | ''​{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}''​ nebo ''​Y'' ​ |
-|             | soundfile ​         | 5/​3/​ef2e315f.mp3 ​ |   +|             | soundfile ​         | 5/​3/​ef2e315f.mp3 ​ | číslo a formát nahrávky ​ ​| ​  
-|             | id                 | 3784  | číselné označení mluvčího v rámci jedné nahrávky ​ | číslo a formát nahrávky  ​(na rozdíl od sp.nickname - označení téhož mluvčího ve všech nahrávkách,​ ve kterých se vyskytuje)  |+|             | id                 | 3784  | identifikátor segmentu ​(struktury ​sp)  | 
 |             | edu_field ​         | chemické obory  | obor vzdělání ​ | ''​{ekologie a ochrana životního prostředí,​ strojírenství,​ elektrotechnika,​ zdravotnictví,​ doprava a spoje, právo a právní činnost}''​ a další, výběr oborů z předdefinovaného seznamu ​ | |             | edu_field ​         | chemické obory  | obor vzdělání ​ | ''​{ekologie a ochrana životního prostředí,​ strojírenství,​ elektrotechnika,​ zdravotnictví,​ doprava a spoje, právo a právní činnost}''​ a další, výběr oborů z předdefinovaného seznamu ​ |
 |             | occupation ​        | sociální pracovník ​ |    |             | occupation ​        | sociální pracovník ​ |   
Řádek 198: Řádek 200:
 **Atributy pro korpus [[cnk:​dialekt|DIALEKT]]:​ údaje k nahrávce** **Atributy pro korpus [[cnk:​dialekt|DIALEKT]]:​ údaje k nahrávce**
  
-^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ Poznámka ^+^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ​(položky jsou řazeny podle abecedy) ​^ Poznámka ^
 | doc.id ​         | 001-C-SVC-1957-SA ​              | identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky | | doc.id ​         | 001-C-SVC-1957-SA ​              | identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky |
 | doc.zdroj ​      | Ústav Českého národního korpusu | zdroj nahrávky | ''​{Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích,​ Universitní sběr nahrávek - MU FF v Brně, ​ Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}''​ | | doc.zdroj ​      | Ústav Českého národního korpusu | zdroj nahrávky | ''​{Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích,​ Universitní sběr nahrávek - MU FF v Brně, ​ Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}''​ |
Řádek 208: Řádek 210:
 | doc.stat ​       | Česká republika ​                | místo pořízení nahrávky - stát | ''​{Česká republika, Polsko}''​ | | doc.stat ​       | Česká republika ​                | místo pořízení nahrávky - stát | ''​{Česká republika, Polsko}''​ |
 | doc.region ​     | Čechy ​                          | místo pořízení nahrávky - region | ''​{Čechy,​ Morava, Slezsko}''​ | | doc.region ​     | Čechy ​                          | místo pořízení nahrávky - region | ''​{Čechy,​ Morava, Slezsko}''​ |
-| doc.noblast ​    | středočeská ​                    | místo pořízení nahrávky - nářeční oblast | ''​{českomoravská,​ jihočeská,​ pohraničí české, severovýchodočeská,​ slezská, sředočeská,​ středomoravská,​ východomoravská,​ západočeská}''​ | +| doc.noblast ​    | středočeská ​                    | místo pořízení nahrávky - nářeční oblast | ''​{českomoravská,​ jihočeská,​ pohraničí české, severovýchodočeská,​ slezská, sředočeská,​ středomoravská,​ východomoravská,​ západočeská}'' ​| pouze hodnoty, pro které se v korpusu nachází nářeční materiál ​
-| doc.npodskupina | jižní (slovácká) ​               | místo pořízení nahrávky - nářeční podskupina | ''​{centrální středomoravská (hanávýchodomoravskácká),​ jižní (slovácká),​ jižní středomoravská,​ severní (valašská),​ slezskomoravská (lašská), slezskopolská,​ východní středomoravská,​ žádná, západní středomoravská okrajová}''​ | +| doc.npodskupina | jižní (slovácká) ​               | místo pořízení nahrávky - nářeční podskupina | ''​{centrální středomoravská (hanávýchodomoravskácká),​ jižní (slovácká),​ jižní středomoravská,​ severní (valašská),​ slezskomoravská (lašská), slezskopolská,​ východní středomoravská,​ žádná, západní středomoravská okrajová}'' ​| pouze hodnoty, pro které se v korpusu nachází nářeční materiál ​
-| doc.núsek ​      | západní (opavský) ​              | místo pořízení nahrávky - nářeční úsek | ''​{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský),​ severovýchodočeský okrajový, středočeský okrajový, východní (ostravský),​ žádný, západní (opavský), západní okrajový, západočeský okrajový}''​ | +| doc.núsek ​      | západní (opavský) ​              | místo pořízení nahrávky - nářeční úsek | ''​{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský),​ severovýchodočeský okrajový, středočeský okrajový, východní (ostravský),​ žádný, západní (opavský), západní okrajový, západočeský okrajový}'' ​| pouze hodnoty, pro které se v korpusu nachází nářeční materiál ​
-| doc.ntyp ​       | doudlebský ​                     | místo pořízení nahrávky - nářeční typ | ''​{čuhácký,​ dolský, domažlický (chodský), doudlebský,​ horský, jemnický, lounsko-litoměřický,​ manětínský,​ náchodský a kladský, nářečí kopaničářského typu, ostravický,​ podještědský a podkrkonošský,​ slavkovsko-bučovický,​ těšínský,​ východolitomyšlský,​ (petácký),​ zábřežský,​ žádný, západoopavský,​ žďársko-bystřický,​ židlochovický,​ znojemský}''​ |+| doc.ntyp ​       | doudlebský ​                     | místo pořízení nahrávky - nářeční typ | ''​{čuhácký,​ dolský, domažlický (chodský), doudlebský,​ horský, jemnický, lounsko-litoměřický,​ manětínský,​ náchodský a kladský, nářečí kopaničářského typu, ostravický,​ podještědský a podkrkonošský,​ slavkovsko-bučovický,​ těšínský,​ východolitomyšlský,​ (petácký),​ zábřežský,​ žádný, západoopavský,​ žďársko-bystřický,​ židlochovický,​ znojemský}'' ​| pouze hodnoty, pro které se v korpusu nachází nářeční materiál ​|
 | doc.okres ​      | Domažlice ​                      | místo pořízení nahrávky - okres | | doc.okres ​      | Domažlice ​                      | místo pořízení nahrávky - okres |
 | doc.promluvatyp | monolog ​                        | typ promluvy podle dialogičnosti | ''​{dialog,​ monolog, převážně dialog, převážně monolog}''​ | | doc.promluvatyp | monolog ​                        | typ promluvy podle dialogičnosti | ''​{dialog,​ monolog, převážně dialog, převážně monolog}''​ |
Řádek 220: Řádek 222:
 **Atributy pro korpus [[cnk:​dialekt|DIALEKT]]:​ údaje k mluvčímu** **Atributy pro korpus [[cnk:​dialekt|DIALEKT]]:​ údaje k mluvčímu**
  
-^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ Poznámka ^ +^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ​(položky jsou řazeny podle abecedy) ​^ Poznámka ^ 
-| sp.id             | 2533                 ​| ​jedinečný kód mluvčího ​+| sp.id             | 2533                 ​| ​identifikátor segmentu (struktury sp) 
-| sp.prezdivka ​     | Dalibor_208 ​         | automaticky vygenerovaná přezdívka,​ ze které je patrné pohlaví: přezdívky pro muže končí souhláskou,​ pro ženy samohláskou) ​|+| sp.prezdivka ​     | Dalibor_208 ​         | automaticky vygenerovaná přezdívka,​ ze které je patrné pohlaví |
 | sp.explorator ​    | ano                  | mluvčí je/není explorátor | ''​{ano,​ ne}''​ | | sp.explorator ​    | ano                  | mluvčí je/není explorátor | ''​{ano,​ ne}''​ |
 | sp.pohlavi ​       | M: muž               | pohlaví mluvčího | ''​{M:​ muž, Z: žena}''​ | | sp.pohlavi ​       | M: muž               | pohlaví mluvčího | ''​{M:​ muž, Z: žena}''​ |
Řádek 234: Řádek 236:
 | sp.statnej ​       | Česká republika ​     | nejdelší pobyt mluvčího - stát | ''​{Česká republika, Polsko}''​ | | sp.statnej ​       | Česká republika ​     | nejdelší pobyt mluvčího - stát | ''​{Česká republika, Polsko}''​ |
 | sp.regionnej ​     | Čechy ​               | nejdelší pobyt mluvčího - region | ''​{Čechy,​ Morava, Slezsko}''​ | | sp.regionnej ​     | Čechy ​               | nejdelší pobyt mluvčího - region | ''​{Čechy,​ Morava, Slezsko}''​ |
-| sp.noblastnej ​    | českomoravská ​       | nejdelší pobyt mluvčího - nářeční oblast | ''​{českomoravská,​ jihočeská,​ pohraničí české, severovýchodočeská,​ slezská, sředočeská,​ středomoravská,​ východomoravská,​ západočeská}''​ | +| sp.noblastnej ​    | českomoravská ​       | nejdelší pobyt mluvčího - nářeční oblast | ''​{českomoravská,​ jihočeská,​ pohraničí české, severovýchodočeská,​ slezská, sředočeská,​ středomoravská,​ východomoravská,​ západočeská}'' ​| pouze hodnoty, pro které se v korpusu nachází nářeční materiál ​
-| sp.npodskupinanej | severní (valašská) ​  | nejdelší pobyt mluvčího - nářeční podskupina | ''​{centrální středomoravská (hanávýchodomoravskácká),​ jižní (slovácká),​ jižní středomoravská,​ severní (valašská),​ slezskomoravská (lašská), slezskopolská,​ východní středomoravská,​ západní středomoravská okrajová, žádná}''​ | +| sp.npodskupinanej | severní (valašská) ​  | nejdelší pobyt mluvčího - nářeční podskupina | ''​{centrální středomoravská (hanávýchodomoravskácká),​ jižní (slovácká),​ jižní středomoravská,​ severní (valašská),​ slezskomoravská (lašská), slezskopolská,​ východní středomoravská,​ západní středomoravská okrajová, žádná}'' ​| pouze hodnoty, pro které se v korpusu nachází nářeční materiál ​
-| sp.nuseknej ​      | východní (ostravský) | nejdelší pobyt mluvčího - nářeční úsek | ''​{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský),​ severovýchodočeský okrajový, středočeský okrajový, východní (ostravský),​ západní (opavský), západní okrajový, západočeský okrajový, žádný}''​ | +| sp.nuseknej ​      | východní (ostravský) | nejdelší pobyt mluvčího - nářeční úsek | ''​{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský),​ severovýchodočeský okrajový, středočeský okrajový, východní (ostravský),​ západní (opavský), západní okrajový, západočeský okrajový, žádný}'' ​| pouze hodnoty, pro které se v korpusu nachází nářeční materiál ​
-| sp.ntypnej ​       | jemnický ​            | nejdelší pobyt mluvčího - nářeční typ | ''​{čuhácký,​ dolský, domažlický (chodský), doudlebský,​ horský, jemnický, lounsko-litoměřický,​ manětínský,​ náchodský a kladský, nářečí kopaničářského typu, ostravický,​ podještědský a podkrkonošský,​ slavkovsko-bučovický,​ těšínský,​ východolitomyšlský,​ (petácký),​ zábřežský,​ západoopavský,​ znojemský, žádný, žďársko-bystřický,​ židlochovický}''​ |+| sp.ntypnej ​       | jemnický ​            | nejdelší pobyt mluvčího - nářeční typ | ''​{čuhácký,​ dolský, domažlický (chodský), doudlebský,​ horský, jemnický, lounsko-litoměřický,​ manětínský,​ náchodský a kladský, nářečí kopaničářského typu, ostravický,​ podještědský a podkrkonošský,​ slavkovsko-bučovický,​ těšínský,​ východolitomyšlský,​ (petácký),​ zábřežský,​ západoopavský,​ znojemský, žádný, žďársko-bystřický,​ židlochovický}'' ​| pouze hodnoty, pro které se v korpusu nachází nářeční materiál ​|
 | sp.mistodet ​      | Zápy                 | místo pobytu mluvčího v dětství (do 15 let) | | část obce v kulatých závorkách,​ např. Kamenný Újezd (Kosov)| | sp.mistodet ​      | Zápy                 | místo pobytu mluvčího v dětství (do 15 let) | | část obce v kulatých závorkách,​ např. Kamenný Újezd (Kosov)|
-| sp.noblastdet ​    | východomoravská ​     | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''​{českomoravská,​ jihočeská,​ pohraničí české, severovýchodočeská,​ slezská, sředočeská,​ středomoravská,​ východomoravská,​ západočeská}''​ |+| sp.noblastdet ​    | východomoravská ​     | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''​{českomoravská,​ jihočeská,​ pohraničí české, severovýchodočeská,​ slezská, sředočeská,​ středomoravská,​ východomoravská,​ západočeská}''​ | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | 
 + 
 +**Atributy pro korpus [[cnk:​orator|ORATOR]]:​ údaje k nahrávce** 
 +^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ 
 +| doc | id                | jednoznačný identifikátor sondy | | 
 +|     | year              | rok pořízení nahrávky ​          | | 
 +|     | location ​         | místo nahrávky ​                 | obce ČR | 
 +|     | situation ​        | typ situace | ''​ceremoniál,​ instruktáž,​ jednání, kázání, prohlídka, přednáška,​ slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění,​ zahájení, zakončení''​ | 
 +|     | framing ​          | zaměření projevu ​               | ''​oficiální,​ popularizační,​ politické, profesní, vědecké''​ | 
 +|     | genre             | žánr projevu ​                   | hodnoty shodné s atributem [[cnk:​klasifikace_textu_syn2015?​s[]=genre|genre]] u psaných korpusů | 
 +|     | audience_present ​ | přítomnost publika ​             | ''​ano,​ ne''​ | 
 +|     | intended_audience | jakému publiku je projev určen ​ | ''​skupina,​ veřejnost''​ | 
 +|     | special ​          | speciální příznak projevu ​      | ''​čtené,​ pro děti, Y''​ (pro projevy bez příznaku) | 
 +|     | source ​           | zdroj                           | ''​vlastní sběr, volně dostupná nahrávka''​ | 
 +|     | speakers ​         | počet mluvčích v nahrávce ​      | | 
 +|     | length ​           | délka nahrávky v minutách ​      | | 
 +|     | tokens ​           | počet všech tokenů v nahrávce ​  | | 
 + 
 +**Atributy pro korpus [[cnk:​orator|ORATOR]]:​ údaje k mluvčímu** 
 +^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ 
 +| sp | id          | identifikátor segmentu ​                                     |  | 
 +|    | nickname ​   | přezdívka mluvčího ​                                         | náhodně přidělená příjmení | 
 +|    | gender ​     | pohlaví ​                                                    ​| ​ | 
 +|    | proportion ​ | procentuální zastoupení řeči mluvčího v rámci celé nahrávky |  | 
 +|    | soundfile ​  | číslo a formát nahrávky ​                                    ​| ​ | 
 + 
  
 ==== Strukturní atributy korpusu InterCorp ==== ==== Strukturní atributy korpusu InterCorp ====