AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Poslední revizeObě strany příští revize
pojmy:atributy_strukturni [2017/06/01 09:04] – [Strukturní atributy mluvených korpusů] martinawaclawicovapojmy:atributy_strukturni [2022/06/07 21:20] – stará verze byla obnovena (2022/06/02 14:56) jankrivan
Řádek 34: Řádek 34:
 | ''[word=<nowiki>"</nowiki>život<nowiki>"</nowiki>][word=<nowiki>"</nowiki>\.<nowiki>"</nowiki>]</doc>'' | výskyty sekvence slov //život// a "." na konci (libovolného) dokumentu | | ''[word=<nowiki>"</nowiki>život<nowiki>"</nowiki>][word=<nowiki>"</nowiki>\.<nowiki>"</nowiki>]</doc>'' | výskyty sekvence slov //život// a "." na konci (libovolného) dokumentu |
 | ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | | ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu |
-| ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty ((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) |+| ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) |
 ==== Struktura korpusů mluvené češtiny ==== ==== Struktura korpusů mluvené češtiny ====
  
 V korpusech **[[pojmy:mluveny|mluvené]] češtiny** je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu: V korpusech **[[pojmy:mluveny|mluvené]] češtiny** je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu:
-  * **doc** - dokument; v případě dialogických mluvených korpusů řady ORAL ([[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]]) se jedná o jednu sondu (ucelený rozhovor) +  * **doc** - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor) 
-  * **sp** - mluvčí (//speaker//)resp. jedna jeho promluva +  * **sp** - vyšší technická jednotka členění mluveného textuvázaná na identitu mluvčího a nesoucí jeho metadata 
-  * **seg** - technické (tj. nijak lingvisticky motivované) členění promluv **sp** na kratší úseky+  * **seg** - nižší technická jednotka členění mluveného textu, v rámci jednotek **sp** 
 + 
 +Struktuře **sp** se tradičně v textech o mluvených korpusech ČNK říká **promluva**, nicméně s [[http://sas.ujc.cas.cz/archiv.php?art=203|lingvistickým konceptem téhož jména]] nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] lze do velké míry hovořit o tom, že hranice jednotek **sp** odpovídají hranicím **replik**, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek **sp** s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat.
  
 ^ Dotaz ^ Vyhodnocení ^ ^ Dotaz ^ Vyhodnocení ^
Řádek 117: Řádek 119:
 Některé atributy připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci). Některé atributy připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).
  
-=== Atributy společné všem jednotlivým korpusům řady ORAL ===+=== Atributy společné korpusům ORAL2006, ORAL2008 a ORAL2013 === 
 + 
 +Korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]] a [[cnk:oral2013|ORAL2013]] obsahují následující strukturní atributy:
  
 ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^
Řádek 125: Řádek 129:
 |     | promluva      | typ promluvy | ''N'' (neformální) | |     | promluva      | typ promluvy | ''N'' (neformální) |
 | sp  | num           | číselné označení mluvčího **v rámci sondy (doc)** | od ''00'' výš (podle počtu mluvčích, přičemž ''00'' označuje mluvčího, který rozhovor nahrával); možné je i ''Y'' | | sp  | num           | číselné označení mluvčího **v rámci sondy (doc)** | od ''00'' výš (podle počtu mluvčích, přičemž ''00'' označuje mluvčího, který rozhovor nahrával); možné je i ''Y'' |
-|     | pohlavi       | pohlaví mluvčího | ''{M'' (muž)'',Z'' (žena)''}'' nebo ''Y''+|     | pohlavi       | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y''
-|     | vek           | věková kategorie mluvčího | ''{I''(iunior, mladší: ca 20–35 let)'',V''(vetus, starší: 35 let a více)''}'' nebo ''Y'' |+|     | vek           | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' |
 |     | veknum        | věk mluvčího (číselně) | ''<číslo>'' | |     | veknum        | věk mluvčího (číselně) | ''<číslo>'' |
 |     | vzdelani      | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' | |     | vzdelani      | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' |
 |     | vzdelanityp   | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | |     | vzdelanityp   | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' |
-|     | oblast        | nářeční oblast, kde se mluvčí narodil | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' |+|     | oblast        | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' |
  
-**Atributy dostupné pouze v korpusu [[cnk:oral2013|ORAL2013]]**+=== Další atributy v korpusu ORAL2013 === 
 + 
 +Korpus [[cnk:oral2013|ORAL2013]] obsahuje navíc oproti [[pojmy:atributy_strukturni#atributy_spolecne_korpusum_oral2006_oral2008_a_oral2013|výše uvedeným]] společným tyto strukturní atributy:
  
 ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^
Řádek 140: Řádek 146:
 |     | prekryv       | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' | |     | prekryv       | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' |
  
-**Atributy dostupné ve spojeném korpusu [[cnk:oral|ORAL]]: údaje k nahrávce**+=== Atributy společné spojenému korpusu ORAL a korpusu ORTOFON === 
 + 
 +Korpusy [[cnk:oral|ORAL]] a [[cnk:ortofon|ORTOFON]] obsahují následující údaje k nahrávce:
  
 ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ Poznámka ^ ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ Poznámka ^
Řádek 148: Řádek 156:
 | doc.formality     | neformální   | neformální situace | ''{neformální, formální}'' | v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (''N'' pro neformální, ''F'' pro formální) | ''N'', ''F'' | doc.formality     | neformální   | neformální situace | ''{neformální, formální}'' | v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (''N'' pro neformální, ''F'' pro formální) | ''N'', ''F''
 | doc.preparedness  | nepřipravená | označení, zda byl rozhovor předem připraven, či ne | ''{připravená, nepřipravená}'' | souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak | | doc.preparedness  | nepřipravená | označení, zda byl rozhovor předem připraven, či ne | ''{připravená, nepřipravená}'' | souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak |
-| doc.audio         | ne           | je k transkriptu dostupný zvuk| ''{ano, ne}''| nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpus ORAL2013 a ORAL-Z obsahují i zvukovou stopu |+| doc.audio         | ne           informace, zda je k transkriptu dostupný zvuk | ''{ano, ne}''| nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano |
 | doc.year          | 2006         | rok pořízení nahrávky | | doc.year          | 2006         | rok pořízení nahrávky |
 | doc.location      | Praha        | místo pořízení nahrávky | | doc.location      | Praha        | místo pořízení nahrávky |
-| doc. relationship | přátelský    | vztah mluvčích v nahrávce | ''{přátelský, znají se, neznají se}''v tomto korpusu jsou pod označení přátelský zařazeny i rodinné vztahy |+| doc. relationship | přátelský    | vztah mluvčích v nahrávce | ''{přátelský, znají se, neznají se}'' | pod označení přátelský jsou zařazeny i rodinné vztahy |
 | doc.situation     | návštěva     | označení, za jaké situace k hovoru došlo | ''{návštěva, rozhovor doma, rozhovor u jídla doma, restaurace, oslava, posezení na zahradě}'' a další |  | doc.situation     | návštěva     | označení, za jaké situace k hovoru došlo | ''{návštěva, rozhovor doma, rozhovor u jídla doma, restaurace, oslava, posezení na zahradě}'' a další | 
 | doc.tokens        | 9008         | počet všech tokenů v nahrávce | | doc.tokens        | 9008         | počet všech tokenů v nahrávce |
Řádek 157: Řádek 165:
 | doc.number        | 2            | počet mluvčích v nahrávce| | doc.number        | 2            | počet mluvčích v nahrávce|
  
-**Atributy dostupné ve spojeném korpusu [[cnk:oral|ORAL]]: údaje k mluvčímu**+A následující údaje k mluvčímu:
  
-^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ Poznámka +^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^  
-| sp.nickname      | Milena_2633    | automaticky vygenerovaná ezdívka, ze které je patrné pohlaví: ezdívky pro muže končí souhláskou, pro ženy samohláskou) |+| sp.nickname      | Milena_2633    | automaticky přiřazená ezdívka |
 | sp.gender        | M              | pohlaví mluvčího | ''{Z'' (žena)'', M ''(muž)''}'' nebo ''Y'' | | sp.gender        | M              | pohlaví mluvčího | ''{Z'' (žena)'', M ''(muž)''}'' nebo ''Y'' |
 | sp.edu_level     | SŠ             | nejvyšší dosažené vzdělání | ''{SŠ, VŠ, ZŠ}'' nebo ''Y'' | sp.edu_level     | SŠ             | nejvyšší dosažené vzdělání | ''{SŠ, VŠ, ZŠ}'' nebo ''Y''
 | sp.age           | 54             | věk mluvčího |  | sp.age           | 54             | věk mluvčího | 
-| sp.reg_current   | středomoravská | místo současného pobytu mluvčího | ''{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}'' nebo ''Y''+| sp.reg_current   | středomoravská | nářeční oblast současného pobytu mluvčího | ''{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}'' nebo ''Y''
 | sp.proportion    | 23 %           | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | | sp.proportion    | 23 %           | procentuální zastoupení řeči mluvčího v rámci celé nahrávky |
 | sp.confederate   | ne             | informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách | ''{ano, ne}'' | | sp.confederate   | ne             | informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách | ''{ano, ne}'' |
 | sp.edu_binary    | B              | vzdělání mluvčího (hrubé rozlišení) | ''{A'' (altus, vysokoškolské včetně pouze započatého)'',B'' (basis, základní a středoškolské)''}'' nebo ''Y'' | | sp.edu_binary    | B              | vzdělání mluvčího (hrubé rozlišení) | ''{A'' (altus, vysokoškolské včetně pouze započatého)'',B'' (basis, základní a středoškolské)''}'' nebo ''Y'' |
 | sp.age_binary    | I              | věk mluvčího (hrubé rozlišení) | ''{I'' (iunior, mladší: cca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' | | sp.age_binary    | I              | věk mluvčího (hrubé rozlišení) | ''{I'' (iunior, mladší: cca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' |
-| sp.reg_childhood | středomoravská | místo pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}'' nebo ''Y''+| sp.reg_childhood | středomoravská | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}'' nebo ''Y''
 | sp.occupation    | kvalifikovaný pracovník ve stavebnictví | specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco- | ''{kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač}'' a další | | sp.occupation    | kvalifikovaný pracovník ve stavebnictví | specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco- | ''{kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač}'' a další |
-| sp.overlap       | ano            | značí, zda se se promluva daného mluvčího nachází v překryvu | ''{ano, ne}'' |+| sp.overlap       | ano            | značí, zda se promluva daného mluvčího nachází v překryvu | ''{ano, ne}'' |
  
-=== Atributy dostupné pro mluvené korpusy s dvouúrovňovou transkripcí ===+=== Další atributy v korpusu ORTOFON ===
  
-**Atributy pro korpus [[cnk:ortofon|ORTOFON]]** (navíc oproti spojenému korpusu ORAL)+Korpus [[cnk:ortofon|ORTOFON]] obsahuje kromě [[pojmy:atributy_strukturni#atributy_spolecne_spojenemu_korpusu_oral_a_korpusu_ortofon|výše uvedených]] společných navíc ještě tyto atributy:
  
 ^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ ^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^
Řádek 183: Řádek 191:
 |             | locsize_longest    | město nad 100 tisíc  | velikost sídla, kde mluvčí žil nejdelší dobu  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y''  | |             | locsize_longest    | město nad 100 tisíc  | velikost sídla, kde mluvčí žil nejdelší dobu  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y''  |
 |             | locsize_current    | město nad 100 tisíc  | velikost sídla, kde mluvčí žije v současné době  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y''  | |             | locsize_current    | město nad 100 tisíc  | velikost sídla, kde mluvčí žije v současné době  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y''  |
-|             | soundfile          |  5/3/ef2e315f.mp3  |   +|             | soundfile          | 5/3/ef2e315f.mp3  | číslo a formát nahrávky    
-|             | id                 | 3784  | číselné označení mluvčího v rámci jedné nahrávky  | číslo a formát nahrávky  (na rozdíl od sp.nickname - označení téhož mluvčího ve všech nahrávkách, ve kterých se vyskytuje)  |+|             | id                 | 3784  | identifikátor segmentu (struktury sp)  | 
 |             | edu_field          | chemické obory  | obor vzdělání  | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu  | |             | edu_field          | chemické obory  | obor vzdělání  | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu  |
 |             | occupation         | sociální pracovník  |    |             | occupation         | sociální pracovník  |   
Řádek 196: Řádek 204:
  
  
-**Atributy pro korpus *[[cnk:dialekt|DIALEKT]]: údaje k nahrávce**+=== Atributy pro korpus DIALEKT ===
  
-^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^+Korpus [[cnk:dialekt|DIALEKT]] obsahuje tyto údaje k nahrávce: 
 + 
 +^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^
 | doc.id          | 001-C-SVC-1957-SA               | identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky | | doc.id          | 001-C-SVC-1957-SA               | identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky |
 | doc.zdroj       | Ústav Českého národního korpusu | zdroj nahrávky | ''{Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně,  Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}'' | | doc.zdroj       | Ústav Českého národního korpusu | zdroj nahrávky | ''{Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně,  Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}'' |
-| doc.rok         | 1957                            | rok pořízení nahrávky (195X - blíže neurčený rok v padesátých letech|+| doc.rok         | 1957                            | rok pořízení nahrávky | | 195X - blíže neurčený rok v padesátých letech |
 | doc.vrstva      | stará                           | nářeční vrstva | ''{nová, stará}'' | | doc.vrstva      | stará                           | nářeční vrstva | ''{nová, stará}'' |
-| doc.misto       | Křečovice                       | místo pořízení nahrávky (část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)) |+| doc.misto       | Křečovice                       | místo pořízení nahrávky | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov) |
 | doc.sidlotyp    | městská lokalita                | typ sídla | ''{městská lokalita, venkovská lokalita}'' | | doc.sidlotyp    | městská lokalita                | typ sídla | ''{městská lokalita, venkovská lokalita}'' |
 | doc.sidlovelikost | nad 100 tis. | místo pořízení nahrávky - velikost sídla | ''{méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500}'' | | doc.sidlovelikost | nad 100 tis. | místo pořízení nahrávky - velikost sídla | ''{méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500}'' |
 | doc.stat        | Česká republika                 | místo pořízení nahrávky - stát | ''{Česká republika, Polsko}'' | | doc.stat        | Česká republika                 | místo pořízení nahrávky - stát | ''{Česká republika, Polsko}'' |
 | doc.region      | Čechy                           | místo pořízení nahrávky - region | ''{Čechy, Morava, Slezsko}'' | | doc.region      | Čechy                           | místo pořízení nahrávky - region | ''{Čechy, Morava, Slezsko}'' |
-| doc.noblast     | středočeská                     | místo pořízení nahrávky - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}''+| doc.noblast     | středočeská                     | místo pořízení nahrávky - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál 
-| doc.npodskupina | jižní (slovácká)                | místo pořízení nahrávky - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová}''+| doc.npodskupina | jižní (slovácká)                | místo pořízení nahrávky - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál 
-| doc.núsek       | západní (opavský)               | místo pořízení nahrávky - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový}''+| doc.núsek       | západní (opavský)               | místo pořízení nahrávky - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál 
-| doc.ntyp        | doudlebský                      | místo pořízení nahrávky - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský}'' |+| doc.ntyp        | doudlebský                      | místo pořízení nahrávky - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
 | doc.okres       | Domažlice                       | místo pořízení nahrávky - okres | | doc.okres       | Domažlice                       | místo pořízení nahrávky - okres |
 | doc.promluvatyp | monolog                         | typ promluvy podle dialogičnosti | ''{dialog, monolog, převážně dialog, převážně monolog}'' | | doc.promluvatyp | monolog                         | typ promluvy podle dialogičnosti | ''{dialog, monolog, převážně dialog, převážně monolog}'' |
Řádek 218: Řádek 228:
 | doc.explorator  | ano                             | přítomnost exploratora v nahrávce | ''{ano, ne}'' | | doc.explorator  | ano                             | přítomnost exploratora v nahrávce | ''{ano, ne}'' |
  
-**Atributy pro korpus [[cnk:dialekt|DIALEKT]]: údaje k mluvčímu**+A tyto údaje k mluvčímu:
  
-^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ Poznámka ^ +^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ 
-| sp.id             | 2533                 jedinečný kód mluvčího +| sp.id             | 2533                 identifikátor segmentu (struktury sp) 
-| sp.prezdivka      | Dalibor_208          | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví: přezdívky pro muže končí souhláskou, pro ženy samohláskou) |+| sp.prezdivka      | Dalibor_208          | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví |
 | sp.explorator     | ano                  | mluvčí je/není explorátor | ''{ano, ne}'' | | sp.explorator     | ano                  | mluvčí je/není explorátor | ''{ano, ne}'' |
 | sp.pohlavi        | M: muž               | pohlaví mluvčího | ''{M: muž, Z: žena}'' | | sp.pohlavi        | M: muž               | pohlaví mluvčího | ''{M: muž, Z: žena}'' |
Řádek 234: Řádek 244:
 | sp.statnej        | Česká republika      | nejdelší pobyt mluvčího - stát | ''{Česká republika, Polsko}'' | | sp.statnej        | Česká republika      | nejdelší pobyt mluvčího - stát | ''{Česká republika, Polsko}'' |
 | sp.regionnej      | Čechy                | nejdelší pobyt mluvčího - region | ''{Čechy, Morava, Slezsko}'' | | sp.regionnej      | Čechy                | nejdelší pobyt mluvčího - region | ''{Čechy, Morava, Slezsko}'' |
-| sp.noblastnej     | českomoravská        | nejdelší pobyt mluvčího - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}''+| sp.noblastnej     | českomoravská        | nejdelší pobyt mluvčího - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál 
-| sp.npodskupinanej | severní (valašská)   | nejdelší pobyt mluvčího - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová}''+| sp.npodskupinanej | severní (valašská)   | nejdelší pobyt mluvčího - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál 
-| sp.nuseknej       | východní (ostravský) | nejdelší pobyt mluvčího - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový}''+| sp.nuseknej       | východní (ostravský) | nejdelší pobyt mluvčího - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál 
-| sp.ntypnej        | jemnický             | nejdelší pobyt mluvčího - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský}''+| sp.ntypnej        | jemnický             | nejdelší pobyt mluvčího - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál 
-| sp.mistodet       | Zápy                 | místo pobytu mluvčího v dětství do 15 let | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| +| sp.mistodet       | Zápy                 | místo pobytu mluvčího v dětství (do 15 let| | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| 
-| sp.noblastdet     | východomoravská      | pobyt mluvčího v dětství do 15 let - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' |+| sp.noblastdet     | východomoravská      | pobyt mluvčího v dětství (do 15 let- nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}''pouze hodnoty, pro které se v korpusu nachází nářeční materiál | 
 + 
 +=== Atributy pro korpus ORATOR === 
 + 
 +Korpus [[cnk:orator|ORATOR]] obsahuje tyto údaje k nahrávce: 
 + 
 +^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ 
 +| doc | id                | jednoznačný identifikátor sondy | | 
 +|     | year              | rok pořízení nahrávky           | | 
 +|     | location          | místo nahrávky                  | obce ČR | 
 +|     | situation         | typ situace | ''ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení''
 +|     | framing           | zaměření projevu                | ''oficiální, popularizační, politické, profesní, vědecké''
 +|     | genre             | žánr projevu                    | hodnoty shodné s atributem [[cnk:klasifikace_textu_syn2015?s[]=genre|genre]] u psaných korpusů | 
 +|     | audience_present  | přítomnost publika              | ''ano, ne''
 +|     | intended_audience | jakému publiku je projev určen  | ''skupina, veřejnost''
 +|     | special           | speciální příznak projevu       | ''čtené, pro děti, Y'' (pro projevy bez příznaku) | 
 +|     | source            | zdroj                           | ''vlastní sběr, volně dostupná nahrávka''
 +|     | speakers          | počet mluvčích v nahrávce       | | 
 +|     | length            | délka nahrávky v minutách       | | 
 +|     | tokens            | počet všech tokenů v nahrávce   | | 
 + 
 +A tyto údaje k mluvčímu: 
 + 
 +^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ 
 +| sp | id          | identifikátor segmentu                                      | unikátní číslo pro každý segment | 
 +|    | nickname    | přezdívka mluvčího                                          | náhodně přidělená příjmení | 
 +|    | speaker_id  | číslo doplňující přezdívku mluvčího                         | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího| 
 +|    | gender      | pohlaví                                                     
 +|    | proportion  | procentuální zastoupení řeči mluvčího v rámci celé nahrávky |  | 
 +|    | soundfile   | číslo a formát nahrávky                                     
 + 
  
 ==== Strukturní atributy korpusu InterCorp ==== ==== Strukturní atributy korpusu InterCorp ====
Řádek 246: Řádek 287:
  
   * ''doc'' -- dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat)   * ''doc'' -- dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat)
-  * ''div'' -- text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu+  * ''text'' -- text v rámci dokumentů (od verze 11) 
 +  * ''div'' -- text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu; identifikátor oddílu Bible (od verze 11)
   * ''p'' -- odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce   * ''p'' -- odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce
   * ''s'' -- věta (sentence); dále je každý odstavec dělen na věty   * ''s'' -- věta (sentence); dále je každý odstavec dělen na věty
 +  * ''hi'' -- řez písma 
 +  * ''lb'' -- identifikátor verše (Bible)
 Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty).  Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty). 
  
-Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis [[cnk:intercorp:verze6?&#strukturni_atributy|verze 6]], [[cnk:intercorp:verze7?&#strukturni_atributy|verze 7]], [[cnk:intercorp:verze8?&#strukturni_atributy|verze 8]], [[cnk:intercorp:verze9?&#strukturni_atributy|verze 9]])+Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis [[cnk:intercorp:verze9?&#strukturni_atributy|verze 9]], [[cnk:intercorp:verze10?&#strukturni_atributy|verze 10]], [[cnk:intercorp:verze11?&#strukturni_atributy|verze 11]], [[cnk:intercorp:verze12?&#strukturni_atributy|verze 12]], [[cnk:intercorp:verze13?&#strukturni_atributy|verze 13]])
  
 ==== Související odkazy ==== ==== Související odkazy ====