Toto je starší verze dokumentu!
Obsah
Strukturní jednotky a atributy
Každý korpus je strukturován do nějakých (většinou) hierarchicky uspořádaných jednotek. Takové uspořádání (zachycené pomocí metadat) se může u každého korpusu lišit. Důvodem je fakt, že každému typu dat vyhovuje jiná vnitřní strukturace. Každý korpus se tak člení na různé strukturní jednotky a ke každé jednotce (v závislosti na anotaci) náleží jeden nebo více strukturních atributů.
Strukturní jednotky
Rozdíly mezi strukturními jednotkami korpusů psané a mluvené češtiny jsou dané rozdílnou povahou těchto dat. Zároveň se korpusy od sebe můžou lišit typem i počtem strukturních jednotek (nápadný je v tomto směru zejména rozdíl mezi SYN2000, prvním velkým korpusem ČNK, a ostatními korpusy řady SYN).
Struktura korpusů psané češtiny
V psaných korpusech řady SYN nacházíme tyto strukturní jednotky opatřené jedinečnými identifikátory:
- opus - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) - tato úroveň byla užívána v korpusech SYN2005 až SYN2013PUB
- doc - různá platnost v různých korpusech:
- v korpusech s jednotkou
<opus>
: dokument v rámci opusů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek)
- text - v korpusech s hierarchicky nejvyšší jednotkou
<doc>
: text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek, článek v novinách apod.) - p - odstavec
- s - věta (sentence); každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) věty
Strukturní jednotky jsou přitom vždy uspořádány hierarchicky, jejich hranice se tedy neprotínají (např. dokument nemůže být ukončen uprostřed věty).
Schematické znázornění hierarchie strukturních jednotek v korpusech řady SYN:
Strukturní jednotka v SYN2000 | Strukturní jednotka v korpusech SYN2005 až SYN2013PUB | Strukturní jednotka v SYN2015 |
---|---|---|
<doc> | <opus> | <doc> |
<doc> | <text> |
|
<p> |
||
<s> | <s> | <s> |
Strukturní atributy se obvykle zapisují pomocí špičatých závorek, kde <doc>
značí začátek jednotky, </doc>
její konec a <doc />
její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků.
Dotaz | Vyhodnocení |
---|---|
[word="život"][word="\."]</doc> | výskyty sekvence slov život a „.“ na konci (libovolného) dokumentu |
<doc> [lemma="kdepak"] | výskyty lemmatu kdepak na začátku (libovolného) dokumentu |
[word="jak"][]*[word="tak"] within <s /> | výskyty slov jak a tak v proměnlivé vzdálenosti v rámci jakékoli jedné věty1) |
Struktura korpusů mluvené češtiny
V korpusech mluvené češtiny je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu:
- doc - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor)
- sp - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího a nesoucí jeho metadata
- seg - nižší technická jednotka členění mluveného textu, v rámci jednotek sp
Struktuře sp se tradičně v textech o mluvených korpusech ČNK říká promluva, nicméně s lingvistickým konceptem téhož jména nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech ORAL2006 a ORAL2008 lze do velké míry hovořit o tom, že hranice jednotek sp odpovídají hranicím replik, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek sp s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat.
Dotaz | Vyhodnocení |
---|---|
[word="ne"]</doc> | výskyty slova ne na konci sondy |
<sp> [word="hm"] | výskyty slova hm na začátku promluvy |
Pozice jako strukturní jednotka
Z obecného pohledu je další strukturní jednotkou i pozice, tj. nejmenší jednotka, na niž je každý text v průběhu tokenizace rozčleněn. O pozicích se však jako o strukturách běžně neuvažuje. Vlastnosti pozic a jejich atributy popisuje samostatný článek o pozičních atributech.
Strukturní atributy (atributy strukturních jednotek)
Ke každé strukturní jednotce se váže jeden nebo víc strukturních atributů. Všechny jednotky mají standardně atribut id
, který slouží pro jednoznačnou identifikaci strukturní jednotky v korpusu (nebo v rámci hierarchicky vyšší strukturní jednotky). Např. <doc>
Sport 5. 4. 2012 v korpusu SYN2015 má následující hodnotu atributu id
: id="sp120405", analogicky <opus>
Lidové noviny, 28. 4. 2008 v korpusu SYN2010 má id="ln080428"
. Dokumenty nebo opusy se dále dělí na menší strukturní jednotky (např. <text>
nebo <s>
), každá z nich má přitom svůj jednoznačný identifikátor.
Strukturní atributy u korpusů řady SYN
Strukturní atributy korpusu SYN2015 a novějších
Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument <doc>
. Ten se dále dělí na jednotlivé texty (každý dokument obsahuje alespoň jeden <text>
) a dále na odstavce <p>
a věty <s>
. Většina metadat je vázána na atributy <doc> a <text>. Pro strukturu <doc>
jsou to především tyto atributy (viz dokumentace k SYN2015):
- title – název dokumentu nebo periodika
- author – autor dokumentu
- issue – vydání (u periodik)
- publisher – vydavatel
- pubplace – místo vydání
- pubyear – rok vydání
- translator – překladatel
- srclang – zdrojový jazyk
- txtype_group – skupina textových typů
- txtype – textový typ
- genre_group – skupina oborů/témat
- genre – žánr/oblast
- medium – médium dokumentu
- periodicity – periodicita
- audience – cílový adresát (obecný/dětský čtenář)
- id – jednoznačný identifikátor
Pro jednotku <text> je u publicistických textů k dispozici informace o rubrice v následujících atributech:
- section – generovaný typ rubriky (u vybraných periodik)
- section_orig – původní název rubriky (u vybraných periodik)
Strukturní atributy korpusů z let 2005 až 2013
Většina strukturních atributů v korpusech SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN2013PUB a v korpusu SYN do verze 3 je vázána na strukturní jednotku <opus>
. Základními strukturními atributy v korpusech psané češtiny jsou:
- autor - autor/autoři opusu, příp. informace, že je autor nezjistitelný
- nazev - název opusu (hlavní titul)
- nakladatel - organizace, která dílo vydala
- mistovyd - místo vydání
- rokvyd - rok vydání té verze opusu, která je zařazena do korpusu (nemusí se tedy jednat o první vydání díla)
- isbnissn - identifikátor ISBN, příp. ISSN
- preklad - překladatel díla (nejedná-li se o původně české dílo)
- srclang - zdrojový jazyk (nejedná-li se o původně české dílo - v tom případě tento atribut nenabývá žádné hodnoty:
srclang=""
) - txtype_group - makroskupina textových typů: beletrie, odborná, publicistika
- txtype - typ textu (blíže určený)
- genre - žánr (text vymezený na základě pojednávaného tématu)
- med - médium (původní způsob přenosu textu)
- syn - atribut používaný pouze u nereferenčního korpusu SYN; označuje, z jakého referenčního korpusu text původně pochází
Strukturní atributy korpusu SYN2000
V korpusu SYN2000 je nabídka strukturních atributů výrazně omezená, všechny se navíc vážou ke strukturní jednotce <doc>
:
- opus - identifikátor díla (v pozdějších korpusech řady SYN odpovídá atributu
id
) - txtype - typ textu
- temp - rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu
rokvyd
)
Na základě jednoznačného identifikátoru doc.opus
je možné zjistit všechny dodatečné informace o textu v seznamech děl korpusu SYN2000. Při začlenění korpusu SYN2000 do nereferenčního korpusu SYN byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem (tedy na úrovni korpusu SYN2010).
Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy.
Dotaz | Vyhodnocení |
---|---|
[word="ale"] within <opus autor="Topol, Filip" /> | všechny výskyty slova ale z děl Filipa Topola |
[word="moc"] within <opus txtype="(PUB)|(SCI)" /> | všechny výskyty slova moc v opusech označených jako publicistika a vědeckonaučná literatura |
Strukturní atributy mluvených korpusů
Některé atributy připouštějí hodnotu Y
, která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).
Atributy společné všem jednotlivým korpusům řady ORAL
Struktura | Atribut | Popis | Možné hodnoty |
---|---|---|---|
doc | id | jednoznačný identifikátor sondy | <řetězec čísel a velkých písmen> |
temp | rok nahrání sondy | např. 2008 |
|
pocet | počet mluvčích v sondě | <číslo> |
|
promluva | typ promluvy | N (neformální) |
|
sp | num | číselné označení mluvčího v rámci sondy (doc) | od 00 výš (podle počtu mluvčích, přičemž 00 označuje mluvčího, který rozhovor nahrával); možné je i Y |
pohlavi | pohlaví mluvčího | {M (muž), Z (žena)} nebo Y |
|
vek | věková kategorie mluvčího | {I (iunior, mladší: ca 20–35 let),V (vetus, starší: 35 let a více)} nebo Y |
|
veknum | věk mluvčího (číselně) | <číslo> |
|
vzdelani | vzdělání mluvčího (hrubé rozlišení) | {A (altus, vysokoškolské včetně pouze započatého),B (basis, základní a středoškolské)} nebo Y |
|
vzdelanityp | vzdělání mluvčího (jemnější rozlišení) | {SŠ,VŠ,ZŠ} nebo Y |
|
oblast | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | {česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská} nebo Y |
Atributy dostupné pouze v korpusu ORAL2013
Struktura | Atribut | Popis | Možné hodnoty |
---|---|---|---|
doc | vztah | vztah mezi mluvčími | {přátelskost,známost} |
situace | typ situace, v níž byla nahrávka pořízena | {hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet} |
|
sp | oznacenishody | jednoznačné označení mluvčího v rámci celého korpusu | <řetězec malých písmen> |
prekryv | nachází se tato promluva daného mluvčího v překryvu? | {ano,ne} |
Atributy dostupné ve spojeném korpusu ORAL: údaje k nahrávce
Strukturní atribut | Příklad | Vysvětlení | Možné hodnoty | Poznámka |
---|---|---|---|---|
doc.id | 06H080N | identifikační označení nahrávky - první dvojčíslí uvádí rok pořízení, písmeno na konci značí neformální (N) či formální situaci (F) | <řetězec čísel a velkých písmen> | |
doc.month | březen | měsíc pořízení nahrávky | <řetězec malých písmen> | |
doc.speakers | 5 | počet všech mluvčích v nahrávce | <číslo> | |
doc.formality | neformální | neformální situace | {neformální, formální} | v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (N pro neformální, F pro formální) |
doc.preparedness | nepřipravená | označení, zda byl rozhovor předem připraven, či ne | {připravená, nepřipravená} | souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak |
doc.audio | ne | informace, zda je k transkriptu dostupný zvuk | {ano, ne} | nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano |
doc.year | 2006 | rok pořízení nahrávky | ||
doc.location | Praha | místo pořízení nahrávky | ||
doc. relationship | přátelský | vztah mluvčích v nahrávce | {přátelský, znají se, neznají se} | pod označení přátelský jsou zařazeny i rodinné vztahy |
doc.situation | návštěva | označení, za jaké situace k hovoru došlo | {návštěva, rozhovor doma, rozhovor u jídla doma, restaurace, oslava, posezení na zahradě} a další | |
doc.tokens | 9008 | počet všech tokenů v nahrávce | ||
doc.oral | 2006 | označuje korpus, z něhož nahrávka pochází | {2006, 2008, 2013, Z} | |
doc.number | 2 | počet mluvčích v nahrávce |
Atributy dostupné ve spojeném korpusu ORAL: údaje k mluvčímu
Strukturní atribut | Příklad | Vysvětlení | Možné hodnoty |
---|---|---|---|
sp.nickname | Milena_2633 | automaticky přiřazená přezdívka | |
sp.gender | M | pohlaví mluvčího | {Z (žena), M (muž)} nebo Y |
sp.edu_level | SŠ | nejvyšší dosažené vzdělání | {SŠ, VŠ, ZŠ} nebo Y |
sp.age | 54 | věk mluvčího | |
sp.reg_current | středomoravská | nářeční oblast současného pobytu mluvčího | {česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská} nebo Y |
sp.proportion | 23 % | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | |
sp.confederate | ne | informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách | {ano, ne} |
sp.edu_binary | B | vzdělání mluvčího (hrubé rozlišení) | {A (altus, vysokoškolské včetně pouze započatého),B (basis, základní a středoškolské)} nebo Y |
sp.age_binary | I | věk mluvčího (hrubé rozlišení) | {I (iunior, mladší: cca 20–35 let),V (vetus, starší: 35 let a více)} nebo Y |
sp.reg_childhood | středomoravská | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | {česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská} nebo Y |
sp.occupation | kvalifikovaný pracovník ve stavebnictví | specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco- | {kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač} a další |
sp.overlap | ano | značí, zda se promluva daného mluvčího nachází v překryvu | {ano, ne} |
Atributy dostupné pro mluvené korpusy s dvouúrovňovou transkripcí
Atributy pro korpus ORTOFON (navíc oproti spojenému korpusu ORAL)
Struktura | Atribut | Příklad | Vysvětlení | Možné hodnoty |
---|---|---|---|---|
doc | generations | 1 | počet generací mluvčích v nahrávce | {1 (vrstevníci),2 (mladší a starší mluvčí v nahrávce)} atd. |
genders | smíšené | {jen ženy, jen muži, smíšené} |
||
sp | locsize_childhood | město nad 100 tisíc | velikost sídla, kde mluvčí žil do 15 let věku | {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y |
locsize_longest | město nad 100 tisíc | velikost sídla, kde mluvčí žil nejdelší dobu | {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y |
|
locsize_current | město nad 100 tisíc | velikost sídla, kde mluvčí žije v současné době | {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y |
|
soundfile | 5/3/ef2e315f.mp3 | číslo a formát nahrávky | ||
id | 3784 | identifikátor segmentu (struktury sp) | ||
edu_field | chemické obory | obor vzdělání | {ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost} a další, výběr oborů z předdefinovaného seznamu |
|
occupation | sociální pracovník | |||
occupation_category | jiný odborný pracovník | specifikace zaměstnání podle ČZSO | ||
loc_childhood | Praha | místo, kde mluvčí žil do 15 let | ||
reg_longest | severovýchodočeská | nářeční oblast, v níž mluvčí žil nejdéle | {česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská} nebo Y |
|
para | type | šeptem | označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem | {šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním} |
pw | - | - | struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) | - |
overlap | - | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - |
unclear | - | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - |
Atributy pro korpus DIALEKT: údaje k nahrávce
Strukturní atribut | Příklad | Vysvětlení | Možné hodnoty (položky jsou řazeny podle abecedy) | Poznámka |
---|---|---|---|---|
doc.id | 001-C-SVC-1957-SA | identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky | ||
doc.zdroj | Ústav Českého národního korpusu | zdroj nahrávky | {Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně, Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA} | |
doc.rok | 1957 | rok pořízení nahrávky | 195X - blíže neurčený rok v padesátých letech | |
doc.vrstva | stará | nářeční vrstva | {nová, stará} | |
doc.misto | Křečovice | místo pořízení nahrávky | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov) | |
doc.sidlotyp | městská lokalita | typ sídla | {městská lokalita, venkovská lokalita} | |
doc.sidlovelikost | nad 100 tis. | místo pořízení nahrávky - velikost sídla | {méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500} | |
doc.stat | Česká republika | místo pořízení nahrávky - stát | {Česká republika, Polsko} | |
doc.region | Čechy | místo pořízení nahrávky - region | {Čechy, Morava, Slezsko} | |
doc.noblast | středočeská | místo pořízení nahrávky - nářeční oblast | {českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
doc.npodskupina | jižní (slovácká) | místo pořízení nahrávky - nářeční podskupina | {centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
doc.núsek | západní (opavský) | místo pořízení nahrávky - nářeční úsek | {českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
doc.ntyp | doudlebský | místo pořízení nahrávky - nářeční typ | {čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
doc.okres | Domažlice | místo pořízení nahrávky - okres | ||
doc.promluvatyp | monolog | typ promluvy podle dialogičnosti | {dialog, monolog, převážně dialog, převážně monolog} | |
doc.tema | Vánoce | téma promluvy | ||
doc.pocetml | 2 | celkový počet mluvčích v nahrávce | ||
doc.explorator | ano | přítomnost exploratora v nahrávce | {ano, ne} |
Atributy pro korpus DIALEKT: údaje k mluvčímu
Strukturní atribut | Příklad | Vysvětlení | Možné hodnoty (položky jsou řazeny podle abecedy) | Poznámka |
---|---|---|---|---|
sp.id | 2533 | identifikátor segmentu (struktury sp) | ||
sp.prezdivka | Dalibor_208 | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví | ||
sp.explorator | ano | mluvčí je/není explorátor | {ano, ne} | |
sp.pohlavi | M: muž | pohlaví mluvčího | {M: muž, Z: žena} | |
sp.rok | 1877 | rok narození mluvčího | ||
sp.veknum | 85 | věk mluvčího v době pořízení nahrávky | 5X - věk mezi padesáti a šedesáti lety | |
sp.vek | V: nad 35 let | věková kategorie užívaná v mluvených korpusech | {I: do 35 let, V: nad 35 let} | |
sp.vzdelanitypI | A: vysokoškolské | vzdělání - typ užívaný ve všech mluvených korpusech | {A: vysokoškolské, B: základní či střední} | |
sp.vzdelanitypII | ZŠ | vzdělání - typ užívaný v mluvených korpusech řady ORAL | {SOU, SŠ, VŠ, ZŠ} | |
sp.profese | cestář | nejdelší zaměstnání mluvčího | ||
sp.mistonej | Stachy | místo nejdelšího pobytu mluvčího | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov) | |
sp.statnej | Česká republika | nejdelší pobyt mluvčího - stát | {Česká republika, Polsko} | |
sp.regionnej | Čechy | nejdelší pobyt mluvčího - region | {Čechy, Morava, Slezsko} | |
sp.noblastnej | českomoravská | nejdelší pobyt mluvčího - nářeční oblast | {českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
sp.npodskupinanej | severní (valašská) | nejdelší pobyt mluvčího - nářeční podskupina | {centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
sp.nuseknej | východní (ostravský) | nejdelší pobyt mluvčího - nářeční úsek | {českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
sp.ntypnej | jemnický | nejdelší pobyt mluvčího - nářeční typ | {čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
sp.mistodet | Zápy | místo pobytu mluvčího v dětství (do 15 let) | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov) | |
sp.noblastdet | východomoravská | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | {českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
Atributy pro korpus ORATOR: údaje k nahrávce
Struktura | Atribut | Popis | Možné hodnoty (položky jsou řazeny podle abecedy) |
---|---|---|---|
doc | id | jednoznačný identifikátor sondy | |
year | rok pořízení nahrávky | ||
location | místo nahrávky | obce ČR | |
situation | typ situace | ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení |
|
framing | zaměření projevu | oficiální, popularizační, politické, profesní, vědecké |
|
genre | žánr projevu | hodnoty shodné s genderem u psaných korpusů | |
audience_present | přítomnost publika | ano, ne |
|
intended_audience | jakému publiku je projev určen | skupina, veřejnost |
|
special | speciální příznak projevu | čtené, pro děti, Y (pro projevy bez příznaku) |
|
source | zdroj | vlastní sběr, volně dostupná nahrávka |
|
speakers | počet mluvčích v nahrávce | ||
length | délka nahrávky v minutách | ||
tokens | počet všech tokenů v nahrávce |
Atributy pro korpus ORATOR: údaje k mluvčímu
Struktura | Atribut | Popis | Možné hodnoty (položky jsou řazeny podle abecedy) |
---|---|---|---|
sp | id | identifikátor segmentu | |
nickname | přezdívka mluvčího | náhodně přidělená příjmení | |
gender | pohlaví | ||
proportion | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | ||
soundfile | číslo a formát nahrávky |
Strukturní atributy korpusu InterCorp
V korpusech InterCorp nacházíme tyto strukturní jednotky opatřené jedinečnými identifikátory:
doc
– dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat)div
– text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textup
– odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavces
– věta (sentence); dále je každý odstavec dělen na věty
Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty).
Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis verze 6, verze 7, verze 8, verze 9)