Toto je starší verze dokumentu!

Obsah

Strukturní jednotky a atributy
- Strukturní jednotky
- Strukturní atributy (atributy strukturních jednotek)

Strukturní jednotky a atributy

Každý korpus je strukturován do nějakých (většinou) hierarchicky uspořádaných jednotek. Takové uspořádání (zachycené pomocí metadat) se může u každého korpusu lišit. Důvodem je fakt, že každému typu dat vyhovuje jiná vnitřní strukturace. Každý korpus se tak člení na různé strukturní jednotky a ke každé jednotce (v závislosti na anotaci) náleží jeden nebo více strukturních atributů.

Strukturní jednotky

Rozdíly mezi strukturními jednotkami korpusů psané a mluvené češtiny jsou dané rozdílnou povahou těchto dat. Zároveň se korpusy od sebe můžou lišit typem i počtem strukturních jednotek (nápadný je v tomto směru zejména rozdíl mezi SYN2000, prvním velkým korpusem ČNK, a ostatními korpusy řady SYN).

Struktura korpusů psané češtiny

V psaných korpusech řady SYN nacházíme tyto strukturní jednotky opatřené jedinečnými identifikátory:

opus - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) - tato úroveň byla užívána v korpusech SYN2005 až SYN2013PUB
doc - různá platnost v různých korpusech:
1. text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) - v korpusu SYN2000; v korpusu SYN2015 a novějších
2. v korpusech s jednotkou <opus>: dokument v rámci opusů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek)
text - v korpusech s hierarchicky nejvyšší jednotkou <doc>: text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek, článek v novinách apod.)
p - odstavec
s - věta (sentence); každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) věty

Strukturní jednotky jsou přitom vždy uspořádány hierarchicky, jejich hranice se tedy neprotínají (např. dokument nemůže být ukončen uprostřed věty).

Schematické znázornění hierarchie strukturních jednotek v korpusech řady SYN:

Strukturní jednotka v SYN2000	Strukturní jednotka v korpusech SYN2005 až SYN2013PUB	Strukturní jednotka v SYN2015
`<doc>`	`<opus>`	`<doc>`
	`<doc>`	`<text>`
		`<p>`
`<s>`	`<s>`	`<s>`

Strukturní atributy se obvykle zapisují pomocí špičatých závorek, kde <doc> značí začátek jednotky, </doc> její konec a <doc /> její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků.

Dotaz	Vyhodnocení
`[word="život"][word="\."]</doc>`	výskyty sekvence slov život a „.“ na konci (libovolného) dokumentu
`<doc> [lemma="kdepak"]`	výskyty lemmatu kdepak na začátku (libovolného) dokumentu
`[word="jak"][]*[word="tak"] within <s />`	výskyty slov jak a tak v proměnlivé vzdálenosti v rámci jakékoli jedné věty¹⁾

Struktura korpusů mluvené češtiny

V korpusech mluvené češtiny je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu:

doc - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor)
sp - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího a nesoucí jeho metadata
seg - nižší technická jednotka členění mluveného textu, v rámci jednotek sp

Struktuře sp se tradičně v textech o mluvených korpusech ČNK říká promluva, nicméně s lingvistickým konceptem téhož jména nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech ORAL2006 a ORAL2008 lze do velké míry hovořit o tom, že hranice jednotek sp odpovídají hranicím replik, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek sp s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat.

Dotaz	Vyhodnocení
`[word="ne"]</doc>`	výskyty slova ne na konci sondy
`<sp> [word="hm"]`	výskyty slova hm na začátku promluvy

Pozice jako strukturní jednotka

Z obecného pohledu je další strukturní jednotkou i pozice, tj. nejmenší jednotka, na niž je každý text v průběhu tokenizace rozčleněn. O pozicích se však jako o strukturách běžně neuvažuje. Vlastnosti pozic a jejich atributy popisuje samostatný článek o pozičních atributech.

Strukturní atributy (atributy strukturních jednotek)

Ke každé strukturní jednotce se váže jeden nebo víc strukturních atributů. Všechny jednotky mají standardně atribut id, který slouží pro jednoznačnou identifikaci strukturní jednotky v korpusu (nebo v rámci hierarchicky vyšší strukturní jednotky). Např. <doc> Sport 5. 4. 2012 v korpusu SYN2015 má následující hodnotu atributu id: id="sp120405", analogicky <opus> Lidové noviny, 28. 4. 2008 v korpusu SYN2010 má id="ln080428". Dokumenty nebo opusy se dále dělí na menší strukturní jednotky (např. <text> nebo <s>), každá z nich má přitom svůj jednoznačný identifikátor.

Strukturní atributy u korpusů řady SYN

Strukturní atributy korpusu SYN2015 a novějších

Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument <doc>. Ten se dále dělí na jednotlivé texty (každý dokument obsahuje alespoň jeden <text>) a dále na odstavce <p> a věty <s>. Většina metadat je vázána na atributy <doc> a <text>. Pro strukturu <doc> jsou to především tyto atributy (viz dokumentace k SYN2015):

title – název dokumentu nebo periodika
author – autor dokumentu
issue – vydání (u periodik)
publisher – vydavatel
pubplace – místo vydání
pubyear – rok vydání
translator – překladatel
srclang – zdrojový jazyk
txtype_group – skupina textových typů
txtype – textový typ
genre_group – skupina oborů/témat
genre – žánr/oblast
medium – médium dokumentu
periodicity – periodicita
audience – cílový adresát (obecný/dětský čtenář)
id – jednoznačný identifikátor

Pro jednotku <text> je u publicistických textů k dispozici informace o rubrice v následujících atributech:

section – generovaný typ rubriky (u vybraných periodik)
section_orig – původní název rubriky (u vybraných periodik)

Strukturní atributy korpusů z let 2005 až 2013

Většina strukturních atributů v korpusech SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN2013PUB a v korpusu SYN do verze 3 je vázána na strukturní jednotku <opus>. Základními strukturními atributy v korpusech psané češtiny jsou:

autor - autor/autoři opusu, příp. informace, že je autor nezjistitelný
nazev - název opusu (hlavní titul)
nakladatel - organizace, která dílo vydala
mistovyd - místo vydání
rokvyd - rok vydání té verze opusu, která je zařazena do korpusu (nemusí se tedy jednat o první vydání díla)
isbnissn - identifikátor ISBN, příp. ISSN
preklad - překladatel díla (nejedná-li se o původně české dílo)
srclang - zdrojový jazyk (nejedná-li se o původně české dílo - v tom případě tento atribut nenabývá žádné hodnoty: srclang="")
txtype_group - makroskupina textových typů: beletrie, odborná, publicistika
txtype - typ textu (blíže určený)
genre - žánr (text vymezený na základě pojednávaného tématu)
med - médium (původní způsob přenosu textu)
syn - atribut používaný pouze u nereferenčního korpusu SYN; označuje, z jakého referenčního korpusu text původně pochází

Strukturní atributy korpusu SYN2000

V korpusu SYN2000 je nabídka strukturních atributů výrazně omezená, všechny se navíc vážou ke strukturní jednotce <doc>:

opus - identifikátor díla (v pozdějších korpusech řady SYN odpovídá atributu id)
txtype - typ textu
temp - rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu rokvyd)

Na základě jednoznačného identifikátoru doc.opus je možné zjistit všechny dodatečné informace o textu v seznamech děl korpusu SYN2000. Při začlenění korpusu SYN2000 do nereferenčního korpusu SYN byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem (tedy na úrovni korpusu SYN2010).

Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy.

Dotaz	Vyhodnocení
`[word="ale"] within <opus autor="Topol, Filip" />`	všechny výskyty slova ale z děl Filipa Topola
`[word="moc"] within <opus txtype="(PUB)\|(SCI)" />`	všechny výskyty slova moc v opusech označených jako publicistika a vědeckonaučná literatura

Strukturní atributy mluvených korpusů

Některé atributy připouštějí hodnotu Y, která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).

Atributy společné všem jednotlivým korpusům řady ORAL

Struktura	Atribut	Popis	Možné hodnoty
doc	id	jednoznačný identifikátor sondy	`<řetězec čísel a velkých písmen>`
	temp	rok nahrání sondy	např. `2008`
	pocet	počet mluvčích v sondě	`<číslo>`
	promluva	typ promluvy	`N` (neformální)
sp	num	číselné označení mluvčího v rámci sondy (doc)	od `00` výš (podle počtu mluvčích, přičemž `00` označuje mluvčího, který rozhovor nahrával); možné je i `Y`
	pohlavi	pohlaví mluvčího	`{M` (muž)`, Z` (žena)`}` nebo `Y`
	vek	věková kategorie mluvčího	`{I` (iunior, mladší: ca 20–35 let)`,V` (vetus, starší: 35 let a více)`}` nebo `Y`
	veknum	věk mluvčího (číselně)	`<číslo>`
	vzdelani	vzdělání mluvčího (hrubé rozlišení)	`{A`(altus, vysokoškolské včetně pouze započatého)`,B`(basis, základní a středoškolské)`}` nebo `Y`
	vzdelanityp	vzdělání mluvčího (jemnější rozlišení)	`{SŠ,VŠ,ZŠ}` nebo `Y`
	oblast	nářeční oblast místa pobytu mluvčího v dětství (do 15 let)	`{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}` nebo `Y`

Atributy dostupné pouze v korpusu ORAL2013

Struktura	Atribut	Popis	Možné hodnoty
doc	vztah	vztah mezi mluvčími	`{přátelskost,známost}`
	situace	typ situace, v níž byla nahrávka pořízena	`{hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}`
sp	oznacenishody	jednoznačné označení mluvčího v rámci celého korpusu	`<řetězec malých písmen>`
	prekryv	nachází se tato promluva daného mluvčího v překryvu?	`{ano,ne}`

Atributy dostupné ve spojeném korpusu ORAL: údaje k nahrávce

Strukturní atribut	Příklad	Vysvětlení	Možné hodnoty	Poznámka
doc.id	06H080N	identifikační označení nahrávky - první dvojčíslí uvádí rok pořízení, písmeno na konci značí neformální (N) či formální situaci (F)	`<řetězec čísel a velkých písmen>`
doc.month	březen	měsíc pořízení nahrávky	`<řetězec malých písmen>`
doc.speakers	5	počet všech mluvčích v nahrávce	`<číslo>`
doc.formality	neformální	neformální situace	`{neformální, formální}`	v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (`N` pro neformální, `F` pro formální)
doc.preparedness	nepřipravená	označení, zda byl rozhovor předem připraven, či ne	`{připravená, nepřipravená}`	souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak
doc.audio	ne	informace, zda je k transkriptu dostupný zvuk	`{ano, ne}`	nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano
doc.year	2006	rok pořízení nahrávky
doc.location	Praha	místo pořízení nahrávky
doc. relationship	přátelský	vztah mluvčích v nahrávce	`{přátelský, znají se, neznají se}`	pod označení přátelský jsou zařazeny i rodinné vztahy
doc.situation	návštěva	označení, za jaké situace k hovoru došlo	`{návštěva, rozhovor doma, rozhovor u jídla doma, restaurace, oslava, posezení na zahradě}` a další
doc.tokens	9008	počet všech tokenů v nahrávce
doc.oral	2006	označuje korpus, z něhož nahrávka pochází	`{2006, 2008, 2013, Z}`
doc.number	2	počet mluvčích v nahrávce

Atributy dostupné ve spojeném korpusu ORAL: údaje k mluvčímu

Strukturní atribut	Příklad	Vysvětlení	Možné hodnoty
sp.nickname	Milena_2633	automaticky přiřazená přezdívka
sp.gender	M	pohlaví mluvčího	`{Z` (žena)`, M` (muž)`}` nebo `Y`
sp.edu_level	SŠ	nejvyšší dosažené vzdělání	`{SŠ, VŠ, ZŠ}` nebo `Y`
sp.age	54	věk mluvčího
sp.reg_current	středomoravská	nářeční oblast současného pobytu mluvčího	`{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}` nebo `Y`
sp.proportion	23 %	procentuální zastoupení řeči mluvčího v rámci celé nahrávky
sp.confederate	ne	informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách	`{ano, ne}`
sp.edu_binary	B	vzdělání mluvčího (hrubé rozlišení)	`{A` (altus, vysokoškolské včetně pouze započatého)`,B` (basis, základní a středoškolské)`}` nebo `Y`
sp.age_binary	I	věk mluvčího (hrubé rozlišení)	`{I` (iunior, mladší: cca 20–35 let)`,V` (vetus, starší: 35 let a více)`}` nebo `Y`
sp.reg_childhood	středomoravská	nářeční oblast místa pobytu mluvčího v dětství (do 15 let)	`{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}` nebo `Y`
sp.occupation	kvalifikovaný pracovník ve stavebnictví	specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco-	`{kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač}` a další
sp.overlap	ano	značí, zda se promluva daného mluvčího nachází v překryvu	`{ano, ne}`

Atributy dostupné pro mluvené korpusy s dvouúrovňovou transkripcí

Atributy pro korpus ORTOFON (navíc oproti spojenému korpusu ORAL)

Struktura	Atribut	Příklad	Vysvětlení	Možné hodnoty
doc	generations	1	počet generací mluvčích v nahrávce	`{1` (vrstevníci)`,2` (mladší a starší mluvčí v nahrávce)`}` atd.
	genders	smíšené		`{jen ženy, jen muži, smíšené}`
sp	locsize_childhood	město nad 100 tisíc	velikost sídla, kde mluvčí žil do 15 let věku	`{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}` nebo `Y`
	locsize_longest	město nad 100 tisíc	velikost sídla, kde mluvčí žil nejdelší dobu	`{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}` nebo `Y`
	locsize_current	město nad 100 tisíc	velikost sídla, kde mluvčí žije v současné době	`{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}` nebo `Y`
	soundfile	5/3/ef2e315f.mp3	číslo a formát nahrávky
	id	3784	identifikátor segmentu (struktury sp)
	edu_field	chemické obory	obor vzdělání	`{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}` a další, výběr oborů z předdefinovaného seznamu
	occupation	sociální pracovník
	occupation_category	jiný odborný pracovník	specifikace zaměstnání podle ČZSO
	loc_childhood	Praha	místo, kde mluvčí žil do 15 let
	reg_longest	severovýchodočeská	nářeční oblast, v níž mluvčí žil nejdéle	`{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}` nebo `Y`
para	type	šeptem	označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem	`{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}`
pw	-	-	struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt)	-
overlap	-	-	struktura obaluje pozice řečené v překryvu s jiným mluvčím	-
unclear	-	-	struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného	-

Atributy pro korpus DIALEKT: údaje k nahrávce

Strukturní atribut	Příklad	Vysvětlení	Možné hodnoty (položky jsou řazeny podle abecedy)	Poznámka
doc.id	001-C-SVC-1957-SA	identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky
doc.zdroj	Ústav Českého národního korpusu	zdroj nahrávky	`{Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně, Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}`
doc.rok	1957	rok pořízení nahrávky		195X - blíže neurčený rok v padesátých letech
doc.vrstva	stará	nářeční vrstva	`{nová, stará}`
doc.misto	Křečovice	místo pořízení nahrávky		část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)
doc.sidlotyp	městská lokalita	typ sídla	`{městská lokalita, venkovská lokalita}`
doc.sidlovelikost	nad 100 tis.	místo pořízení nahrávky - velikost sídla	`{méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500}`
doc.stat	Česká republika	místo pořízení nahrávky - stát	`{Česká republika, Polsko}`
doc.region	Čechy	místo pořízení nahrávky - region	`{Čechy, Morava, Slezsko}`
doc.noblast	středočeská	místo pořízení nahrávky - nářeční oblast	`{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál
doc.npodskupina	jižní (slovácká)	místo pořízení nahrávky - nářeční podskupina	`{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál
doc.núsek	západní (opavský)	místo pořízení nahrávky - nářeční úsek	`{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál
doc.ntyp	doudlebský	místo pořízení nahrávky - nářeční typ	`{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál
doc.okres	Domažlice	místo pořízení nahrávky - okres
doc.promluvatyp	monolog	typ promluvy podle dialogičnosti	`{dialog, monolog, převážně dialog, převážně monolog}`
doc.tema	Vánoce	téma promluvy
doc.pocetml	2	celkový počet mluvčích v nahrávce
doc.explorator	ano	přítomnost exploratora v nahrávce	`{ano, ne}`

Atributy pro korpus DIALEKT: údaje k mluvčímu

Strukturní atribut	Příklad	Vysvětlení	Možné hodnoty (položky jsou řazeny podle abecedy)	Poznámka
sp.id	2533	identifikátor segmentu (struktury sp)
sp.prezdivka	Dalibor_208	automaticky vygenerovaná přezdívka, ze které je patrné pohlaví
sp.explorator	ano	mluvčí je/není explorátor	`{ano, ne}`
sp.pohlavi	M: muž	pohlaví mluvčího	`{M: muž, Z: žena}`
sp.rok	1877	rok narození mluvčího
sp.veknum	85	věk mluvčího v době pořízení nahrávky		5X - věk mezi padesáti a šedesáti lety
sp.vek	V: nad 35 let	věková kategorie užívaná v mluvených korpusech	`{I: do 35 let, V: nad 35 let}`
sp.vzdelanitypI	A: vysokoškolské	vzdělání - typ užívaný ve všech mluvených korpusech	`{A: vysokoškolské, B: základní či střední}`
sp.vzdelanitypII	ZŠ	vzdělání - typ užívaný v mluvených korpusech řady ORAL	`{SOU, SŠ, VŠ, ZŠ}`
sp.profese	cestář	nejdelší zaměstnání mluvčího
sp.mistonej	Stachy	místo nejdelšího pobytu mluvčího		část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)
sp.statnej	Česká republika	nejdelší pobyt mluvčího - stát	`{Česká republika, Polsko}`
sp.regionnej	Čechy	nejdelší pobyt mluvčího - region	`{Čechy, Morava, Slezsko}`
sp.noblastnej	českomoravská	nejdelší pobyt mluvčího - nářeční oblast	`{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál
sp.npodskupinanej	severní (valašská)	nejdelší pobyt mluvčího - nářeční podskupina	`{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál
sp.nuseknej	východní (ostravský)	nejdelší pobyt mluvčího - nářeční úsek	`{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál
sp.ntypnej	jemnický	nejdelší pobyt mluvčího - nářeční typ	`{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál
sp.mistodet	Zápy	místo pobytu mluvčího v dětství (do 15 let)		část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)
sp.noblastdet	východomoravská	pobyt mluvčího v dětství (do 15 let) - nářeční oblast	`{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál

Atributy pro korpus ORATOR: údaje k nahrávce

Struktura	Atribut	Popis	Možné hodnoty (položky jsou řazeny podle abecedy)
doc	id	jednoznačný identifikátor sondy
	year	rok pořízení nahrávky
	location	místo nahrávky	obce ČR
	situation	typ situace	`ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení`
	framing	zaměření projevu	`oficiální, popularizační, politické, profesní, vědecké`
	genre	žánr projevu	hodnoty shodné s genderem u psaných korpusů
	audience_present	přítomnost publika	`ano, ne`
	intended_audience	jakému publiku je projev určen	`skupina, veřejnost`
	special	speciální příznak projevu	`čtené, pro děti, Y` (pro projevy bez příznaku)
	source	zdroj	`vlastní sběr, volně dostupná nahrávka`
	speakers	počet mluvčích v nahrávce
	length	délka nahrávky v minutách
	tokens	počet všech tokenů v nahrávce

Atributy pro korpus ORATOR: údaje k mluvčímu

Struktura	Atribut	Popis	Možné hodnoty (položky jsou řazeny podle abecedy)
sp	id	identifikátor segmentu
	nickname	přezdívka mluvčího	náhodně přidělená příjmení
	gender	pohlaví
	proportion	procentuální zastoupení řeči mluvčího v rámci celé nahrávky
	soundfile	číslo a formát nahrávky

Strukturní atributy korpusu InterCorp

V korpusech InterCorp nacházíme tyto strukturní jednotky opatřené jedinečnými identifikátory:

doc – dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat)
div – text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu
p – odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce
s – věta (sentence); dále je každý odstavec dělen na věty

Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty).

Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis verze 6, verze 7, verze 8, verze 9)