seznamy:strukturni_atributy_mluvene

V korpusech mluvené češtiny se používají následující strukturní hierarchické jednotky:

doc - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor)
sp - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího a nesoucí jeho metadata (korpusy ORAL obsahují i nižší jednotku seg)

Struktuře sp se tradičně v textech o mluvených korpusech ČNK říká promluva, nicméně s lingvistickým konceptem téhož jména nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech ORAL2006 a ORAL2008 lze do velké míry hovořit o tom, že hranice jednotek sp odpovídají hranicím replik, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek sp s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat.

Dotaz	Vyhodnocení
`[word="ne"]</doc>`	výskyty slova ne na konci sondy
`<sp> [word="hmm"]`	výskyty slova hmm na začátku promluvy

Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. metadata), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže. Společně s tím uvádíme i další, tzv. nehierarchické struktury, které jsou u některých korpusů použity.

Korpusy ORTOFON a ORAL obsahují následující údaje:

Struktura	Atribut	Příklad	Vysvětlení	Možné hodnoty
doc	id	06H080N	identifikační označení nahrávky - první dvojčíslí uvádí rok pořízení, písmeno na konci značí neformální (N) či formální situaci (F)	`<řetězec čísel a velkých písmen>`
	month	březen	měsíc pořízení nahrávky	`<řetězec malých písmen>`
	speakers	5	počet všech mluvčích v nahrávce	`<číslo>`
	formality	neformální	neformální situace (pozn.: v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (`N` pro neformální, `F` pro formální))	`{neformální, formální}`
	preparedness	nepřipravená	označení, zda byl rozhovor předem připraven, či ne (pozn.: souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak)	`{připravená, nepřipravená}`
	audio	ne	informace, zda je k transkriptu dostupný zvuk (pozn.: nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano)	`{ano, ne}`
	year	2006	rok pořízení nahrávky
	location	Praha	místo pořízení nahrávky
	relationship	přátelský	vztah mluvčích v nahrávce (pozn.: pod označení přátelský jsou zařazeny i rodinné vztahy)	`{přátelský, znají se, neznají se}`
	situation	návštěva	označení, za jaké situace k hovoru došlo	`{návštěva, rozhovor doma, rozhovor u jídla doma, restaurace, oslava, posezení na zahradě}` a další
	tokens	9008	počet všech tokenů v nahrávce
	oral	2006	označuje korpus, z něhož nahrávka pochází	`{2006, 2008, 2013, Z}`
	number	2	počet mluvčích v nahrávce
	Tyto atributy pod strukturou `doc` jsou obsažené pouze v korpusu ORTOFON:
	generations	1	počet generací mluvčích v nahrávce	`{1` (vrstevníci)`,2` (mladší a starší mluvčí v nahrávce)`}` atd.
	genders	smíšené		`{jen ženy, jen muži, smíšené}`
sp	nickname	Milena_2633	automaticky přiřazená přezdívka
	gender	M	pohlaví mluvčího	`{Z` (žena)`, M` (muž)`}` nebo `Y`
	edu_level	SŠ	nejvyšší dosažené vzdělání	`{SŠ, VŠ, ZŠ}` nebo `Y`
	age	54	věk mluvčího
	reg_current	středomoravská	nářeční oblast současného pobytu mluvčího	`{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}` nebo `Y`
	proportion	23 %	procentuální zastoupení řeči mluvčího v rámci celé nahrávky
	confederate	ne	informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách	`{ano, ne}`
	edu_binary	B	vzdělání mluvčího (hrubé rozlišení)	`{A` (altus, vysokoškolské včetně pouze započatého)`,B` (basis, základní a středoškolské)`}` nebo `Y`
	age_binary	I	věk mluvčího (hrubé rozlišení)	`{I` (iunior, mladší: cca 20–35 let)`,V` (vetus, starší: 35 let a více)`}` nebo `Y`
	reg_childhood	středomoravská	nářeční oblast místa pobytu mluvčího v dětství (do 15 let)	`{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}` nebo `Y`
	occupation	kvalifikovaný pracovník ve stavebnictví	specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco-	`{kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač}` a další
	overlap	ano	značí, zda se promluva daného mluvčího nachází v překryvu	`{ano, ne}`
	Tyto atributy pod strukturou `sp` jsou obsažené pouze v korpusu ORTOFON:
	locsize_childhood	město nad 100 tisíc	velikost sídla, kde mluvčí žil do 15 let věku	`{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}` nebo `Y`
	locsize_longest	město nad 100 tisíc	velikost sídla, kde mluvčí žil nejdelší dobu	`{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}` nebo `Y`
	locsize_current	město nad 100 tisíc	velikost sídla, kde mluvčí žije v současné době	`{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}` nebo `Y`
	soundfile	5/3/ef2e315f.mp3	číslo a formát nahrávky
	id	3784	identifikátor segmentu (struktury sp)
	edu_field	chemické obory	obor vzdělání	`{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}` a další, výběr oborů z předdefinovaného seznamu
	occupation	sociální pracovník
	occupation_category	jiný odborný pracovník	specifikace zaměstnání podle ČZSO
	loc_childhood	Praha	místo, kde mluvčí žil do 15 let
	reg_longest	severovýchodočeská	nářeční oblast, v níž mluvčí žil nejdéle	`{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}` nebo `Y`
Nižší hierarchická struktura - obsažená pouze v korpusu ORAL:
seg	-	-	nižší technická jednotka členění mluveného textu
Další struktury a atributy jsou obsažené pouze v korpusu ORTOFON:
para	type	šeptem	označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem	`{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}`
pw	-	-	struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt)	-
overlap	-	-	struktura obaluje pozice řečené v překryvu s jiným mluvčím	-
unclear	-	-	struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného	-

Korpus ORATOR obsahuje tyto údaje:

Struktura	Atribut	Popis	Možné hodnoty (položky jsou řazeny podle abecedy)
doc	id	jednoznačný identifikátor sondy
	year	rok pořízení nahrávky
	location	místo nahrávky	obce ČR
	situation	typ situace	`{ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení}`
	framing	zaměření projevu	`{oficiální, popularizační, politické, profesní, vědecké}`
	genre	žánr projevu	hodnoty shodné s atributem genre u psaných korpusů
	audience_present	přítomnost publika	`{ano, ne}`
	intended_audience	jakému publiku je projev určen	`{skupina, veřejnost}`
	special	speciální příznak projevu	`{čtené, pro děti, Y}` (`Y` pro projevy bez příznaku)
	source	zdroj	`{vlastní sběr, volně dostupná nahrávka}`
	speakers	počet mluvčích v nahrávce
	length	délka nahrávky v minutách
	tokens	počet všech tokenů v nahrávce
sp	id	identifikátor segmentu	unikátní číslo pro každý segment
	nickname	přezdívka mluvčího	náhodně přidělená příjmení
	speaker_id	číslo doplňující přezdívku mluvčího	stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího
	gender	pohlaví
	proportion	procentuální zastoupení řeči mluvčího v rámci celé nahrávky
	soundfile	číslo a formát nahrávky

Korpus DIALEKT obsahuje tyto údaje:

Struktura	Atribut	Příklad	Vysvětlení	Možné hodnoty (položky jsou řazeny podle abecedy)	Poznámka
doc	id	001-C-SVC-1957-SA	identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky
	zdroj	Ústav Českého národního korpusu	zdroj nahrávky	`{Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně, Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}`
	rok	1957	rok pořízení nahrávky		195X - blíže neurčený rok v padesátých letech
	vrstva	stará	nářeční vrstva	`{nová, stará}`
	misto	Křečovice	místo pořízení nahrávky		část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)
	sidlotyp	městská lokalita	typ sídla	`{městská lokalita, venkovská lokalita}`
	sidlovelikost	nad 100 tis.	místo pořízení nahrávky - velikost sídla	`{méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500}`
	stat	Česká republika	místo pořízení nahrávky - stát	`{Česká republika, Polsko}`
	region	Čechy	místo pořízení nahrávky - region	`{Čechy, Morava, Slezsko}`
	noblast	středočeská	místo pořízení nahrávky - nářeční oblast	`{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál
	npodskupina	jižní (slovácká)	místo pořízení nahrávky - nářeční podskupina	`{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál
	núsek	západní (opavský)	místo pořízení nahrávky - nářeční úsek	`{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál
	ntyp	doudlebský	místo pořízení nahrávky - nářeční typ	`{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál
	okres	Domažlice	místo pořízení nahrávky - okres
	promluvatyp	monolog	typ promluvy podle dialogičnosti	`{dialog, monolog, převážně dialog, převážně monolog}`
	tema	Vánoce	téma promluvy
	pocetml	2	celkový počet mluvčích v nahrávce
	explorator	ano	přítomnost exploratora v nahrávce	`{ano, ne}`
sp	id	2533	identifikátor segmentu (struktury sp)
	prezdivka	Dalibor_208	automaticky vygenerovaná přezdívka, ze které je patrné pohlaví
	explorator	ano	mluvčí je/není explorátor	`{ano, ne}`
	pohlavi	M: muž	pohlaví mluvčího	`{M: muž, Z: žena}`
	rok	1877	rok narození mluvčího
	veknum	85	věk mluvčího v době pořízení nahrávky		5X - věk mezi padesáti a šedesáti lety
	vek	V: nad 35 let	věková kategorie užívaná v mluvených korpusech	`{I: do 35 let, V: nad 35 let}`
	vzdelanitypI	A: vysokoškolské	vzdělání - typ užívaný ve všech mluvených korpusech	`{A: vysokoškolské, B: základní či střední}`
	vzdelanitypII	ZŠ	vzdělání - typ užívaný v mluvených korpusech řady ORAL	`{SOU, SŠ, VŠ, ZŠ}`
	profese	cestář	nejdelší zaměstnání mluvčího
	mistonej	Stachy	místo nejdelšího pobytu mluvčího		část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)
	statnej	Česká republika	nejdelší pobyt mluvčího - stát	`{Česká republika, Polsko}`
	regionnej	Čechy	nejdelší pobyt mluvčího - region	`{Čechy, Morava, Slezsko}`
	noblastnej	českomoravská	nejdelší pobyt mluvčího - nářeční oblast	`{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál
	npodskupinanej	severní (valašská)	nejdelší pobyt mluvčího - nářeční podskupina	`{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál
	nuseknej	východní (ostravský)	nejdelší pobyt mluvčího - nářeční úsek	`{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál
	ntypnej	jemnický	nejdelší pobyt mluvčího - nářeční typ	`{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál
	mistodet	Zápy	místo pobytu mluvčího v dětství (do 15 let)		část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)
	noblastdet	východomoravská	pobyt mluvčího v dětství (do 15 let) - nářeční oblast	`{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}`	pouze hodnoty, pro které se v korpusu nachází nářeční materiál

Korpusy ORAL2006, ORAL2008 a ORAL2013 obsahují následující údaje:

Struktura	Atribut	Popis	Možné hodnoty
doc	id	jednoznačný identifikátor sondy	`<řetězec čísel a velkých písmen>`
	temp	rok nahrání sondy	např. `2008`
	pocet	počet mluvčích v sondě	`<číslo>`
	promluva	typ promluvy	`N` (neformální)
	Další atributy pod strukturou `doc` jsou obsažené pouze v korpusu ORAL2013:
	vztah	vztah mezi mluvčími	`{přátelskost,známost}`
	situace	typ situace, v níž byla nahrávka pořízena	`{hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}`
sp	num	číselné označení mluvčího v rámci sondy (doc)	od `00` výš (podle počtu mluvčích, přičemž `00` označuje mluvčího, který rozhovor nahrával); možné je i `Y`
	pohlavi	pohlaví mluvčího	`{M` (muž)`, Z` (žena)`}` nebo `Y`
	vek	věková kategorie mluvčího	`{I` (iunior, mladší: ca 20–35 let)`,V` (vetus, starší: 35 let a více)`}` nebo `Y`
	veknum	věk mluvčího (číselně)	`<číslo>`
	vzdelani	vzdělání mluvčího (hrubé rozlišení)	`{A`(altus, vysokoškolské včetně pouze započatého)`,B`(basis, základní a středoškolské)`}` nebo `Y`
	vzdelanityp	vzdělání mluvčího (jemnější rozlišení)	`{SŠ,VŠ,ZŠ}` nebo `Y`
	oblast	nářeční oblast místa pobytu mluvčího v dětství (do 15 let)	`{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}` nebo `Y`
	Další atributy pod strukturou `sp` jsou obsažené pouze v korpusu ORAL2013:
	oznacenishody	jednoznačné označení mluvčího v rámci celého korpusu	`<řetězec malých písmen>`
	prekryv	nachází se tato promluva daného mluvčího v překryvu?	`{ano,ne}`
seg	-	nižší hierarchická jednotka členění mluveného textu

Pozn. Některé atributy mluvených korpusů připouštějí hodnotu Y, která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).

Korpus Jazyky v migraci obsahuje následující údaje:

Struktura	Atribut	Příklad	Vysvětlení	Možné hodnoty
doc	id	A1CS11	unikátní identifikátor nahrávky	`<řetězec čísel a velkých písmen>`
	language	cs	hlavní jazyk	`{cs, de}`
	speakers	1	počet mluvčích, vyjma explorátory	`<číslo>`
	situation_cs	doma	popis situace česky	`{doma, kancelář, veřejný prostor}`
	situation_de	zu Hause	popis situace německy	`{Büro, zu Hause, öffentlicher Raum}`
	topics_cs	emigrace\|známí\|škola	témata česky	více možností, vč. multihodnot
	topics_de	Auswanderung\|Bekannte\|Schule	témata německy	více možností, vč. multihodnot
sp	id	A1CS11:187	unikátní identifikátor segmentu	`<doc.id>:<pořadové číslo v rámci nahrávky>`
	nickname	Erika B.	přezdívka mluvčího
	gender	F	pohlaví mluvčího	`{F, M}`
	born	1956	rok narození mluvčího	`<číslo>`
	immigrated	1968	rok emigrace mluvčího do Německa	`<číslo>`
	reg_birth	Liberecký kraj	region narození mluvčího	`{Hlavní město Praha, Jihočeský kraj, Karlovarský kraj, Královéhradecký kraj, Liberecký kraj, Moravskoslezský kraj, Olomoucký kraj, Plzeňský kraj, západní Čechy, Ústecký kraj}`
	reg_current	Bayern	region současného pobytu mluvčího	`{Baden-Württemberg, Bayern, Hessen}`
	loctype_birth_cs	venkov	typ místa narození mluvčího česky	`{město, venkov}`
	loctype_birth_de	ländlich	typ místa narození mluvčího německy	`{ländlich, städtisch}`
	loctype_current_cs	venkov	typ místa současného pobytu mluvčího česky	`{město, venkov}`
	loctype_current_de	ländlich	typ místa současného pobytu mluvčího německy	`{ländlich, städtisch}`
	generation_cs	pozdní vysídlenci	generace mluvčího česky	`{migranti, pozdní vysídlenci}`
	generation_de	Spätaussiedler:innen	generace mluvčího německy	`{Migrant:innen, Spätaussiedler:innen}`
	education_cs	VŠ	vzdělání mluvčího česky	`{SŠ, VŠ}`
	education_de	Hochschulabschluss	vzdělání mluvčího německy	`{Abitur/Berufsbildende Schule, Hochschulabschluss}`
	langgener_category	PAT\|AA	viz první tabulka v sekci Značkování v popisu korpusu	hodnoty z tabulky jako multihodnoty dle pořadí výskytu v segmentu (mohou se i opakovat)
	syntactic_phrase	VP\|NP	viz druhá tabulka v sekci Značkování v popisu korpusu	hodnoty z tabulky jako multihodnoty dle pořadí výskytu v segmentu (mohou se i opakovat)
	soundfile	7/f/66466a1f.mp3	soubor s odpovídající zvukovou nahrávkou