Obsah
Struktury a strukturní atributy mluvených korpusů
Struktury korpusů mluvené češtiny
V korpusech mluvené češtiny se používají následující strukturní hierarchické jednotky:
- doc - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor)
- sp - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího a nesoucí jeho metadata (korpusy ORAL obsahují i nižší jednotku seg)
Struktuře sp se tradičně v textech o mluvených korpusech ČNK říká promluva, nicméně s lingvistickým konceptem téhož jména nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech ORAL2006 a ORAL2008 lze do velké míry hovořit o tom, že hranice jednotek sp odpovídají hranicím replik, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek sp s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat.
Dotaz | Vyhodnocení |
---|---|
[word="ne"]</doc> | výskyty slova ne na konci sondy |
<sp> [word="hmm"] | výskyty slova hmm na začátku promluvy |
Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. metadata), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže. Společně s tím uvádíme i další, tzv. nehierarchické struktury, které jsou u některých korpusů použity.
Strukturní atributy korpusu ORTOFON a spojeného korpusu ORAL
Korpusy ORTOFON a ORAL obsahují následující údaje:
Struktura | Atribut | Příklad | Vysvětlení | Možné hodnoty |
---|---|---|---|---|
doc | id | 06H080N | identifikační označení nahrávky - první dvojčíslí uvádí rok pořízení, písmeno na konci značí neformální (N) či formální situaci (F) | <řetězec čísel a velkých písmen> |
month | březen | měsíc pořízení nahrávky | <řetězec malých písmen> |
|
speakers | 5 | počet všech mluvčích v nahrávce | <číslo> |
|
formality | neformální | neformální situace (pozn.: v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (N pro neformální, F pro formální)) | {neformální, formální} |
|
preparedness | nepřipravená | označení, zda byl rozhovor předem připraven, či ne (pozn.: souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak) | {připravená, nepřipravená} |
|
audio | ne | informace, zda je k transkriptu dostupný zvuk (pozn.: nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano) | {ano, ne} |
|
year | 2006 | rok pořízení nahrávky | ||
location | Praha | místo pořízení nahrávky | ||
relationship | přátelský | vztah mluvčích v nahrávce (pozn.: pod označení přátelský jsou zařazeny i rodinné vztahy) | {přátelský, znají se, neznají se} |
|
situation | návštěva | označení, za jaké situace k hovoru došlo | {návštěva, rozhovor doma, rozhovor u jídla doma, restaurace, oslava, posezení na zahradě} a další |
|
tokens | 9008 | počet všech tokenů v nahrávce | ||
oral | 2006 | označuje korpus, z něhož nahrávka pochází | {2006, 2008, 2013, Z} |
|
number | 2 | počet mluvčích v nahrávce | ||
Tyto atributy pod strukturou doc jsou obsažené pouze v korpusu ORTOFON: |
||||
generations | 1 | počet generací mluvčích v nahrávce | {1 (vrstevníci),2 (mladší a starší mluvčí v nahrávce)} atd. |
|
genders | smíšené | {jen ženy, jen muži, smíšené} |
||
sp | nickname | Milena_2633 | automaticky přiřazená přezdívka | |
gender | M | pohlaví mluvčího | {Z (žena), M (muž)} nebo Y |
|
edu_level | SŠ | nejvyšší dosažené vzdělání | {SŠ, VŠ, ZŠ} nebo Y |
|
age | 54 | věk mluvčího | ||
reg_current | středomoravská | nářeční oblast současného pobytu mluvčího | {česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská} nebo Y |
|
proportion | 23 % | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | ||
confederate | ne | informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách | {ano, ne} |
|
edu_binary | B | vzdělání mluvčího (hrubé rozlišení) | {A (altus, vysokoškolské včetně pouze započatého),B (basis, základní a středoškolské)} nebo Y |
|
age_binary | I | věk mluvčího (hrubé rozlišení) | {I (iunior, mladší: cca 20–35 let),V (vetus, starší: 35 let a více)} nebo Y |
|
reg_childhood | středomoravská | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | {česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská} nebo Y |
|
occupation | kvalifikovaný pracovník ve stavebnictví | specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco- | {kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač} a další |
|
overlap | ano | značí, zda se promluva daného mluvčího nachází v překryvu | {ano, ne} |
|
Tyto atributy pod strukturou sp jsou obsažené pouze v korpusu ORTOFON: |
||||
locsize_childhood | město nad 100 tisíc | velikost sídla, kde mluvčí žil do 15 let věku | {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y |
|
locsize_longest | město nad 100 tisíc | velikost sídla, kde mluvčí žil nejdelší dobu | {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y |
|
locsize_current | město nad 100 tisíc | velikost sídla, kde mluvčí žije v současné době | {město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice} nebo Y |
|
soundfile | 5/3/ef2e315f.mp3 | číslo a formát nahrávky | ||
id | 3784 | identifikátor segmentu (struktury sp) | ||
edu_field | chemické obory | obor vzdělání | {ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost} a další, výběr oborů z předdefinovaného seznamu |
|
occupation | sociální pracovník | |||
occupation_category | jiný odborný pracovník | specifikace zaměstnání podle ČZSO | ||
loc_childhood | Praha | místo, kde mluvčí žil do 15 let | ||
reg_longest | severovýchodočeská | nářeční oblast, v níž mluvčí žil nejdéle | {česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská} nebo Y |
|
Nižší hierarchická struktura - obsažená pouze v korpusu ORAL: | ||||
seg | - | - | nižší technická jednotka členění mluveného textu | |
Další struktury a atributy jsou obsažené pouze v korpusu ORTOFON: | ||||
para | type | šeptem | označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem | {šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním} |
pw | - | - | struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) | - |
overlap | - | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - |
unclear | - | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - |
Strukturní atributy korpusu ORATOR
Korpus ORATOR obsahuje tyto údaje:
Struktura | Atribut | Popis | Možné hodnoty (položky jsou řazeny podle abecedy) |
---|---|---|---|
doc | id | jednoznačný identifikátor sondy | |
year | rok pořízení nahrávky | ||
location | místo nahrávky | obce ČR | |
situation | typ situace | {ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení} |
|
framing | zaměření projevu | {oficiální, popularizační, politické, profesní, vědecké} |
|
genre | žánr projevu | hodnoty shodné s atributem genre u psaných korpusů | |
audience_present | přítomnost publika | {ano, ne} |
|
intended_audience | jakému publiku je projev určen | {skupina, veřejnost} |
|
special | speciální příznak projevu | {čtené, pro děti, Y} (Y pro projevy bez příznaku) |
|
source | zdroj | {vlastní sběr, volně dostupná nahrávka} |
|
speakers | počet mluvčích v nahrávce | ||
length | délka nahrávky v minutách | ||
tokens | počet všech tokenů v nahrávce | ||
sp | id | identifikátor segmentu | unikátní číslo pro každý segment |
nickname | přezdívka mluvčího | náhodně přidělená příjmení | |
speaker_id | číslo doplňující přezdívku mluvčího | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího | |
gender | pohlaví | ||
proportion | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | ||
soundfile | číslo a formát nahrávky |
Strukturní atributy korpusu DIALEKT
Korpus DIALEKT obsahuje tyto údaje:
Struktura | Atribut | Příklad | Vysvětlení | Možné hodnoty (položky jsou řazeny podle abecedy) | Poznámka |
---|---|---|---|---|---|
doc | id | 001-C-SVC-1957-SA | identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky | ||
zdroj | Ústav Českého národního korpusu | zdroj nahrávky | {Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně, Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA} | ||
rok | 1957 | rok pořízení nahrávky | 195X - blíže neurčený rok v padesátých letech | ||
vrstva | stará | nářeční vrstva | {nová, stará} | ||
misto | Křečovice | místo pořízení nahrávky | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov) | ||
sidlotyp | městská lokalita | typ sídla | {městská lokalita, venkovská lokalita} | ||
sidlovelikost | nad 100 tis. | místo pořízení nahrávky - velikost sídla | {méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500} | ||
stat | Česká republika | místo pořízení nahrávky - stát | {Česká republika, Polsko} | ||
region | Čechy | místo pořízení nahrávky - region | {Čechy, Morava, Slezsko} | ||
noblast | středočeská | místo pořízení nahrávky - nářeční oblast | {českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
npodskupina | jižní (slovácká) | místo pořízení nahrávky - nářeční podskupina | {centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
núsek | západní (opavský) | místo pořízení nahrávky - nářeční úsek | {českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
ntyp | doudlebský | místo pořízení nahrávky - nářeční typ | {čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
okres | Domažlice | místo pořízení nahrávky - okres | |||
promluvatyp | monolog | typ promluvy podle dialogičnosti | {dialog, monolog, převážně dialog, převážně monolog} | ||
tema | Vánoce | téma promluvy | |||
pocetml | 2 | celkový počet mluvčích v nahrávce | |||
explorator | ano | přítomnost exploratora v nahrávce | {ano, ne} | ||
sp | id | 2533 | identifikátor segmentu (struktury sp) | ||
prezdivka | Dalibor_208 | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví | |||
explorator | ano | mluvčí je/není explorátor | {ano, ne} | ||
pohlavi | M: muž | pohlaví mluvčího | {M: muž, Z: žena} | ||
rok | 1877 | rok narození mluvčího | |||
veknum | 85 | věk mluvčího v době pořízení nahrávky | 5X - věk mezi padesáti a šedesáti lety | ||
vek | V: nad 35 let | věková kategorie užívaná v mluvených korpusech | {I: do 35 let, V: nad 35 let} | ||
vzdelanitypI | A: vysokoškolské | vzdělání - typ užívaný ve všech mluvených korpusech | {A: vysokoškolské, B: základní či střední} | ||
vzdelanitypII | ZŠ | vzdělání - typ užívaný v mluvených korpusech řady ORAL | {SOU, SŠ, VŠ, ZŠ} | ||
profese | cestář | nejdelší zaměstnání mluvčího | |||
mistonej | Stachy | místo nejdelšího pobytu mluvčího | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov) | ||
statnej | Česká republika | nejdelší pobyt mluvčího - stát | {Česká republika, Polsko} | ||
regionnej | Čechy | nejdelší pobyt mluvčího - region | {Čechy, Morava, Slezsko} | ||
noblastnej | českomoravská | nejdelší pobyt mluvčího - nářeční oblast | {českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
npodskupinanej | severní (valašská) | nejdelší pobyt mluvčího - nářeční podskupina | {centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
nuseknej | východní (ostravský) | nejdelší pobyt mluvčího - nářeční úsek | {českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
ntypnej | jemnický | nejdelší pobyt mluvčího - nářeční typ | {čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
mistodet | Zápy | místo pobytu mluvčího v dětství (do 15 let) | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov) | ||
noblastdet | východomoravská | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | {českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská} | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
Strukturní atributy korpusu Jazyky v migraci
Korpus Jazyky v migraci obsahuje následující údaje:
Struktura | Atribut | Příklad | Vysvětlení | Možné hodnoty |
---|---|---|---|---|
doc | id | A1CS11 | unikátní identifikátor nahrávky | <řetězec čísel a velkých písmen> |
language | cs | hlavní jazyk | {cs, de} |
|
speakers | 1 | počet mluvčích, vyjma explorátory | <číslo> |
|
situation_cs | doma | popis situace česky | {doma, kancelář, veřejný prostor} |
|
situation_de | zu Hause | popis situace německy | {Büro, zu Hause, öffentlicher Raum} |
|
topics_cs | emigrace|známí|škola | témata česky | více možností, vč. multihodnot | |
topics_de | Auswanderung|Bekannte|Schule | témata německy | více možností, vč. multihodnot | |
sp | id | A1CS11:187 | unikátní identifikátor segmentu | <doc.id>:<pořadové číslo v rámci nahrávky> |
nickname | Erika B. | přezdívka mluvčího | ||
gender | F | pohlaví mluvčího | {F, M} |
|
born | 1956 | rok narození mluvčího | <číslo> |
|
immigrated | 1968 | rok emigrace mluvčího do Německa | <číslo> |
|
reg_birth | Liberecký kraj | region narození mluvčího | {Hlavní město Praha, Jihočeský kraj, Karlovarský kraj, Královéhradecký kraj, Liberecký kraj, Moravskoslezský kraj, Olomoucký kraj, Plzeňský kraj, západní Čechy, Ústecký kraj} |
|
reg_current | Bayern | region současného pobytu mluvčího | {Baden-Württemberg, Bayern, Hessen} |
|
loctype_birth_cs | venkov | typ místa narození mluvčího česky | {město, venkov} |
|
loctype_birth_de | ländlich | typ místa narození mluvčího německy | {ländlich, städtisch} |
|
loctype_current_cs | venkov | typ místa současného pobytu mluvčího česky | {město, venkov} |
|
loctype_current_de | ländlich | typ místa současného pobytu mluvčího německy | {ländlich, städtisch} |
|
generation_cs | pozdní vysídlenci | generace mluvčího česky | {migranti, pozdní vysídlenci} |
|
generation_de | Spätaussiedler:innen | generace mluvčího německy | {Migrant:innen, Spätaussiedler:innen} |
|
education_cs | VŠ | vzdělání mluvčího česky | {SŠ, VŠ} |
|
education_de | Hochschulabschluss | vzdělání mluvčího německy | {Abitur/Berufsbildende Schule, Hochschulabschluss} |
|
langgener_category | PAT|AA | viz první tabulka v sekci Značkování v popisu korpusu | hodnoty z tabulky jako multihodnoty dle pořadí výskytu v segmentu (mohou se i opakovat) | |
syntactic_phrase | VP|NP | viz druhá tabulka v sekci Značkování v popisu korpusu | hodnoty z tabulky jako multihodnoty dle pořadí výskytu v segmentu (mohou se i opakovat) | |
soundfile | 7/f/66466a1f.mp3 | soubor s odpovídající zvukovou nahrávkou |
Strukturní atributy korpusů ORAL2006, ORAL2008 a ORAL2013
Korpusy ORAL2006, ORAL2008 a ORAL2013 obsahují následující údaje:
Struktura | Atribut | Popis | Možné hodnoty |
---|---|---|---|
doc | id | jednoznačný identifikátor sondy | <řetězec čísel a velkých písmen> |
temp | rok nahrání sondy | např. 2008 |
|
pocet | počet mluvčích v sondě | <číslo> |
|
promluva | typ promluvy | N (neformální) |
|
Další atributy pod strukturou doc jsou obsažené pouze v korpusu ORAL2013: |
|||
vztah | vztah mezi mluvčími | {přátelskost,známost} |
|
situace | typ situace, v níž byla nahrávka pořízena | {hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet} |
|
sp | num | číselné označení mluvčího v rámci sondy (doc) | od 00 výš (podle počtu mluvčích, přičemž 00 označuje mluvčího, který rozhovor nahrával); možné je i Y |
pohlavi | pohlaví mluvčího | {M (muž), Z (žena)} nebo Y |
|
vek | věková kategorie mluvčího | {I (iunior, mladší: ca 20–35 let),V (vetus, starší: 35 let a více)} nebo Y |
|
veknum | věk mluvčího (číselně) | <číslo> |
|
vzdelani | vzdělání mluvčího (hrubé rozlišení) | {A (altus, vysokoškolské včetně pouze započatého),B (basis, základní a středoškolské)} nebo Y |
|
vzdelanityp | vzdělání mluvčího (jemnější rozlišení) | {SŠ,VŠ,ZŠ} nebo Y |
|
oblast | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | {česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská} nebo Y |
|
Další atributy pod strukturou sp jsou obsažené pouze v korpusu ORAL2013: |
|||
oznacenishody | jednoznačné označení mluvčího v rámci celého korpusu | <řetězec malých písmen> |
|
prekryv | nachází se tato promluva daného mluvčího v překryvu? | {ano,ne} |
|
seg | - | nižší hierarchická jednotka členění mluveného textu |
Pozn. Některé atributy mluvených korpusů připouštějí hodnotu Y
, která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).