AplikaceAplikace
Nastavení

Korpus monologů: ORATOR

Korpus ORATOR obsahuje monologické projevy pronesené rodilými mluvčími češtiny při příležitostech, o kterých jsou předem informováni a na něž se mohou připravit. Mluvčí má předem daný časově vymezený prostor, ve kterém může a musí vytvářet svůj projev. S tím souvisí větší formálnost, až oficiálnost těchto situací. Data tohoto typu v mluvených korpusech češtiny dosud chyběla.

Transkripční pravidla, způsob propojení se zvukem a většina metadat jsou stejné jako v korpusu ORTOFON, stejným postupem jako korpusy ORAL a ORTOFON je korpus ORATOR i lemmatizován a morfologicky značkován. Transkripce je jednoúrovňová, ortografická. Korpus není vyvažován podle žádného z kritérií a v roce 2020 proběhlo jeho rozšíření ve verzi 2 na více než dvojnásobnou velikost oproti verzi 1. Krom toho došlo k mnoha drobným vylepšením v konzistentnosti transkripce a v anotaci. Obě verze zůstávají dostupné.

Název ORATOR•v1 ORATOR•v2
Počet pozic (tokenů) 736 407 1 535 609
Počet pozic (tokenů) bez interpunkce, hezitačních a citoslovečných zvuků a komentářů 578 398 1 207 255
Počet slovních tvarů (wordů) 60 952 97 816
Počet nahrávek monologů 318 489
Počet promluv 68 727 147 867
Počet unikátních (různých) mluvčích 332 468
Délka nahrávek [hh:mm:ss.ms] 72:07:47.368 148:51:51.56

Složení korpusu a sběr dat

Korpus ORATOR se skládá z 318 nahrávek z let 2005–2019 od 332 mluvčích. Délka nahrávek se pohybuje od 13 sekund po 49 minut; některé dlouhé přednášky jsou z technických důvodů rozděleny do více částí.

Cílem korpusu je představit různé typy monologů, které se v mluveném jazyce objevují a jež jsme schopni zachytit. Nejedná se tedy pouze o přednášky, jak bývá u tohoto typu korpusu obvyklé, ale jsou zahrnuty i velmi krátké monology, jako jsou úvody různých společenských akcí, přípitky, uvítání hostů, vyhlášení výsledků soutěží apod. Mluvčí při nich často reprezentuje určitou instituci, vědní nebo zájmový obor či má jasně vymezenou společenskou roli. Získaný materiál byl rozčleněn do 12 typů situací (viz tabulka Atributy pro korpus ORATOR: údaje k nahrávce na stránce shrnující strukturní atributy dostupné v korpusech ČNK).

Přestože jde o monology, objevují se zde i nahrávky s větším počtem mluvčích. K těm patří především projevy střídajících se mluvčích se vstupy moderátora, který jednotlivé mluvčí uvádí, nebo projevy následující v těsném sledu.

Původními kritérii pro zařazení nahrávky do korpusu bylo, že nesmí jít o čtený projev a že se musí odehrát za přítomnosti publika. To znamená, že nesmí jít o projev připravený pro web, protože u něj není možné zjistit, zda nebyl pořizován opakovaně a dodatečně upravován. Nelze tedy zaručit autentické zachycení monologu za obvyklých podmínek, kdy je mluvčí vystaven určitým očekáváním ze strany publika, je ovlivněn jeho přítomností a zároveň formou příslušné události. Při sběru dat jsme však opakovaně naráželi na fakt, že při určitých příležitostech je (částečně) čtená forma obvyklou součástí monologů, protože jde například o ceremoniály, kde je třeba dodržet formu (např. promoce), nebo dokonce právní závaznost (svatební obřad), součástí přednášky bývají citace, případně je projev tlumočen. Rozhodli jsme se tedy pro komplexnější doplnění obrazu monologů zařadit i malé množství (18 nahrávek) čtených nebo částečně čtených projevů. Ze stejných důvodů jsme vybrali i několik (celkem 9) nahrávek bez přítomnosti publika, zprostředkovaných široké veřejnosti přes internet; jde o přednášky nebo novoroční projevy. Každý z těchto typů tvoří asi 3 % rozsahu celého korpusu.

Nahrávky byly pořizovány na různých místech ČR nebo byly se souhlasem mluvčího staženy z internetu. Kromě výše uvedených 9 případů nahrávky vždy zachycují komunikační situaci za přítomnosti publika a v autentickém prostředí. Korpus není vyvažován ani podle genderu mluvčích, převažují v něm muži.

Nové informace k nahrávce

Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení, ve verzi 1 spojená s číslem (např. Janoušková_1805, Malý_1248), ve verzi 2 pak s rozlišující iniciálou (např. Veselý M., Bittnerová, R.).

Přibyly ale nové, podrobnější informace k nahrávce:

  • zaměření projevu (oficiální, popularizační, politické, profesní, vědecké)
  • podrobnější zařazení situace do 12 kategorií (ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla nebo umělce, veřejné shromáždění, zahájení a zakončení)
  • určení žánrů, které jsou totožné s žánry rozlišovanými v psaných korpusech
  • jakému publiku je nahrávka určena (zda jde o veřejnost, nebo menší, profesní či zájmovou skupinu)
  • speciální informace: určeno pro děti či čtené

Všechny strukturní atributy jsou souhrnně uvedeny v přehledu strukturních atributů.

Poděkování

Děkujeme všem, kdo se podíleli na vyhledávání, pořizování, přepisu a kontrole nahrávek. Děkujeme také všem mluvčím, kteří laskavě poskytli svůj souhlas se zařazením svého projevu do tohoto korpusu.

Jak citovat

Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: ORATOR v2: Korpus monologů. Ústav Českého národního korpusu FF UK, Praha 2020 dostupný z: https://www.korpus.cz.

Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P.: ORATOR v1: Korpus monologů. Ústav Českého národního korpusu FF UK, Praha 2019 dostupný z: https://www.korpus.cz.