Korpus mluveného jazyka

Korpus mluveného jazyka (zkráceně též mluvený korpus) je jeden z typů korpusů, který se soustřeďuje na zachycení mluvy, mluveného jazyka. Zvukový záznam mluvy je v nich přepsán podle určitých transkripčních pravidel. Tento přepis (transkript) je zpravidla spojen se zvukovým záznamem. V transkriptu je možné vyhledávat podobně jako v psaných korpusech a speciální korpusový manažer umožňuje poslech zvukového záznamu příslušného vyhledaného úseku. Budování takovýchto korpusů je ve srovnání s vytvářením psaných korpusů velmi náročné časově, finančně i technicky. Vzhledem k této náročnosti začaly větší mluvené korpusy (okolo milionu přepsaných slovních tvarů) vznikat až koncem 20. století.

Rozdíl mezi psaností a mluveností není v korpusech chápán čistě mediálně - tj. to, co je realizováno vizuálně, je psané, a to, co je realizováno pomocí akustického signálu, je mluvené. V rámci mluvených „žánrů“ najdeme celou škálu projevů od nepřipravených, dialogických a v důsledku toho jazykově skutečně prototypických mluvených komunikátů až po texty čtené, dopředu připravené a monologické. Mluvené korpusy ČNK se soustředí především na typicky mluvené texty, které jsou s to reprezentovat lingvistické vlastnosti mluvené češtiny v její typické podobě.

Historie budování mluvených korpusů

Budování mluvených korpusů vychází z výzkumů mluvy, kterým se věnovali především dialektologové a fonetikové. Pro tento výzkum pořizovali nahrávky, které podle daných pravidel přepisovali (transkripce nářečních textů, fonetická transkripce apod.). Zvukové nahrávky a jejich transkripty vznikaly také v rámci konverzační analýzy a analýzy diskurzu se specifickými transkripčními pravidly a softwarovými nástroji. S budováním jazykových korpusů na konci 20. století se přikročilo i ke korpusům zachycujícím mluvené projevy.

Součástí souboru textů (vlastně korpusu), které v 70. letech sloužily jako podklad pro první Frekvenční slovník češtiny¹⁾, byly i mluvené projevy. Přepisy mluvených projevů jsou také součástí prvního velkého korpusu angličtiny BNC v rozsahu 10 milionu slov, což představuje 10 % z celého korpusu, tj. ze 100 mil. slov. Jedná se o přepisy nahrávek různých situací od neformální konverzace přes obchodní schůzky až po rozhlasové pořady.

Jako první mluvený korpus bývá označován London-Lund Corpus of Spoken English (pochází z projektu Survey of Spoken English, který začal na Lundské univerzitě budovat Jan Svartvik v roce 1975; tento projekt navazoval na projekt Survey of English Usage z roku 1959, který vedl Randolph Quirk). V tomto korpusu jsou zahrnuty různé typy mluvených projevů: monology i dialogy; telefonické rozhovory, spontánní i připravené; veřejné diskuse, část nahrávek zachycuje rozhovory, kdy mluvčí nevěděl, že je nahráván. Korpus je tvořen 100 vzorky po 5000 slovech. Přepis korpusu byl morfologicky anotován a byly v něm označeny prosodické a paralingvistické jevy.

Druhy mluvených korpusů a způsoby jejich využívání

Mluvené korpusy jsou budovány za různým účelem, z čehož pak vychází způsob pořizování nahrávek, výběr situací, pravidla přepisu i výsledné složení korpusu a jeho rozdělení na úseky při přepisování (tzv. segmentace: např. pro fonetické zkoumání segmentální roviny bude důležité, aby bylo možno sledovat výslovnost jednotlivých hlásek, pro zkoumání roviny suprasegmentální bude důležité dělení na přízvukové takty, které představují rytmické jednotky mluveného jazyka, jednotky zvukového členění promluvy; konverzační analýza potřebuje delší úryvky souvislého hovoru se střídáním komunikační aktivity mluvčích, tzv. repliky).

Část mluvených korpusů zachycuje také jen prostě čtený text. Takovéto korpusy slouží především k fonetickým výzkumům a trénování softwaru pro rozpoznávání mluvené řeči. Tento typ nahrávek (např. zprávy čtené v rozhlase či televizi) má dobrou kvalitu zvuku a snáze i rychle se získává. Nelze ho ale považovat za autentický mluvený jazyk.

Pro studium mluveného jazyka se využívají také videozáznamy přednášek především z akademického prostředí, které slouží např. ke zkoumání akademického odborného vyjadřování.

Korpusy obsahující videozáznamy (multimodální korpusy) z různých televizních pořadů jsou využívány ke zkoumání mediálního diskursu.

Zvláštním typem mluvených korpusů jsou nářeční korpusy, které zachycují stav nářečí na určitém teritoriu. Pokud slouží dialektologickým výzkumům, jsou nahráváni nejstarší mluvčí z tradičních nářečních oblastí, u kterých lze předpokládat, že užívají nářečních prvků ve větší míře. Takové korpusy pak také mohou sloužit k budování interaktivních jazykových atlasů.

Kritéria výstavby mluvených korpusů

Složení mluvených korpusů odráží účel jejich vzniku. Podobně jako psané korpusy se obecné mluvené korpusy snaží o reprezentativnost a co největší rozmanitost, která může vycházet z různých hledisek:

demografického (proporcionalita s ohledem na věk, vzdělání, pohlaví)
situačního (např. proporcionalita s ohledem na vzájemný vztah mluvčích, jejich sociální status, soukromost - veřejnost projevu, rozhovor tváří v tvář - telefonický)
geografického
časového (sledování konkrétního mluvčího v časových intervalech)
diskusního (např. ne/připravenost, monolog-dialog, jeden mluvčí vůči mnoha posluchačům)
tematického (téma je dáno, např. přednáška; spontánní hovor bez předchozího určení).

Se situací při nahrávání souvisí i kvalita nahrávek. Nejlepší nahrávky jsou pochopitelně možné s kvalitními přístroji ve studiovém prostředí. Takové se zpravidla pořizují pro fonetický výzkum, ale nelze je získat pro autentický spontánní rozhovor v soukromí nebo ve veřejném prostoru, kde mluvený projev ruší okolní zvuky.

Přepis a způsob zpracování a záznamu mluvených dat jsou realizovány podle účelu konkrétního mluveného korpusu: od velmi podrobného fonetického či fonologického, který je vhodný pro menší korpusy, až po ortografický přepis, který se snaží jednoduchým způsobem zachytit větší množství nahrávek a zajistit kompatibilitu při vyhledávání v těchto korpusech společně s psanými korpusy.

V současnosti bývá užíván transkript víceúrovňový: jedna úroveň slouží k lepší orientaci a usnadňuje vyhledávání (např. ortografický zápis) a další úrovně tvoří zpravidla různě podrobný fonetický zápis s určitou mírou úprav podle výzkumného účelu. Při transkripci je důležité pomocí tzv. časových značek spojit příslušné úseky zvukové nahrávky s jim odpovídajícím přepisem. K tomu slouží anotační programy jako např. ELAN, EXMARaLDA, Transcriber, software pro fonetický přepis a výzkum Praat.

Tyto nástroje umožňují segmentaci zvuku na úseky, ke kterým je pak připojen odpovídající přepis nebo několik úrovní přepisu. Lze v nich provádět i další vnější anotaci jako např. zachycení důležitých doprovodných informací k situaci při nahrávání (prostředí, témata, vztah mluvčích), k mluvčím (věk, vzdělání, nářeční oblast původu) nebo další lingvistická anotace jako např. morfologická, sémantická apod. Velkým problém při vlastním přepisu jsou úseky, ve kterých několik mluvčích hovoří současně, tzv. překryvy.

U mluvených korpusů je třeba zajistit ochranu osobních údajů, které se v nahrávce vyskytnou. Tyto údaje, jako je např. příjmení, jsou anonymizovány (pokud se nejedná o jména veřejně známých osob). V přepise jsou osobní údaje kódovány a ze zvukové stopy odstraněny.

České korpusy mluveného jazyka

Následující mluvené korpusy jsou přístupny prostřednictvím ČNK. V jejich přepisech je možné vyhledávat pomocí rozhraní KonText, zvukové záznamy jsou dostupné pouze pro novější z nich:

Pražský mluvený korpus (PMK) je prvním mluveným korpusem, zachycuje autentickou mluvu, tematicky nespecializovanou z oblasti Prahy a okolí. Vznikal v letech 1988–1996 pod vedením F. Čermáka a obsahuje 675 000 slov. U mluvčích zachycuje binárně 4 sociolingvistické proměnné: pohlaví (muž – žena), věk (mladší – do 35 let, – starší nad 35 let), vzdělání (nižší (základní a středoškolské) – vyšší (vysokoškolské)) a formálnost či neformálnost promluvy. Nahráváni byli pouze mluvčí žijící trvale na území Prahy a starší 18 let. Způsob přepisu se snaží co nejvěrněji zachytit mluvený jazyk, především z hlediska jeho neformálnosti. Je to zatím jediný plně a poloautomaticky anotovaný český korpus zachycující i frazémy, idiomy a další víceslovné jednotky včetně citátových výrazů cizojazyčných, ale i zkratky; anotace zachycuje i valenci všech slovních druhů a bohatou sémantickou a funkční povahu všech slovních tvarů, včetně variability typické pro mluvený jazyk.
Brněnský mluvený korpus (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zpřístupňuje nahrávky autentického jazyka z Brna, které byly pořízeny v letech 1994–1999 pod vedením Z. Hladké. Obsahuje 490 000 slov. U mluvčích zachycuje stejné kategorie jako PMK. Jako způsob přepisu byla zvolena účelová kombinace fonetického zápisu a standardních pravopisných norem, na rozdíl od PMK zde byla tradiční interpunkce nahrazena pauzovou.
Korpusy řady ORAL vznikaly v Ústavu Českého národního korpusu od roku 2002 do roku 2011, kdy byly pořízeny poslední nahrávky (jejich další zpracování a anotace však pokračovaly i po tomto datu). Protože usilovaly o zachycení mluveného jazyka na širším teritoriu České republiky, další kategorie týkající se mluvčího přibyla nářeční oblast, ze které mluvčí pochází (středočeská, severovýchodočeská, jihozápadočeská, české pohraničí, česko-moravská, středomovská, východomoravská, slezská, moravské pohraničí). Tato kategorie významně ovlivňuje jazyk mluvčího, přestože cílem korpusů řady ORAL primárně není zachycení dialektu (na ten se soustřeďuje nový DIALEKT); zároveň se tyto korpusy snaží udržovat kontinuitu započatou korpusy PMK a BMK. Transkripční pravidla připravil na základě PMK Pavel Jančák. Nahrávány a přepisovány jsou pouze rozhovory v neformálních situacích.
ORAL2006 zachycuje mluvenou češtinu z celé oblasti českých nářečí v užším slova smyslu. I zde byly zachovány binární sociolingvistické kategorie pohlaví, věk a vzdělání, přibyla kategorie nářeční oblast původu mluvčího; kromě binárního rozlišení jsou tyto kategorie vyjádřeny i přesněji. Korpus obsahuje 1 milion slov, byl zpřístupněn v roce 2006.
ORAL2008 je milionový vyvážený korpus mluvené češtiny z oblasti Čech. Korpus byl vyvážen podle sociolingvistických kategorií pohlaví, vzdělání, věk a nářeční oblast původu mluvčího. Byl zpřístupněn v roce 2008.
ORAL2013 je největší z korpusů řady ORAL (2,8 mil. slov), který se od svých předchůdců odlišuje v řadě důležitých rysů (podrobnosti): jde především o propojení přepisu se zvukovou stopou, značení překryvů replik dvou mluvčích, proznačení shodných mluvčích a pokrytí celého území České republiky (tj. Čech, Moravy i Slezska).
Speciální Korpus školní komunikace SCHOLA2010, který vznikal pod vedením Karla Šebesty a Hany Goláňové, obsahuje 792 764 slov. Tento korpus zaznamenává mluvenou komunikaci během vyučovacích hodin na základních školách, gymnáziích a středních odborných školách. Nahrávky byly pořizovány v letech 2005–2008. Korpus je vyvážen vzhledem ke skupinám vyučovacích předmětů.

Následující korpusy jsou lemmatizovány a tagovány a propojeny se zvukem:

Korpus ORAL sdružuje data z korpusů řady ORAL a dalších nahrávek z let 2002-2011. Zvuk je dostupný pouze k části ORAL2013 a ORAL-Z. Korpus obsahuje 5,4 mil. slov a byl zpřístupněn v roce 2017.
ORTOFON je miliónový korpus zachycující mluvu z celé České republiky v období 2012-2017. Korpus je vyvážený vzhledem k pohlaví, věku, vzdělání a nářeční oblasti pobytu mluvčího v dětství. Korpus má dvouúrovňový přepis - ortografický a fonetický.
Nářeční korpus DIALEKT ukazuje tradiční teritoriální dialekty zachycené na území České republiky ve dvou obdobích: 50. - 80. léta 20. století a od 90. let 20. století dosud. Korpus má dvouúrovňový přepis - ortografický a dialektologický.
Korpus monologů ORATOR představuje projevy proslovené při příležitostech, o kterých jsou řečníci předem informováni a na něž se mohou připravit. Korpus má jednoúrovňový přepis.