Korpus mluveného jazyka (zkráceně též mluvený korpus) je jeden z typů korpusů, který se soustřeďuje na zachycení mluvy, mluveného jazyka. Zvukový záznam mluvy je v nich přepsán podle určitých transkripčních pravidel. Tento přepis (transkript) je zpravidla spojen se zvukovým záznamem. V transkriptu je možné vyhledávat podobně jako v psaných korpusech a speciální korpusový manažer umožňuje poslech zvukového záznamu příslušného vyhledaného úseku. Budování takovýchto korpusů je ve srovnání s vytvářením psaných korpusů velmi náročné časově, finančně i technicky. Vzhledem k této náročnosti začaly větší mluvené korpusy (okolo milionu přepsaných slovních tvarů) vznikat až koncem 20. století.
Rozdíl mezi psaností a mluveností není v korpusech chápán čistě mediálně - tj. to, co je realizováno vizuálně, je psané, a to, co je realizováno pomocí akustického signálu, je mluvené. V rámci mluvených „žánrů“ najdeme celou škálu projevů od nepřipravených, dialogických a v důsledku toho jazykově skutečně prototypických mluvených komunikátů až po texty čtené, dopředu připravené a monologické. Mluvené korpusy ČNK se soustředí především na typicky mluvené texty, které jsou s to reprezentovat lingvistické vlastnosti mluvené češtiny v její typické podobě.
Budování mluvených korpusů vychází z výzkumů mluvy, kterým se věnovali především dialektologové a fonetikové. Pro tento výzkum pořizovali nahrávky, které podle daných pravidel přepisovali (transkripce nářečních textů, fonetická transkripce apod.). Zvukové nahrávky a jejich transkripty vznikaly také v rámci konverzační analýzy a analýzy diskurzu se specifickými transkripčními pravidly a softwarovými nástroji. S budováním jazykových korpusů na konci 20. století se přikročilo i ke korpusům zachycujícím mluvené projevy.
Součástí souboru textů (vlastně korpusu), které v 70. letech sloužily jako podklad pro první Frekvenční slovník češtiny1), byly i mluvené projevy. Přepisy mluvených projevů jsou také součástí prvního velkého korpusu angličtiny BNC v rozsahu 10 milionu slov, což představuje 10 % z celého korpusu, tj. ze 100 mil. slov. Jedná se o přepisy nahrávek různých situací od neformální konverzace přes obchodní schůzky až po rozhlasové pořady.
Jako první mluvený korpus bývá označován London-Lund Corpus of Spoken English (pochází z projektu Survey of Spoken English, který začal na Lundské univerzitě budovat Jan Svartvik v roce 1975; tento projekt navazoval na projekt Survey of English Usage z roku 1959, který vedl Randolph Quirk). V tomto korpusu jsou zahrnuty různé typy mluvených projevů: monology i dialogy; telefonické rozhovory, spontánní i připravené; veřejné diskuse, část nahrávek zachycuje rozhovory, kdy mluvčí nevěděl, že je nahráván. Korpus je tvořen 100 vzorky po 5000 slovech. Přepis korpusu byl morfologicky anotován a byly v něm označeny prosodické a paralingvistické jevy.
Mluvené korpusy jsou budovány za různým účelem, z čehož pak vychází způsob pořizování nahrávek, výběr situací, pravidla přepisu i výsledné složení korpusu a jeho rozdělení na úseky při přepisování (tzv. segmentace: např. pro fonetické zkoumání segmentální roviny bude důležité, aby bylo možno sledovat výslovnost jednotlivých hlásek, pro zkoumání roviny suprasegmentální bude důležité dělení na přízvukové takty, které představují rytmické jednotky mluveného jazyka, jednotky zvukového členění promluvy; konverzační analýza potřebuje delší úryvky souvislého hovoru se střídáním komunikační aktivity mluvčích, tzv. repliky).
Část mluvených korpusů zachycuje také jen prostě čtený text. Takovéto korpusy slouží především k fonetickým výzkumům a trénování softwaru pro rozpoznávání mluvené řeči. Tento typ nahrávek (např. zprávy čtené v rozhlase či televizi) má dobrou kvalitu zvuku a snáze i rychle se získává. Nelze ho ale považovat za autentický mluvený jazyk.
Pro studium mluveného jazyka se využívají také videozáznamy přednášek především z akademického prostředí, které slouží např. ke zkoumání akademického odborného vyjadřování.
Korpusy obsahující videozáznamy (multimodální korpusy) z různých televizních pořadů jsou využívány ke zkoumání mediálního diskursu.
Zvláštním typem mluvených korpusů jsou nářeční korpusy, které zachycují stav nářečí na určitém teritoriu. Pokud slouží dialektologickým výzkumům, jsou nahráváni nejstarší mluvčí z tradičních nářečních oblastí, u kterých lze předpokládat, že užívají nářečních prvků ve větší míře. Takové korpusy pak také mohou sloužit k budování interaktivních jazykových atlasů.
Složení mluvených korpusů odráží účel jejich vzniku. Podobně jako psané korpusy se obecné mluvené korpusy snaží o reprezentativnost a co největší rozmanitost, která může vycházet z různých hledisek:
Se situací při nahrávání souvisí i kvalita nahrávek. Nejlepší nahrávky jsou pochopitelně možné s kvalitními přístroji ve studiovém prostředí. Takové se zpravidla pořizují pro fonetický výzkum, ale nelze je získat pro autentický spontánní rozhovor v soukromí nebo ve veřejném prostoru, kde mluvený projev ruší okolní zvuky.
Přepis a způsob zpracování a záznamu mluvených dat jsou realizovány podle účelu konkrétního mluveného korpusu: od velmi podrobného fonetického či fonologického, který je vhodný pro menší korpusy, až po ortografický přepis, který se snaží jednoduchým způsobem zachytit větší množství nahrávek a zajistit kompatibilitu při vyhledávání v těchto korpusech společně s psanými korpusy.
V současnosti bývá užíván transkript víceúrovňový: jedna úroveň slouží k lepší orientaci a usnadňuje vyhledávání (např. ortografický zápis) a další úrovně tvoří zpravidla různě podrobný fonetický zápis s určitou mírou úprav podle výzkumného účelu. Při transkripci je důležité pomocí tzv. časových značek spojit příslušné úseky zvukové nahrávky s jim odpovídajícím přepisem. K tomu slouží anotační programy jako např. ELAN, EXMARaLDA, Transcriber, software pro fonetický přepis a výzkum Praat.
Tyto nástroje umožňují segmentaci zvuku na úseky, ke kterým je pak připojen odpovídající přepis nebo několik úrovní přepisu. Lze v nich provádět i další vnější anotaci jako např. zachycení důležitých doprovodných informací k situaci při nahrávání (prostředí, témata, vztah mluvčích), k mluvčím (věk, vzdělání, nářeční oblast původu) nebo další lingvistická anotace jako např. morfologická, sémantická apod. Velkým problém při vlastním přepisu jsou úseky, ve kterých několik mluvčích hovoří současně, tzv. překryvy.
U mluvených korpusů je třeba zajistit ochranu osobních údajů, které se v nahrávce vyskytnou. Tyto údaje, jako je např. příjmení, jsou anonymizovány (pokud se nejedná o jména veřejně známých osob). V přepise jsou osobní údaje kódovány a ze zvukové stopy odstraněny.
Následující mluvené korpusy jsou přístupny prostřednictvím ČNK. V jejich přepisech je možné vyhledávat pomocí rozhraní KonText, zvukové záznamy jsou dostupné pouze pro novější z nich:
Následující korpusy jsou lemmatizovány a tagovány a propojeny se zvukem: