Korpus mluveného jazyka

Korpusy soustřeďující se na zachycení mluvy, mluveného jazyka se nazývají korpusy mluveného jazyka nebo zkráceně mluvené korpusy. Zvukový záznam mluvy je v nich přepsán podle určitých transkripčních pravidel. Tento přepis (transkript) je zpravidla spojen se zvukovým záznamem. V transkriptu je možné vyhledávat podobně jako v psaných korpusech a speciální korpusový manažer umožňuje poslech zvukového záznamu příslušného vyhledaného úseku. Budování takovýchto korpusů je ve srovnání s vytvářením psaných korpusů velmi náročné časově, finančně i technicky. Vzhledem k této náročnosti začaly větší mluvené korpusy (okolo milionu přepsaných slovních tvarů) vznikat až koncem 20. století.

Historie budování mluvených korpusů

Budování mluvených korpusů vychází z výzkumů mluvy, kterým se věnovali především dialektologové a fonetikové. Pro tento výzkum pořizovali nahrávky, které podle daných pravidel přepisovali (transkripce nářečních textů, fonetická transkripce apod.). Zvukové nahrávky a jejich transkripty vznikaly také v rámci konverzační analýzy a analýzy diskurzu se specifickými transkripčními pravidly a softwarovými nástroji. S budováním jazykových korpusů na konci 20. století se přikročilo i ke korpusům zachycujícím mluvené projevy.

Součástí souboru textů (vlastně korpusu), které v 70. letech sloužily jako podklad pro první Frekvenční slovník češtiny (Jelínek, Bečka, Těšitelová 1961), byly i mluvené projevy. Přepisy mluvených projevů jsou také součástí prvního velkého korpusu angličtiny BNC v rozsahu 10 milionu slov, což představuje 10 % z celého korpusu, tj. ze 100 mil. slov. Jedná se o přepisy nahrávek různých situací od neformální konverzace přes obchodní schůzky až po rozhlasové pořady.

Jako první mluvený korpus bývá označován London-Lund Corpus of Spoken English (pochází z projektu Survey of Spoken English, který začal na Lundské univerzitě budovat Jan Svartvik v roce 1975; tento projekt navazoval na projekt Survey of English Usage z roku 1959, který vedl Randolph Quirk). V tomto korpusu jsou zahrnuty různé typy mluvených projevů: monology i dialogy; telefonické rozhovory, spontánní i připravené; veřejné diskuse, část nahrávek zachycuje rozhovory, kdy mluvčí nevěděl, že je nahráván. Korpus je tvořen 100 vzorky po 5000 slovech. Přepis korpusu byl morfologicky anotován a byly v něm označeny prosodické a paralingvistické jevy.

Druhy mluvených korpusů a způsoby jejich využívání

Mluvené korpusy jsou budovány za různým účelem a z toho pak vychází způsob pořizování nahrávek, výběr situací, pravidla přepisu i výsledné složení korpusu a jeho rozdělení na úseky při přepisování (tzv. segmentace: např. pro fonetické zkoumání bude důležité, aby bylo možno sledovat výslovnost jednotlivých hlásek; naopak konverzační analýza potřebuje delší úryvky souvislého hovoru se střídáním komunikační aktivity mluvčích, tzv. repliky).

Část mluvených korpusů zachycuje také jen prostě čtený text. Takovéto korpusy slouží především k fonetickým výzkumům a trénování softwaru pro rozpoznávání mluvené řeči. Tento typ nahrávek (např. zprávy čtené v rozhlase či televizi) má dobrou kvalitu zvuku a snáze i rychle se získává. Nelze ho ale považovat za autentický mluvený jazyk.

Pro studium mluveného jazyka se využívají také videozáznamy přednášek především z akademického prostředí, které slouží např. ke zkoumání akademického odborného vyjadřování.

Korpusy obsahující videozáznamy (multimodální korpusy) z různých televizních pořadů jsou využívány ke zkoumání mediálního diskursu.

Zvláštním typem mluvených korpusů jsou nářeční korpusy, které zachycují stav nářečí na určitém teritoriu. Pokud slouží dialektologickým výzkumům, jsou nahráváni nejstarší mluvčí z tradičních nářečních oblastí, u kterých lze předpokládat, že užívají nářečních prvků ve větší míře. Takové korpusy pak také mohou sloužit k budování interaktivních jazykových atlasů.

Kritéria výstavby mluvených korpusů

Složení mluvených korpusů odráží účel jeho vzniku. Podobně jako psané korpusy se obecné mluvené korpusy snaží o reprezentativnost a co největší rozmanitost, která může vycházet z různých hledisek:

demografického (proporcionalita s ohledem na věk, vzdělání, pohlaví)
situačního (např. proporcionalita s ohledem na vzájemný vztah mluvčích, jejich sociální status, soukromost - veřejnost projevu, rozhovor tváří v tvář - telefonický)
geografického
časového (sledování konkrétního mluvčího v časových intervalech)
diskusního (např. ne/připravenost, monolog-dialog, jeden mluvčí vůči mnoha posluchačům)
tematického (téma je dáno, např. přednáška; spontánní hovor bez předchozího určení).

Se situací při nahrávání souvisí i kvalita nahrávek. Nejlepší nahrávky jsou pochopitelně možné s kvalitními přístroji ve studiovém prostředí. Takové se zpravidla pořizují pro fonetický výzkum, ale nelze je získat pro autentický spontánní rozhovor v soukromí nebo ve veřejném prostoru, kde mluvený projev ruší okolní zvuky.

Přepis a způsob zpracování a záznamu mluvených dat jsou realizovány podle účelu konkrétního mluveného korpusu: od velmi podrobného fonetického či fonologického, který je vhodný pro menší korpusy, až po ortografický přepis, který se snaží jednoduchým způsobem zachytit větší množství nahrávek a zajistit kompatibilitu při vyhledávání v těchto korpusech společně s psanými korpusy.

V současnosti bývá užíván transkript víceúrovňový: jedna úroveň slouží k lepší orientaci a usnadňuje vyhledávání (např. ortografický zápis) a další úrovně tvoří zpravidla různě podrobný fonetický zápis s určitou mírou úprav podle výzkumného účelu. Při transkripci je důležité pomocí tzv. časových značek spojit příslušné úseky zvukové nahrávky s jim odpovídajícím přepisem. K tomu slouží anotační programy jako např. ELAN, EXMARaLDA, Transcriber, software pro fonetický přepis a výzkum Praat.

Tyto nástroje umožňují segmentaci zvuku na úseky, ke kterým je pak připojen odpovídající přepis nebo několik úrovní přepisu. Lze v nich provádět i další vnější anotaci jako např. zachycení důležitých doprovodných informací k situaci při nahrávání (prostředí, témata, vztah mluvčích), k mluvčím (věk, vzdělání, nářeční oblast původu) nebo další lingvistická anotace jako např. morfologická, sémantická apod. Velkým problém při vlastním přepisu jsou úseky, ve kterých několik mluvčích hovoří současně, tzv. překryvy.

U m. k. je třeba zajistit ochranu osobních údajů, které se v nahrávce vyskytnou. Tyto údaje jako např. příjmení jsou anonymizovány (pokud se nejedná o jména veřejně známých osob). V přepise jsou osobní údaje kódovány a ze zvukové stopy odstraněny.

České korpusy mluveného jazyka

Následující mluvené korpusy jsou přístupny prostřednictvím ČNK. V jejich přepisech je možné vyhledávat pomocí korpusového manažeru, zvukové záznamy nejsou dostupné:

Pražský mluvený korpus (PMK) je prvním mluveným korpusem, zachycuje autentickou mluvu, tematicky nespecializovanou z oblasti Prahy a okolí. Vznikal v letech 1988–1996 pod vedením F. Čermáka a obsahuje 675 000 slov. U mluvčích zachycuje binárně 4 sociolingvistické proměnné: pohlaví (muž – žena), věk (mladší – do 35 let, – starší nad 35 let), vzdělání (nižší (základní a středoškolské) – vyšší (vysokoškolské)) a formálnost či neformálnost promluvy. Nahráváni byli pouze mluvčí žijící trvale na území Prahy a starší 18 let. Způsob přepisu se snaží co nejvěrněji zachytit mluvený jazyk, především z hlediska jeho neformálnosti. Je to zatím jediný plně a poloautomaticky anotovaný český korpus zachycující i frazémy, idiomy a další víceslovné jednotky včetně citátových výrazů cizojazyčných, ale i zkratky; anotace systematicky zachycuje i valenci všech slovních druhů a bohatou sémantickou a funkční povahu všech slovních tvarů, včetně variability typické pro mluvený jazyk.
Brněnský mluvený korpus (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zpřístupňuje nahrávky autentického jazyka z Brna, které byly pořízeny v letech 1994–1999 pod vedením Z. Hladké. Obsahuje 490 000 slov. U mluvčích zachycuje stejné kategorie jako PMK. Jako způsob přepisu byla zvolena účelová kombinace fonetického zápisu a standardních pravopisných norem, na rozdíl od PMK zde byla tradiční interpunkce nahrazena pauzovou.
Korpusy řady ORAL vznikají v Ústavu Českého národního korpusu za koordinace M. Kopřivové a M. Waclawičové. Usilují o zachycení mluveného jazyka na širším teritoriu České republiky, proto jako další kategorie týkající se mluvčího přibyla nářeční oblast, ze které mluvčí pochází (středočeská, severovýchodočeská, jihozápadočeská, české pohraničí, česko-moravská, středomovská,východomoravská, slezská, moravské pohraničí). Tato kategorie významně ovlivňuje jazyk mluvčího; přestože cílem není zachycení dialektu (odlišení nářečních výrazů od obecnějších je obtížné). Zároveň se tyto korpusy snaží udržovat kontinuitu započatou korpusy PMK a BMK. Transkripční pravidla připravil na základě PMK Pavel Jančák. Nahrávány a přepisovány jsou pouze rozhovory v neformálních situacích.
ORAL2006 zachycuje mluvenou češtinu z celé oblasti českých nářečí v užším slova smyslu. I zde byly zachovány binární sociolingvistické kategorie pohlaví, věk a vzdělání, přibyla kategorie nářeční oblast původu mluvčího; kromě binárního rozlišení jsou tyto kategorie vyjádřeny i přesněji. Korpus obsahuje 1 milion slov, byl zpřístupněn v roce 2006.
ORAL2008 je milionový vyvážený korpus mluvené češtiny z oblasti Čech. Korpus byl vyvážen podle sociolingvistických kategorií pohlaví, vzdělání, věk a nářeční oblast původu mluvčího. Byl zpřístupněn v roce 2008.
ORAL2013 je dalším připravovaným korpusem, který zpřístupní nahrávky i jejich přepis z celého území České republiky.
Speciální Korpus školní komunikace SCHOLA 2010, který vznikal pod vedením Karla Šebesty a Hany Goláňové, obsahuje 792 764 slov. Tento korpus zaznamenává mluvenou komunikaci během vyučovacích hodin na základních školách, gymnáziích a středních odborných školách. Nahrávky byly pořizovány v letech 2005–2008. Korpus je vyvážen vzhledem ke skupinám vyučovacích předmětů.