Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:mluveny [2013/07/17 12:35] – vaclavcvrcek | pojmy:mluveny [2020/02/24 12:09] (aktuální) – [Související odkazy] zuzanakomrskova |
---|
Korpus mluveného jazyka (zkráceně též mluvený korpus) je jeden z [[pojmy:korpus#typy_korpusu|typů korpusů]], který se soustřeďuje na zachycení mluvy, mluveného jazyka. Zvukový záznam mluvy je v nich přepsán podle určitých transkripčních pravidel. Tento přepis (transkript) je zpravidla spojen se zvukovým záznamem. V transkriptu je možné vyhledávat podobně jako v psaných korpusech a speciální korpusový manažer umožňuje poslech zvukového záznamu příslušného vyhledaného úseku. Budování takovýchto korpusů je ve srovnání s vytvářením [[pojmy:psany|psaných korpusů]] velmi náročné časově, finančně i technicky. Vzhledem k této náročnosti začaly větší mluvené korpusy (okolo milionu přepsaných slovních tvarů) vznikat až koncem 20. století. | Korpus mluveného jazyka (zkráceně též mluvený korpus) je jeden z [[pojmy:korpus#typy_korpusu|typů korpusů]], který se soustřeďuje na zachycení mluvy, mluveného jazyka. Zvukový záznam mluvy je v nich přepsán podle určitých transkripčních pravidel. Tento přepis (transkript) je zpravidla spojen se zvukovým záznamem. V transkriptu je možné vyhledávat podobně jako v psaných korpusech a speciální korpusový manažer umožňuje poslech zvukového záznamu příslušného vyhledaného úseku. Budování takovýchto korpusů je ve srovnání s vytvářením [[pojmy:psany|psaných korpusů]] velmi náročné časově, finančně i technicky. Vzhledem k této náročnosti začaly větší mluvené korpusy (okolo milionu přepsaných slovních tvarů) vznikat až koncem 20. století. |
| |
Rozdíl mezi psaností a mluveností není v korpusech chápán čistě mediálně - tj. to, co je realizováno vizuálně, je psané a to, co je realizováno pomocí akustického signálu, je mluvené. V rámci mluvených "žánrů" najdeme celou škálu projevů od nepřipravených, dialogických a v důsledku toho jazykově skutečně prototypických mluvených komunikátů, až po texty čtené, dopředu připravené a monologické. Mluvené korpusy ČNK se soustředí především na typicky mluvené texty, které jsou s to reprezentovat lingvistické vlastnosti mluvené češtiny v její typické podobě. | Rozdíl mezi psaností a mluveností není v korpusech chápán čistě mediálně - tj. to, co je realizováno vizuálně, je psané, a to, co je realizováno pomocí akustického signálu, je mluvené. V rámci mluvených "žánrů" najdeme celou škálu projevů od nepřipravených, dialogických a v důsledku toho jazykově skutečně prototypických mluvených komunikátů až po texty čtené, dopředu připravené a monologické. Mluvené korpusy ČNK se soustředí především na typicky mluvené texty, které jsou s to reprezentovat lingvistické vlastnosti mluvené češtiny v její typické podobě. |
| |
===== Historie budování mluvených korpusů ===== | ===== Historie budování mluvených korpusů ===== |
Budování mluvených korpusů vychází z výzkumů mluvy, kterým se věnovali především dialektologové a fonetikové. Pro tento výzkum pořizovali nahrávky, které podle daných pravidel přepisovali (transkripce nářečních textů, fonetická transkripce apod.). Zvukové nahrávky a jejich transkripty vznikaly také v rámci konverzační analýzy a analýzy diskurzu se specifickými transkripčními pravidly a softwarovými nástroji. S budováním jazykových korpusů na konci 20. století se přikročilo i ke korpusům zachycujícím mluvené projevy. | Budování mluvených korpusů vychází z výzkumů mluvy, kterým se věnovali především dialektologové a fonetikové. Pro tento výzkum pořizovali nahrávky, které podle daných pravidel přepisovali (transkripce nářečních textů, fonetická transkripce apod.). Zvukové nahrávky a jejich transkripty vznikaly také v rámci konverzační analýzy a analýzy diskurzu se specifickými transkripčními pravidly a softwarovými nástroji. S budováním jazykových korpusů na konci 20. století se přikročilo i ke korpusům zachycujícím mluvené projevy. |
| |
Součástí souboru textů (vlastně korpusu), které v 70. letech sloužily jako podklad pro první Frekvenční slovník češtiny (Jelínek, Bečka, Těšitelová 1961), byly i mluvené projevy. Přepisy mluvených projevů jsou také součástí prvního velkého korpusu angličtiny [[http://www.natcorp.ox.ac.uk|BNC]] v rozsahu 10 milionu slov, což představuje 10 % z celého korpusu, tj. ze 100 mil. slov. Jedná se o přepisy nahrávek různých situací od neformální konverzace přes obchodní schůzky až po rozhlasové pořady. | Součástí souboru textů (vlastně korpusu), které v 70. letech sloužily jako podklad pro první Frekvenční slovník češtiny((Jelínek, Bečka, Těšitelová 1961)), byly i mluvené projevy. Přepisy mluvených projevů jsou také součástí prvního velkého korpusu angličtiny [[http://www.natcorp.ox.ac.uk|BNC]] v rozsahu 10 milionu slov, což představuje 10 % z celého korpusu, tj. ze 100 mil. slov. Jedná se o přepisy nahrávek různých situací od neformální konverzace přes obchodní schůzky až po rozhlasové pořady. |
| |
Jako první mluvený korpus bývá označován [[http://www.ota.ox.ac.uk/headers/0168.xml|London-Lund Corpus of Spoken English]] (pochází z projektu Survey of Spoken English, který začal na Lundské univerzitě budovat Jan Svartvik v roce 1975; tento projekt navazoval na projekt Survey of English Usage z roku 1959, který vedl Randolph Quirk). V tomto korpusu jsou zahrnuty různé typy mluvených projevů: monology i dialogy; telefonické rozhovory, spontánní i připravené; veřejné diskuse, část nahrávek zachycuje rozhovory, kdy mluvčí nevěděl, že je nahráván. Korpus je tvořen 100 vzorky po 5000 slovech. Přepis korpusu byl morfologicky anotován a byly v něm označeny prosodické a paralingvistické jevy. | Jako první mluvený korpus bývá označován [[http://www.ota.ox.ac.uk/headers/0168.xml|London-Lund Corpus of Spoken English]] (pochází z projektu Survey of Spoken English, který začal na Lundské univerzitě budovat Jan Svartvik v roce 1975; tento projekt navazoval na projekt Survey of English Usage z roku 1959, který vedl Randolph Quirk). V tomto korpusu jsou zahrnuty různé typy mluvených projevů: monology i dialogy; telefonické rozhovory, spontánní i připravené; veřejné diskuse, část nahrávek zachycuje rozhovory, kdy mluvčí nevěděl, že je nahráván. Korpus je tvořen 100 vzorky po 5000 slovech. Přepis korpusu byl morfologicky anotován a byly v něm označeny [[http://cs.wikipedia.org/wiki/Proz%C3%B3die_(lingvistika)|prosodické]] a [[http://cs.wikipedia.org/wiki/Paralingvistika|paralingvistické]] jevy. |
| |
===== Druhy mluvených korpusů a způsoby jejich využívání ===== | ===== Druhy mluvených korpusů a způsoby jejich využívání ===== |
| |
Mluvené korpusy jsou budovány za různým účelem a z toho pak vychází způsob pořizování nahrávek, výběr situací, pravidla přepisu i výsledné složení korpusu a jeho rozdělení na úseky při přepisování (tzv. [[pojmy:segmentace|segmentace]]: např. pro fonetické zkoumání bude důležité, aby bylo možno sledovat výslovnost jednotlivých hlásek; naopak konverzační analýza potřebuje delší úryvky souvislého hovoru se střídáním komunikační aktivity mluvčích, tzv. repliky). | Mluvené korpusy jsou budovány za různým účelem, z čehož pak vychází způsob pořizování nahrávek, výběr situací, pravidla přepisu i výsledné složení korpusu a jeho rozdělení na úseky při přepisování (tzv. [[pojmy:segmentace|segmentace]]: např. pro fonetické zkoumání segmentální roviny bude důležité, aby bylo možno sledovat výslovnost jednotlivých hlásek, pro zkoumání roviny suprasegmentální bude důležité dělení na přízvukové takty, které představují rytmické jednotky mluveného jazyka, jednotky zvukového členění promluvy; konverzační analýza potřebuje delší úryvky souvislého hovoru se střídáním komunikační aktivity mluvčích, tzv. repliky). |
| |
Část mluvených korpusů zachycuje také jen prostě čtený text. Takovéto korpusy slouží především k fonetickým výzkumům a trénování softwaru pro rozpoznávání mluvené řeči. Tento typ nahrávek (např. zprávy čtené v rozhlase či televizi) má dobrou kvalitu zvuku a snáze i rychle se získává. Nelze ho ale považovat za autentický mluvený jazyk. | Část mluvených korpusů zachycuje také jen prostě čtený text. Takovéto korpusy slouží především k fonetickým výzkumům a trénování softwaru pro rozpoznávání mluvené řeči. Tento typ nahrávek (např. zprávy čtené v rozhlase či televizi) má dobrou kvalitu zvuku a snáze i rychle se získává. Nelze ho ale považovat za autentický mluvený jazyk. |
===== Kritéria výstavby mluvených korpusů ===== | ===== Kritéria výstavby mluvených korpusů ===== |
| |
Složení mluvených korpusů odráží účel jeho vzniku. Podobně jako [[pojmy:psany|psané korpusy]] se obecné mluvené korpusy snaží o reprezentativnost a co největší rozmanitost, která může vycházet z různých hledisek: | Složení mluvených korpusů odráží účel jejich vzniku. Podobně jako [[pojmy:psany|psané korpusy]] se obecné mluvené korpusy snaží o reprezentativnost a co největší rozmanitost, která může vycházet z různých hledisek: |
* demografického (proporcionalita s ohledem na věk, vzdělání, pohlaví) | * demografického (proporcionalita s ohledem na věk, vzdělání, pohlaví) |
* situačního (např. proporcionalita s ohledem na vzájemný vztah mluvčích, jejich sociální status, soukromost - veřejnost projevu, rozhovor tváří v tvář - telefonický) | * situačního (např. proporcionalita s ohledem na vzájemný vztah mluvčích, jejich sociální status, soukromost - veřejnost projevu, rozhovor tváří v tvář - telefonický) |
Tyto nástroje umožňují segmentaci zvuku na úseky, ke kterým je pak připojen odpovídající přepis nebo několik úrovní přepisu. Lze v nich provádět i další vnější [[pojmy:anotace|anotaci]] jako např. zachycení důležitých doprovodných informací k situaci při nahrávání (prostředí, témata, vztah mluvčích), k mluvčím (věk, vzdělání, nářeční oblast původu) nebo další lingvistická anotace jako např. [[pojmy:morfologicka_analyza|morfologická]], sémantická apod. Velkým problém při vlastním přepisu jsou úseky, ve kterých několik mluvčích hovoří současně, tzv. překryvy. | Tyto nástroje umožňují segmentaci zvuku na úseky, ke kterým je pak připojen odpovídající přepis nebo několik úrovní přepisu. Lze v nich provádět i další vnější [[pojmy:anotace|anotaci]] jako např. zachycení důležitých doprovodných informací k situaci při nahrávání (prostředí, témata, vztah mluvčích), k mluvčím (věk, vzdělání, nářeční oblast původu) nebo další lingvistická anotace jako např. [[pojmy:morfologicka_analyza|morfologická]], sémantická apod. Velkým problém při vlastním přepisu jsou úseky, ve kterých několik mluvčích hovoří současně, tzv. překryvy. |
| |
U m. k. je třeba zajistit ochranu osobních údajů, které se v nahrávce vyskytnou. Tyto údaje jako např. příjmení jsou [[pojmy:anonymizace|anonymizovány]] (pokud se nejedná o jména veřejně známých osob). V přepise jsou osobní údaje kódovány a ze zvukové stopy odstraněny. | U mluvených korpusů je třeba zajistit ochranu osobních údajů, které se v nahrávce vyskytnou. Tyto údaje, jako je např. příjmení, jsou [[pojmy:anonymizace|anonymizovány]] (pokud se nejedná o jména veřejně známých osob). V přepise jsou osobní údaje kódovány a ze zvukové stopy odstraněny. |
| |
===== České korpusy mluveného jazyka ===== | ===== České korpusy mluveného jazyka ===== |
| |
Následující mluvené korpusy jsou přístupny prostřednictvím [[http://www.korpus.cz|ČNK]]. V jejich přepisech je možné vyhledávat pomocí [[pojmy:korpusovy_manazer|korpusového manažeru]], zvukové záznamy nejsou dostupné: | Následující mluvené korpusy jsou přístupny prostřednictvím [[http://www.korpus.cz|ČNK]]. V jejich přepisech je možné vyhledávat pomocí rozhraní [[manualy:kontext:index|KonText]], zvukové záznamy jsou dostupné pouze pro novější z nich: |
| |
- **Pražský mluvený korpus** (PMK) je prvním mluveným korpusem, zachycuje autentickou mluvu, tematicky nespecializovanou z oblasti Prahy a okolí. Vznikal v letech 1988–1996 pod vedením F. Čermáka a obsahuje 675 000 slov. U mluvčích zachycuje binárně 4 sociolingvistické proměnné: pohlaví (muž – žena), věk (mladší – do 35 let, – starší nad 35 let), vzdělání (nižší (základní a středoškolské) – vyšší (vysokoškolské)) a formálnost či neformálnost promluvy. Nahráváni byli pouze mluvčí žijící trvale na území Prahy a starší 18 let. Způsob přepisu se snaží co nejvěrněji zachytit mluvený jazyk, především z hlediska jeho neformálnosti. Je to zatím jediný plně a poloautomaticky anotovaný český korpus zachycující i frazémy, idiomy a další víceslovné jednotky včetně citátových výrazů cizojazyčných, ale i zkratky; anotace systematicky zachycuje i valenci všech slovních druhů a bohatou sémantickou a funkční povahu všech slovních tvarů, včetně variability typické pro mluvený jazyk. | - **[[cnk:pmk|Pražský mluvený korpus]]** (PMK) je prvním mluveným korpusem, zachycuje autentickou mluvu, tematicky nespecializovanou z oblasti Prahy a okolí. Vznikal v letech 1988–1996 pod vedením F. Čermáka a obsahuje 675 000 slov. U mluvčích zachycuje binárně 4 sociolingvistické proměnné: pohlaví (muž – žena), věk (mladší – do 35 let, – starší nad 35 let), vzdělání (nižší (základní a středoškolské) – vyšší (vysokoškolské)) a formálnost či neformálnost promluvy. Nahráváni byli pouze mluvčí žijící trvale na území Prahy a starší 18 let. Způsob přepisu se snaží co nejvěrněji zachytit mluvený jazyk, především z hlediska jeho neformálnosti. Je to zatím jediný plně a poloautomaticky anotovaný český korpus zachycující i frazémy, idiomy a další víceslovné jednotky včetně citátových výrazů cizojazyčných, ale i zkratky; anotace zachycuje i valenci všech slovních druhů a bohatou sémantickou a funkční povahu všech slovních tvarů, včetně variability typické pro mluvený jazyk. |
- **Brněnský mluvený korpus** (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zpřístupňuje nahrávky autentického jazyka z Brna, které byly pořízeny v letech 1994–1999 pod vedením Z. Hladké. Obsahuje 490 000 slov. U mluvčích zachycuje stejné kategorie jako PMK. Jako způsob přepisu byla zvolena účelová kombinace fonetického zápisu a standardních pravopisných norem, na rozdíl od PMK zde byla tradiční interpunkce nahrazena pauzovou. | - **[[cnk:bmk|Brněnský mluvený korpus]]** (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zpřístupňuje nahrávky autentického jazyka z Brna, které byly pořízeny v letech 1994–1999 pod vedením Z. Hladké. Obsahuje 490 000 slov. U mluvčích zachycuje stejné kategorie jako PMK. Jako způsob přepisu byla zvolena účelová kombinace fonetického zápisu a standardních pravopisných norem, na rozdíl od PMK zde byla tradiční interpunkce nahrazena pauzovou. |
- **Korpusy řady ORAL** vznikají v Ústavu Českého národního korpusu za koordinace M. Kopřivové a M. Waclawičové. Usilují o zachycení mluveného jazyka na širším teritoriu České republiky, proto jako další kategorie týkající se mluvčího přibyla nářeční oblast, ze které mluvčí pochází (středočeská, severovýchodočeská, jihozápadočeská, české pohraničí, česko-moravská, středomovská,východomoravská, slezská, moravské pohraničí). Tato kategorie významně ovlivňuje jazyk mluvčího; přestože cílem není zachycení dialektu (odlišení nářečních výrazů od obecnějších je obtížné). Zároveň se tyto korpusy snaží udržovat kontinuitu započatou korpusy PMK a BMK. Transkripční pravidla připravil na základě PMK Pavel Jančák. Nahrávány a přepisovány jsou pouze rozhovory v neformálních situacích. | - **Korpusy řady ORAL** vznikaly v Ústavu Českého národního korpusu od roku 2002 do roku 2011, kdy byly pořízeny poslední nahrávky (jejich další zpracování a anotace však pokračovaly i po tomto datu). Protože usilovaly o zachycení mluveného jazyka na širším teritoriu České republiky, další kategorie týkající se mluvčího přibyla nářeční oblast, ze které mluvčí pochází (středočeská, severovýchodočeská, jihozápadočeská, české pohraničí, česko-moravská, středomovská, východomoravská, slezská, moravské pohraničí). Tato kategorie významně ovlivňuje jazyk mluvčího, přestože cílem korpusů řady ORAL primárně není zachycení dialektu (na ten se soustřeďuje nový [[cnk:dialekt|DIALEKT]]); zároveň se tyto korpusy snaží udržovat kontinuitu započatou korpusy PMK a BMK. Transkripční pravidla připravil na základě PMK Pavel Jančák. Nahrávány a přepisovány jsou pouze rozhovory v neformálních situacích. |
- [[cnk:oral2006|ORAL2006]] zachycuje mluvenou češtinu z celé oblasti českých nářečí v užším slova smyslu. I zde byly zachovány binární sociolingvistické kategorie pohlaví, věk a vzdělání, přibyla kategorie nářeční oblast původu mluvčího; kromě binárního rozlišení jsou tyto kategorie vyjádřeny i přesněji. Korpus obsahuje 1 milion slov, byl zpřístupněn v roce 2006. | - [[cnk:oral2006|ORAL2006]] zachycuje mluvenou češtinu z celé oblasti českých nářečí v užším slova smyslu. I zde byly zachovány binární sociolingvistické kategorie pohlaví, věk a vzdělání, přibyla kategorie nářeční oblast původu mluvčího; kromě binárního rozlišení jsou tyto kategorie vyjádřeny i přesněji. Korpus obsahuje 1 milion slov, byl zpřístupněn v roce 2006. |
- [[cnk:oral2008|ORAL2008]] je milionový vyvážený korpus mluvené češtiny z oblasti Čech. Korpus byl vyvážen podle sociolingvistických kategorií pohlaví, vzdělání, věk a nářeční oblast původu mluvčího. Byl zpřístupněn v roce 2008. | - [[cnk:oral2008|ORAL2008]] je milionový vyvážený korpus mluvené češtiny z oblasti Čech. Korpus byl vyvážen podle sociolingvistických kategorií pohlaví, vzdělání, věk a nářeční oblast původu mluvčího. Byl zpřístupněn v roce 2008. |
- [[cnk:oral2013|ORAL2013]] je dalším připravovaným korpusem, který zpřístupní nahrávky i jejich přepis z celého území České republiky. | - [[cnk:oral2013|ORAL2013]] je největší z korpusů řady ORAL (2,8 mil. slov), který se od svých předchůdců odlišuje v řadě důležitých rysů ([[cnk:oral2013#rada_korpusu_oral_v_cem_se_oral2013_odlisuje|podrobnosti]]): jde především o propojení přepisu se zvukovou stopou, značení překryvů replik dvou mluvčích, proznačení shodných mluvčích a pokrytí celého území České republiky (tj. Čech, Moravy i Slezska). |
- Speciální **Korpus školní komunikace SCHOLA 2010**, který vznikal pod vedením Karla Šebesty a Hany Goláňové, obsahuje 792 764 slov. Tento korpus zaznamenává mluvenou komunikaci během vyučovacích hodin na základních školách, gymnáziích a středních odborných školách. Nahrávky byly pořizovány v letech 2005–2008. Korpus je vyvážen vzhledem ke skupinám vyučovacích předmětů. | - Speciální **[[cnk:schola2010|Korpus školní komunikace SCHOLA2010]]**, který vznikal pod vedením Karla Šebesty a Hany Goláňové, obsahuje 792 764 slov. Tento korpus zaznamenává mluvenou komunikaci během vyučovacích hodin na základních školách, gymnáziích a středních odborných školách. Nahrávky byly pořizovány v letech 2005–2008. Korpus je vyvážen vzhledem ke skupinám vyučovacích předmětů. |
| |
--- //Marie Kopřivová// | Následující korpusy jsou **[[cnk:lemtag_mluv|lemmatizovány a tagovány]]** a **propojeny se zvukem**: |
| - Korpus **[[cnk:oral|ORAL]]** sdružuje data z korpusů řady ORAL a dalších nahrávek z let 2002-2011. Zvuk je dostupný pouze k části ORAL2013 a ORAL-Z. Korpus obsahuje 5,4 mil. slov a byl zpřístupněn v roce 2017. |
| - **[[cnk:ortofon|ORTOFON]]** je miliónový korpus zachycující mluvu z celé České republiky v období 2012-2017. Korpus je vyvážený vzhledem k pohlaví, věku, vzdělání a nářeční oblasti pobytu mluvčího v dětství. Korpus má dvouúrovňový přepis - ortografický a fonetický. |
| - Nářeční korpus **[[cnk:dialekt|DIALEKT]]** ukazuje tradiční teritoriální dialekty zachycené na území České republiky ve dvou obdobích: 50. - 80. léta 20. století a od 90. let 20. století dosud. Korpus má dvouúrovňový přepis - ortografický a dialektologický. |
| - Korpus monologů **[[cnk:orator|ORATOR]]** představuje projevy proslovené při příležitostech, o kterých jsou řečníci předem informováni a na něž se mohou připravit. Korpus má jednoúrovňový přepis. |
| |
==== Související odkazy ==== | ==== Související odkazy ==== |
| |
[[pojmy:psany|Korpusy psané češtiny]] | <WRAP round box 50%> |
| [[pojmy:psany|Korpusy psané češtiny]] • [[pojmy:anonymizace|Anonymizace dat]] |
| </WRAP> |