AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:mluveny [2013/10/04 08:34] – [Kritéria výstavby mluvených korpusů] petraklimesovapojmy:mluveny [2020/02/24 12:09] (aktuální) – [Související odkazy] zuzanakomrskova
Řádek 15: Řádek 15:
 ===== Druhy mluvených korpusů a způsoby jejich využívání ===== ===== Druhy mluvených korpusů a způsoby jejich využívání =====
  
-Mluvené korpusy jsou budovány za různým účelem, z čehož pak vychází způsob pořizování nahrávek, výběr situací, pravidla přepisu i výsledné složení korpusu a jeho rozdělení na úseky při přepisování (tzv. [[pojmy:segmentace|segmentace]]: např. pro fonetické zkoumání bude důležité, aby bylo možno sledovat výslovnost jednotlivých hlásek; naopak konverzační analýza potřebuje delší úryvky souvislého hovoru se střídáním komunikační aktivity mluvčích, tzv. repliky). +Mluvené korpusy jsou budovány za různým účelem, z čehož pak vychází způsob pořizování nahrávek, výběr situací, pravidla přepisu i výsledné složení korpusu a jeho rozdělení na úseky při přepisování (tzv. [[pojmy:segmentace|segmentace]]: např. pro fonetické zkoumání segmentální roviny bude důležité, aby bylo možno sledovat výslovnost jednotlivých hlásek, pro zkoumání roviny suprasegmentální bude důležité dělení na přízvukové takty, které představují rytmické jednotky mluveného jazyka, jednotky zvukového členění promluvy; konverzační analýza potřebuje delší úryvky souvislého hovoru se střídáním komunikační aktivity mluvčích, tzv. repliky). 
  
 Část mluvených korpusů zachycuje také jen prostě čtený text. Takovéto korpusy slouží především k fonetickým výzkumům a trénování softwaru pro rozpoznávání mluvené řeči. Tento typ nahrávek (např. zprávy čtené v rozhlase či televizi) má dobrou kvalitu zvuku a snáze i rychle se získává. Nelze ho ale považovat za autentický mluvený jazyk.  Část mluvených korpusů zachycuje také jen prostě čtený text. Takovéto korpusy slouží především k fonetickým výzkumům a trénování softwaru pro rozpoznávání mluvené řeči. Tento typ nahrávek (např. zprávy čtené v rozhlase či televizi) má dobrou kvalitu zvuku a snáze i rychle se získává. Nelze ho ale považovat za autentický mluvený jazyk. 
Řádek 48: Řádek 48:
 ===== České korpusy mluveného jazyka ===== ===== České korpusy mluveného jazyka =====
  
-Následující mluvené korpusy jsou přístupny prostřednictvím [[http://www.korpus.cz|ČNK]]. V jejich přepisech je možné vyhledávat pomocí [[pojmy:korpusovy_manazer|korpusového manažeru]], zvukové záznamy nejsou dostupné:+Následující mluvené korpusy jsou přístupny prostřednictvím [[http://www.korpus.cz|ČNK]]. V jejich přepisech je možné vyhledávat pomocí rozhraní [[manualy:kontext:index|KonText]], zvukové záznamy jsou dostupné pouze pro novější z nich:
  
-  - **[[cnk:pmk|Pražský mluvený korpus]]** (PMK) je prvním mluveným korpusem, zachycuje autentickou mluvu, tematicky nespecializovanou z oblasti Prahy a okolí. Vznikal v letech 1988–1996 pod vedením F. Čermáka a obsahuje 675 000 slov. U mluvčích zachycuje binárně 4 sociolingvistické proměnné: pohlaví (muž – žena), věk (mladší – do 35 let, – starší nad 35 let), vzdělání (nižší (základní a středoškolské) – vyšší (vysokoškolské)) a formálnost či neformálnost promluvy. Nahráváni byli pouze mluvčí žijící trvale na území Prahy a starší 18 let. Způsob přepisu se snaží co nejvěrněji zachytit mluvený jazyk, především z hlediska jeho neformálnosti. Je to zatím jediný plně a poloautomaticky anotovaný český korpus zachycující i frazémy, idiomy a další víceslovné jednotky včetně citátových výrazů cizojazyčných, ale i zkratky; anotace systematicky zachycuje i valenci všech slovních druhů a bohatou sémantickou a funkční povahu všech slovních tvarů, včetně variability typické pro mluvený jazyk. +  - **[[cnk:pmk|Pražský mluvený korpus]]** (PMK) je prvním mluveným korpusem, zachycuje autentickou mluvu, tematicky nespecializovanou z oblasti Prahy a okolí. Vznikal v letech 1988–1996 pod vedením F. Čermáka a obsahuje 675 000 slov. U mluvčích zachycuje binárně 4 sociolingvistické proměnné: pohlaví (muž – žena), věk (mladší – do 35 let, – starší nad 35 let), vzdělání (nižší (základní a středoškolské) – vyšší (vysokoškolské)) a formálnost či neformálnost promluvy. Nahráváni byli pouze mluvčí žijící trvale na území Prahy a starší 18 let. Způsob přepisu se snaží co nejvěrněji zachytit mluvený jazyk, především z hlediska jeho neformálnosti. Je to zatím jediný plně a poloautomaticky anotovaný český korpus zachycující i frazémy, idiomy a další víceslovné jednotky včetně citátových výrazů cizojazyčných, ale i zkratky; anotace zachycuje i valenci všech slovních druhů a bohatou sémantickou a funkční povahu všech slovních tvarů, včetně variability typické pro mluvený jazyk. 
   - **[[cnk:bmk|Brněnský mluvený korpus]]** (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zpřístupňuje nahrávky autentického jazyka z Brna, které byly pořízeny v letech 1994–1999 pod vedením Z. Hladké. Obsahuje 490 000 slov. U mluvčích zachycuje stejné kategorie jako PMK. Jako způsob přepisu byla zvolena účelová kombinace fonetického zápisu a standardních pravopisných norem, na rozdíl od PMK zde byla tradiční interpunkce nahrazena pauzovou.   - **[[cnk:bmk|Brněnský mluvený korpus]]** (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zpřístupňuje nahrávky autentického jazyka z Brna, které byly pořízeny v letech 1994–1999 pod vedením Z. Hladké. Obsahuje 490 000 slov. U mluvčích zachycuje stejné kategorie jako PMK. Jako způsob přepisu byla zvolena účelová kombinace fonetického zápisu a standardních pravopisných norem, na rozdíl od PMK zde byla tradiční interpunkce nahrazena pauzovou.
-  - **Korpusy řady ORAL** vznikají v Ústavu Českého národního korpusu za koordinace M. Kopřivové M. WaclawičovéUsilují o zachycení mluveného jazyka na širším teritoriu České republiky, proto jako další kategorie týkající se mluvčího přibyla nářeční oblast, ze které mluvčí pochází (středočeská, severovýchodočeská, jihozápadočeská, české pohraničí, česko-moravská, středomovská, východomoravská, slezská, moravské pohraničí). Tato kategorie významně ovlivňuje jazyk mluvčíhopřestože cílem není zachycení dialektu (odlišení nářečních výrazů od obecnějších je obtížné). Zároveň se tyto korpusy snaží udržovat kontinuitu započatou korpusy PMK a BMK. Transkripční pravidla připravil na základě PMK Pavel Jančák. Nahrávány a přepisovány jsou pouze rozhovory v neformálních situacích.+  - **Korpusy řady ORAL** vznikaly v Ústavu Českého národního korpusu od roku 2002 do roku 2011, kdy byly pořízeny poslední nahrávky (jejich další zpracování anotace však pokračovaly i po tomto datu)Protože usilovaly o zachycení mluveného jazyka na širším teritoriu České republiky, další kategorie týkající se mluvčího přibyla nářeční oblast, ze které mluvčí pochází (středočeská, severovýchodočeská, jihozápadočeská, české pohraničí, česko-moravská, středomovská, východomoravská, slezská, moravské pohraničí). Tato kategorie významně ovlivňuje jazyk mluvčíhopřestože cílem korpusů řady ORAL primárně není zachycení dialektu (na ten se soustřeďuje nový [[cnk:dialekt|DIALEKT]]); zároveň se tyto korpusy snaží udržovat kontinuitu započatou korpusy PMK a BMK. Transkripční pravidla připravil na základě PMK Pavel Jančák. Nahrávány a přepisovány jsou pouze rozhovory v neformálních situacích.
   - [[cnk:oral2006|ORAL2006]] zachycuje mluvenou češtinu z celé oblasti českých nářečí v užším slova smyslu. I zde byly zachovány binární sociolingvistické kategorie pohlaví, věk a vzdělání, přibyla kategorie nářeční oblast původu mluvčího; kromě binárního rozlišení jsou tyto kategorie vyjádřeny i přesněji. Korpus obsahuje 1 milion slov, byl zpřístupněn v roce 2006.    - [[cnk:oral2006|ORAL2006]] zachycuje mluvenou češtinu z celé oblasti českých nářečí v užším slova smyslu. I zde byly zachovány binární sociolingvistické kategorie pohlaví, věk a vzdělání, přibyla kategorie nářeční oblast původu mluvčího; kromě binárního rozlišení jsou tyto kategorie vyjádřeny i přesněji. Korpus obsahuje 1 milion slov, byl zpřístupněn v roce 2006. 
   - [[cnk:oral2008|ORAL2008]] je milionový vyvážený korpus mluvené češtiny z oblasti Čech. Korpus byl vyvážen podle sociolingvistických kategorií pohlaví, vzdělání, věk a nářeční oblast původu mluvčího. Byl zpřístupněn v roce 2008.    - [[cnk:oral2008|ORAL2008]] je milionový vyvážený korpus mluvené češtiny z oblasti Čech. Korpus byl vyvážen podle sociolingvistických kategorií pohlaví, vzdělání, věk a nářeční oblast původu mluvčího. Byl zpřístupněn v roce 2008. 
-  - [[cnk:oral2013|ORAL2013]] je dalším připravovaným korpusem, který zpřístupní nahrávky i jejich epis z celého území České republiky. +  - [[cnk:oral2013|ORAL2013]] je největší z korpusů řady ORAL (2,8 mil. slov), který se od svých předchůdců odlišuje v řadě důležitých rysů ([[cnk:oral2013#rada_korpusu_oral_v_cem_se_oral2013_odlisuje|podrobnosti]]): jde edevším o propojení přepisu se zvukovou stopou, značení překryvů replik dvou mluvčích, proznačení shodných mluvčích a pokrytí celého území České republiky (tj. Čech, Moravy i Slezska)
-  - Speciální **[[cnk:schola2010|Korpus školní komunikace SCHOLA2010]]**, který vznikal pod vedením Karla Šebesty a Hany Goláňové, obsahuje 792 764 slov. Tento korpus zaznamenává mluvenou komunikaci během vyučovacích hodin na základních školách, gymnáziích a středních odborných školách. Nahrávky byly pořizovány v letech 2005–2008. Korpus je vyvážen vzhledem ke skupinám vyučovacích předmětů. +  - Speciální **[[cnk:schola2010|Korpus školní komunikace SCHOLA2010]]**, který vznikal pod vedením Karla Šebesty a Hany Goláňové, obsahuje 792 764 slov. Tento korpus zaznamenává mluvenou komunikaci během vyučovacích hodin na základních školách, gymnáziích a středních odborných školách. Nahrávky byly pořizovány v letech 2005–2008. Korpus je vyvážen vzhledem ke skupinám vyučovacích předmětů.
  
- --- //Marie Kopřivová//+Následující korpusy jsou **[[cnk:lemtag_mluv|lemmatizovány a tagovány]]** a **propojeny se zvukem**: 
 +  Korpus **[[cnk:oral|ORAL]]** sdružuje data z korpusů řady ORAL a dalších nahrávek z let 2002-2011. Zvuk je dostupný pouze k části ORAL2013 a ORAL-Z. Korpus obsahuje 5,4 mil. slov a byl zpřístupněn v roce 2017.  
 +  - **[[cnk:ortofon|ORTOFON]]** je miliónový korpus zachycující mluvu z celé České republiky v období 2012-2017. Korpus je vyvážený vzhledem k pohlaví, věku, vzdělání a nářeční oblasti pobytu mluvčího v dětství. Korpus má dvouúrovňový přepis - ortografický a fonetický. 
 +  - Nářeční korpus **[[cnk:dialekt|DIALEKT]]** ukazuje tradiční teritoriální dialekty zachycené na území České republiky ve dvou obdobích: 50. - 80. léta 20. století a od 90. let 20. století dosud. Korpus má dvouúrovňový přepis - ortografický a dialektologický. 
 +  - Korpus monologů **[[cnk:orator|ORATOR]]** představuje projevy proslovené při příležitostech, o kterých jsou řečníci předem informováni a na něž se mohou připravit. Korpus má jednoúrovňový přepis.
  
 ==== Související odkazy ==== ==== Související odkazy ====
  
-<WRAP round box 49%> +<WRAP round box 50%> 
-[[pojmy:psany|Korpusy psané češtiny]] • [[cnk:oral2006|ORAL2006]] •[[cnk:oral2008|ORAL2008]] • [[cnk:bmk|BMK]] • [[cnk:pmk|PMK]] • [[cnk:schola2010|SCHOLA2010]] • [[pojmy:anonymizace|Anonymizace dat]]+[[pojmy:psany|Korpusy psané češtiny]] • [[pojmy:anonymizace|Anonymizace dat]]
 </WRAP> </WRAP>