Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
pojmy:mluveny [2017/06/07 15:58]
Zuzana Komrsková [České korpusy mluveného jazyka]
pojmy:mluveny [2017/06/08 15:30] (aktuální)
Michal Křen [České korpusy mluveného jazyka]
Řádek 48: Řádek 48:
 ===== České korpusy mluveného jazyka ===== ===== České korpusy mluveného jazyka =====
  
-Následující mluvené korpusy jsou přístupny prostřednictvím [[http://​www.korpus.cz|ČNK]]. V jejich přepisech je možné vyhledávat pomocí [[pojmy:korpusovy_manazer|korpusového manažeru]], zvukové záznamy ​nejsou ​dostupné:+Následující mluvené korpusy jsou přístupny prostřednictvím [[http://​www.korpus.cz|ČNK]]. V jejich přepisech je možné vyhledávat pomocí ​rozhraní ​[[manualy:kontext:​index|KonText]], zvukové záznamy ​jsou dostupné ​pouze pro novější z nich:
  
-  - **[[cnk:​pmk|Pražský mluvený korpus]]** (PMK) je prvním mluveným korpusem, zachycuje autentickou mluvu, tematicky nespecializovanou z oblasti Prahy a okolí. Vznikal v letech 1988–1996 pod vedením F. Čermáka a obsahuje 675 000 slov. U mluvčích zachycuje binárně 4 sociolingvistické proměnné: pohlaví (muž – žena), věk (mladší – do 35 let, – starší nad 35 let), vzdělání (nižší (základní a středoškolské) – vyšší (vysokoškolské)) a formálnost či neformálnost promluvy. Nahráváni byli pouze mluvčí žijící trvale na území Prahy a starší 18 let. Způsob přepisu se snaží co nejvěrněji zachytit mluvený jazyk, především z hlediska jeho neformálnosti. Je to zatím jediný plně a poloautomaticky anotovaný český korpus zachycující i frazémy, idiomy a další víceslovné jednotky včetně citátových výrazů cizojazyčných,​ ale i zkratky; anotace ​systematicky ​zachycuje i valenci všech slovních druhů a bohatou sémantickou a funkční povahu všech slovních tvarů, včetně variability typické pro mluvený jazyk. ​+  - **[[cnk:​pmk|Pražský mluvený korpus]]** (PMK) je prvním mluveným korpusem, zachycuje autentickou mluvu, tematicky nespecializovanou z oblasti Prahy a okolí. Vznikal v letech 1988–1996 pod vedením F. Čermáka a obsahuje 675 000 slov. U mluvčích zachycuje binárně 4 sociolingvistické proměnné: pohlaví (muž – žena), věk (mladší – do 35 let, – starší nad 35 let), vzdělání (nižší (základní a středoškolské) – vyšší (vysokoškolské)) a formálnost či neformálnost promluvy. Nahráváni byli pouze mluvčí žijící trvale na území Prahy a starší 18 let. Způsob přepisu se snaží co nejvěrněji zachytit mluvený jazyk, především z hlediska jeho neformálnosti. Je to zatím jediný plně a poloautomaticky anotovaný český korpus zachycující i frazémy, idiomy a další víceslovné jednotky včetně citátových výrazů cizojazyčných,​ ale i zkratky; anotace zachycuje i valenci všech slovních druhů a bohatou sémantickou a funkční povahu všech slovních tvarů, včetně variability typické pro mluvený jazyk. ​
   - **[[cnk:​bmk|Brněnský mluvený korpus]]** (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zpřístupňuje nahrávky autentického jazyka z Brna, které byly pořízeny v letech 1994–1999 pod vedením Z. Hladké. Obsahuje 490 000 slov. U mluvčích zachycuje stejné kategorie jako PMK. Jako způsob přepisu byla zvolena účelová kombinace fonetického zápisu a standardních pravopisných norem, na rozdíl od PMK zde byla tradiční interpunkce nahrazena pauzovou.   - **[[cnk:​bmk|Brněnský mluvený korpus]]** (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zpřístupňuje nahrávky autentického jazyka z Brna, které byly pořízeny v letech 1994–1999 pod vedením Z. Hladké. Obsahuje 490 000 slov. U mluvčích zachycuje stejné kategorie jako PMK. Jako způsob přepisu byla zvolena účelová kombinace fonetického zápisu a standardních pravopisných norem, na rozdíl od PMK zde byla tradiční interpunkce nahrazena pauzovou.
-  - **Korpusy řady ORAL** ​vznikají ​v Ústavu Českého národního korpusu ​za koordinace M. Kopřivové ​M. WaclawičovéUsilují ​o zachycení mluveného jazyka na širším teritoriu České republiky, ​proto jako další kategorie týkající se mluvčího přibyla nářeční oblast, ze které mluvčí pochází (středočeská,​ severovýchodočeská,​ jihozápadočeská,​ české pohraničí,​ česko-moravská,​ středomovská,​ východomoravská,​ slezská, moravské pohraničí). Tato kategorie významně ovlivňuje jazyk mluvčíhopřestože cílem není zachycení dialektu (odlišení nářečních výrazů od obecnějších je obtížné). Zároveň se tyto korpusy snaží udržovat kontinuitu započatou korpusy PMK a BMK. Transkripční pravidla připravil na základě PMK Pavel Jančák. Nahrávány a přepisovány jsou pouze rozhovory v neformálních situacích.+  - **Korpusy řady ORAL** ​vznikaly ​v Ústavu Českého národního korpusu ​od roku 2002 do roku 2011, kdy byly pořízeny poslední nahrávky (jejich další zpracování ​anotace však pokračovaly i po tomto datu)Protože usilovaly ​o zachycení mluveného jazyka na širším teritoriu České republiky, další kategorie týkající se mluvčího přibyla nářeční oblast, ze které mluvčí pochází (středočeská,​ severovýchodočeská,​ jihozápadočeská,​ české pohraničí,​ česko-moravská,​ středomovská,​ východomoravská,​ slezská, moravské pohraničí). Tato kategorie významně ovlivňuje jazyk mluvčíhopřestože cílem ​korpusů řady ORAL primárně ​není zachycení dialektu (na ten se soustřeďuje nový [[cnk:​dialekt|DIALEKT]]); zároveň se tyto korpusy snaží udržovat kontinuitu započatou korpusy PMK a BMK. Transkripční pravidla připravil na základě PMK Pavel Jančák. Nahrávány a přepisovány jsou pouze rozhovory v neformálních situacích.
   - [[cnk:​oral2006|ORAL2006]] zachycuje mluvenou češtinu z celé oblasti českých nářečí v užším slova smyslu. I zde byly zachovány binární sociolingvistické kategorie pohlaví, věk a vzdělání,​ přibyla kategorie nářeční oblast původu mluvčího; kromě binárního rozlišení jsou tyto kategorie vyjádřeny i přesněji. Korpus obsahuje 1 milion slov, byl zpřístupněn v roce 2006.    - [[cnk:​oral2006|ORAL2006]] zachycuje mluvenou češtinu z celé oblasti českých nářečí v užším slova smyslu. I zde byly zachovány binární sociolingvistické kategorie pohlaví, věk a vzdělání,​ přibyla kategorie nářeční oblast původu mluvčího; kromě binárního rozlišení jsou tyto kategorie vyjádřeny i přesněji. Korpus obsahuje 1 milion slov, byl zpřístupněn v roce 2006. 
   - [[cnk:​oral2008|ORAL2008]] je milionový vyvážený korpus mluvené češtiny z oblasti Čech. Korpus byl vyvážen podle sociolingvistických kategorií pohlaví, vzdělání,​ věk a nářeční oblast původu mluvčího. Byl zpřístupněn v roce 2008.    - [[cnk:​oral2008|ORAL2008]] je milionový vyvážený korpus mluvené češtiny z oblasti Čech. Korpus byl vyvážen podle sociolingvistických kategorií pohlaví, vzdělání,​ věk a nářeční oblast původu mluvčího. Byl zpřístupněn v roce 2008. 
-  - [[cnk:​oral2013|ORAL2013]] je dalším připravovaným korpusem, který ​zpřístupní nahrávky i jejich ​epis z celého ​území České republiky.+  - [[cnk:​oral2013|ORAL2013]] je největší z korpusů ​řady ORAL (2,8 mil. slov), který ​se od svých předchůdců odlišuje v řadě důležitých rysů ([[cnk:​oral2013#​rada_korpusu_oral_v_cem_se_oral2013_odlisuje|podrobnosti]]):​ jde edevším o propojení přepisu se zvukovou stopou, značení překryvů replik dvou mluvčích, proznačení shodných mluvčích a pokrytí celého ​území České republiky ​(tj. Čech, Moravy i Slezska).
   - Speciální **[[cnk:​schola2010|Korpus školní komunikace SCHOLA2010]]**,​ který vznikal pod vedením Karla Šebesty a Hany Goláňové,​ obsahuje 792 764 slov. Tento korpus zaznamenává mluvenou komunikaci během vyučovacích hodin na základních školách, gymnáziích a středních odborných školách. Nahrávky byly pořizovány v letech 2005–2008. Korpus je vyvážen vzhledem ke skupinám vyučovacích předmětů.   - Speciální **[[cnk:​schola2010|Korpus školní komunikace SCHOLA2010]]**,​ který vznikal pod vedením Karla Šebesty a Hany Goláňové,​ obsahuje 792 764 slov. Tento korpus zaznamenává mluvenou komunikaci během vyučovacích hodin na základních školách, gymnáziích a středních odborných školách. Nahrávky byly pořizovány v letech 2005–2008. Korpus je vyvážen vzhledem ke skupinám vyučovacích předmětů.