AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verzeObě strany příští revize
pojmy:mluveny [2017/06/07 15:58] – [České korpusy mluveného jazyka] Zuzana Komrskovápojmy:mluveny [2017/06/08 15:30] – [České korpusy mluveného jazyka] Michal Křen
Řádek 48: Řádek 48:
 ===== České korpusy mluveného jazyka ===== ===== České korpusy mluveného jazyka =====
  
-Následující mluvené korpusy jsou přístupny prostřednictvím [[http://www.korpus.cz|ČNK]]. V jejich přepisech je možné vyhledávat pomocí [[pojmy:korpusovy_manazer|korpusového manažeru]], zvukové záznamy nejsou dostupné:+Následující mluvené korpusy jsou přístupny prostřednictvím [[http://www.korpus.cz|ČNK]]. V jejich přepisech je možné vyhledávat pomocí rozhraní [[manualy:kontext:index|KonText]], zvukové záznamy jsou dostupné pouze pro novější z nich:
  
-  - **[[cnk:pmk|Pražský mluvený korpus]]** (PMK) je prvním mluveným korpusem, zachycuje autentickou mluvu, tematicky nespecializovanou z oblasti Prahy a okolí. Vznikal v letech 1988–1996 pod vedením F. Čermáka a obsahuje 675 000 slov. U mluvčích zachycuje binárně 4 sociolingvistické proměnné: pohlaví (muž – žena), věk (mladší – do 35 let, – starší nad 35 let), vzdělání (nižší (základní a středoškolské) – vyšší (vysokoškolské)) a formálnost či neformálnost promluvy. Nahráváni byli pouze mluvčí žijící trvale na území Prahy a starší 18 let. Způsob přepisu se snaží co nejvěrněji zachytit mluvený jazyk, především z hlediska jeho neformálnosti. Je to zatím jediný plně a poloautomaticky anotovaný český korpus zachycující i frazémy, idiomy a další víceslovné jednotky včetně citátových výrazů cizojazyčných, ale i zkratky; anotace systematicky zachycuje i valenci všech slovních druhů a bohatou sémantickou a funkční povahu všech slovních tvarů, včetně variability typické pro mluvený jazyk. +  - **[[cnk:pmk|Pražský mluvený korpus]]** (PMK) je prvním mluveným korpusem, zachycuje autentickou mluvu, tematicky nespecializovanou z oblasti Prahy a okolí. Vznikal v letech 1988–1996 pod vedením F. Čermáka a obsahuje 675 000 slov. U mluvčích zachycuje binárně 4 sociolingvistické proměnné: pohlaví (muž – žena), věk (mladší – do 35 let, – starší nad 35 let), vzdělání (nižší (základní a středoškolské) – vyšší (vysokoškolské)) a formálnost či neformálnost promluvy. Nahráváni byli pouze mluvčí žijící trvale na území Prahy a starší 18 let. Způsob přepisu se snaží co nejvěrněji zachytit mluvený jazyk, především z hlediska jeho neformálnosti. Je to zatím jediný plně a poloautomaticky anotovaný český korpus zachycující i frazémy, idiomy a další víceslovné jednotky včetně citátových výrazů cizojazyčných, ale i zkratky; anotace zachycuje i valenci všech slovních druhů a bohatou sémantickou a funkční povahu všech slovních tvarů, včetně variability typické pro mluvený jazyk. 
   - **[[cnk:bmk|Brněnský mluvený korpus]]** (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zpřístupňuje nahrávky autentického jazyka z Brna, které byly pořízeny v letech 1994–1999 pod vedením Z. Hladké. Obsahuje 490 000 slov. U mluvčích zachycuje stejné kategorie jako PMK. Jako způsob přepisu byla zvolena účelová kombinace fonetického zápisu a standardních pravopisných norem, na rozdíl od PMK zde byla tradiční interpunkce nahrazena pauzovou.   - **[[cnk:bmk|Brněnský mluvený korpus]]** (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zpřístupňuje nahrávky autentického jazyka z Brna, které byly pořízeny v letech 1994–1999 pod vedením Z. Hladké. Obsahuje 490 000 slov. U mluvčích zachycuje stejné kategorie jako PMK. Jako způsob přepisu byla zvolena účelová kombinace fonetického zápisu a standardních pravopisných norem, na rozdíl od PMK zde byla tradiční interpunkce nahrazena pauzovou.
-  - **Korpusy řady ORAL** vznikají v Ústavu Českého národního korpusu za koordinace M. Kopřivové M. WaclawičovéUsilují o zachycení mluveného jazyka na širším teritoriu České republiky, proto jako další kategorie týkající se mluvčího přibyla nářeční oblast, ze které mluvčí pochází (středočeská, severovýchodočeská, jihozápadočeská, české pohraničí, česko-moravská, středomovská, východomoravská, slezská, moravské pohraničí). Tato kategorie významně ovlivňuje jazyk mluvčíhopřestože cílem není zachycení dialektu (odlišení nářečních výrazů od obecnějších je obtížné). Zároveň se tyto korpusy snaží udržovat kontinuitu započatou korpusy PMK a BMK. Transkripční pravidla připravil na základě PMK Pavel Jančák. Nahrávány a přepisovány jsou pouze rozhovory v neformálních situacích.+  - **Korpusy řady ORAL** vznikaly v Ústavu Českého národního korpusu od roku 2002 do roku 2011, kdy byly pořízeny poslední nahrávky (jejich další zpracování anotace však pokračovaly i po tomto datu)Protože usilovaly o zachycení mluveného jazyka na širším teritoriu České republiky, další kategorie týkající se mluvčího přibyla nářeční oblast, ze které mluvčí pochází (středočeská, severovýchodočeská, jihozápadočeská, české pohraničí, česko-moravská, středomovská, východomoravská, slezská, moravské pohraničí). Tato kategorie významně ovlivňuje jazyk mluvčíhopřestože cílem korpusů řady ORAL primárně není zachycení dialektu (na ten se soustřeďuje nový [[cnk:dialekt|DIALEKT]]); zároveň se tyto korpusy snaží udržovat kontinuitu započatou korpusy PMK a BMK. Transkripční pravidla připravil na základě PMK Pavel Jančák. Nahrávány a přepisovány jsou pouze rozhovory v neformálních situacích.
   - [[cnk:oral2006|ORAL2006]] zachycuje mluvenou češtinu z celé oblasti českých nářečí v užším slova smyslu. I zde byly zachovány binární sociolingvistické kategorie pohlaví, věk a vzdělání, přibyla kategorie nářeční oblast původu mluvčího; kromě binárního rozlišení jsou tyto kategorie vyjádřeny i přesněji. Korpus obsahuje 1 milion slov, byl zpřístupněn v roce 2006.    - [[cnk:oral2006|ORAL2006]] zachycuje mluvenou češtinu z celé oblasti českých nářečí v užším slova smyslu. I zde byly zachovány binární sociolingvistické kategorie pohlaví, věk a vzdělání, přibyla kategorie nářeční oblast původu mluvčího; kromě binárního rozlišení jsou tyto kategorie vyjádřeny i přesněji. Korpus obsahuje 1 milion slov, byl zpřístupněn v roce 2006. 
   - [[cnk:oral2008|ORAL2008]] je milionový vyvážený korpus mluvené češtiny z oblasti Čech. Korpus byl vyvážen podle sociolingvistických kategorií pohlaví, vzdělání, věk a nářeční oblast původu mluvčího. Byl zpřístupněn v roce 2008.    - [[cnk:oral2008|ORAL2008]] je milionový vyvážený korpus mluvené češtiny z oblasti Čech. Korpus byl vyvážen podle sociolingvistických kategorií pohlaví, vzdělání, věk a nářeční oblast původu mluvčího. Byl zpřístupněn v roce 2008. 
-  - [[cnk:oral2013|ORAL2013]] je dalším připravovaným korpusem, který zpřístupní nahrávky i jejich epis z celého území České republiky.+  - [[cnk:oral2013|ORAL2013]] je největší z korpusů řady ORAL (2,8 mil. slov), který se od svých předchůdců odlišuje v řadě důležitých rysů ([[cnk:oral2013#rada_korpusu_oral_v_cem_se_oral2013_odlisuje|podrobnosti]]): jde edevším o propojení přepisu se zvukovou stopou, značení překryvů replik dvou mluvčích, proznačení shodných mluvčích a pokrytí celého území České republiky (tj. Čech, Moravy i Slezska).
   - Speciální **[[cnk:schola2010|Korpus školní komunikace SCHOLA2010]]**, který vznikal pod vedením Karla Šebesty a Hany Goláňové, obsahuje 792 764 slov. Tento korpus zaznamenává mluvenou komunikaci během vyučovacích hodin na základních školách, gymnáziích a středních odborných školách. Nahrávky byly pořizovány v letech 2005–2008. Korpus je vyvážen vzhledem ke skupinám vyučovacích předmětů.   - Speciální **[[cnk:schola2010|Korpus školní komunikace SCHOLA2010]]**, který vznikal pod vedením Karla Šebesty a Hany Goláňové, obsahuje 792 764 slov. Tento korpus zaznamenává mluvenou komunikaci během vyučovacích hodin na základních školách, gymnáziích a středních odborných školách. Nahrávky byly pořizovány v letech 2005–2008. Korpus je vyvážen vzhledem ke skupinám vyučovacích předmětů.