Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- pojmy:mluveny [2017/06/07 15:57] – [České korpusy mluveného jazyka] zuzanakomrskova
+++ pojmy:mluveny [2020/02/24 12:09] (aktuální) – [Související odkazy] zuzanakomrskova
@@ Řádek 48: / Řádek 48: @@
 ===== České korpusy mluveného jazyka =====
-Následující mluvené korpusy jsou přístupny prostřednictvím [[http://www.korpus.cz|ČNK]]. V jejich přepisech je možné vyhledávat pomocí [[pojmy:korpusovy_manazer|korpusového manažeru]], zvukové záznamy nejsou dostupné:
+Následující mluvené korpusy jsou přístupny prostřednictvím [[http://www.korpus.cz|ČNK]]. V jejich přepisech je možné vyhledávat pomocí rozhraní [[manualy:kontext:index|KonText]], zvukové záznamy jsou dostupné pouze pro novější z nich:
-  - **[[cnk:pmk|Pražský mluvený korpus]]** (PMK) je prvním mluveným korpusem, zachycuje autentickou mluvu, tematicky nespecializovanou z oblasti Prahy a okolí. Vznikal v letech 1988–1996 pod vedením F. Čermáka a obsahuje 675 000 slov. U mluvčích zachycuje binárně 4 sociolingvistické proměnné: pohlaví (muž – žena), věk (mladší – do 35 let, – starší nad 35 let), vzdělání (nižší (základní a středoškolské) – vyšší (vysokoškolské)) a formálnost či neformálnost promluvy. Nahráváni byli pouze mluvčí žijící trvale na území Prahy a starší 18 let. Způsob přepisu se snaží co nejvěrněji zachytit mluvený jazyk, především z hlediska jeho neformálnosti. Je to zatím jediný plně a poloautomaticky anotovaný český korpus zachycující i frazémy, idiomy a další víceslovné jednotky včetně citátových výrazů cizojazyčných, ale i zkratky; anotace systematicky zachycuje i valenci všech slovních druhů a bohatou sémantickou a funkční povahu všech slovních tvarů, včetně variability typické pro mluvený jazyk.
+  - **[[cnk:pmk|Pražský mluvený korpus]]** (PMK) je prvním mluveným korpusem, zachycuje autentickou mluvu, tematicky nespecializovanou z oblasti Prahy a okolí. Vznikal v letech 1988–1996 pod vedením F. Čermáka a obsahuje 675 000 slov. U mluvčích zachycuje binárně 4 sociolingvistické proměnné: pohlaví (muž – žena), věk (mladší – do 35 let, – starší nad 35 let), vzdělání (nižší (základní a středoškolské) – vyšší (vysokoškolské)) a formálnost či neformálnost promluvy. Nahráváni byli pouze mluvčí žijící trvale na území Prahy a starší 18 let. Způsob přepisu se snaží co nejvěrněji zachytit mluvený jazyk, především z hlediska jeho neformálnosti. Je to zatím jediný plně a poloautomaticky anotovaný český korpus zachycující i frazémy, idiomy a další víceslovné jednotky včetně citátových výrazů cizojazyčných, ale i zkratky; anotace zachycuje i valenci všech slovních druhů a bohatou sémantickou a funkční povahu všech slovních tvarů, včetně variability typické pro mluvený jazyk.
   - **[[cnk:bmk|Brněnský mluvený korpus]]** (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zpřístupňuje nahrávky autentického jazyka z Brna, které byly pořízeny v letech 1994–1999 pod vedením Z. Hladké. Obsahuje 490 000 slov. U mluvčích zachycuje stejné kategorie jako PMK. Jako způsob přepisu byla zvolena účelová kombinace fonetického zápisu a standardních pravopisných norem, na rozdíl od PMK zde byla tradiční interpunkce nahrazena pauzovou.
-  - **Korpusy řady ORAL** vznikají v Ústavu Českého národního korpusu za koordinace M. Kopřivové a M. Waclawičové. Usilují o zachycení mluveného jazyka na širším teritoriu České republiky, proto jako další kategorie týkající se mluvčího přibyla nářeční oblast, ze které mluvčí pochází (středočeská, severovýchodočeská, jihozápadočeská, české pohraničí, česko-moravská, středomovská, východomoravská, slezská, moravské pohraničí). Tato kategorie významně ovlivňuje jazyk mluvčího; přestože cílem není zachycení dialektu (odlišení nářečních výrazů od obecnějších je obtížné). Zároveň se tyto korpusy snaží udržovat kontinuitu započatou korpusy PMK a BMK. Transkripční pravidla připravil na základě PMK Pavel Jančák. Nahrávány a přepisovány jsou pouze rozhovory v neformálních situacích.
+  - **Korpusy řady ORAL** vznikaly v Ústavu Českého národního korpusu od roku 2002 do roku 2011, kdy byly pořízeny poslední nahrávky (jejich další zpracování a anotace však pokračovaly i po tomto datu). Protože usilovaly o zachycení mluveného jazyka na širším teritoriu České republiky, další kategorie týkající se mluvčího přibyla nářeční oblast, ze které mluvčí pochází (středočeská, severovýchodočeská, jihozápadočeská, české pohraničí, česko-moravská, středomovská, východomoravská, slezská, moravské pohraničí). Tato kategorie významně ovlivňuje jazyk mluvčího, přestože cílem korpusů řady ORAL primárně není zachycení dialektu (na ten se soustřeďuje nový [[cnk:dialekt|DIALEKT]]); zároveň se tyto korpusy snaží udržovat kontinuitu započatou korpusy PMK a BMK. Transkripční pravidla připravil na základě PMK Pavel Jančák. Nahrávány a přepisovány jsou pouze rozhovory v neformálních situacích.
   - [[cnk:oral2006|ORAL2006]] zachycuje mluvenou češtinu z celé oblasti českých nářečí v užším slova smyslu. I zde byly zachovány binární sociolingvistické kategorie pohlaví, věk a vzdělání, přibyla kategorie nářeční oblast původu mluvčího; kromě binárního rozlišení jsou tyto kategorie vyjádřeny i přesněji. Korpus obsahuje 1 milion slov, byl zpřístupněn v roce 2006.
   - [[cnk:oral2008|ORAL2008]] je milionový vyvážený korpus mluvené češtiny z oblasti Čech. Korpus byl vyvážen podle sociolingvistických kategorií pohlaví, vzdělání, věk a nářeční oblast původu mluvčího. Byl zpřístupněn v roce 2008.
-  - [[cnk:oral2013|ORAL2013]] je dalším připravovaným korpusem, který zpřístupní nahrávky i jejich přepis z celého území České republiky.
+  - [[cnk:oral2013|ORAL2013]] je největší z korpusů řady ORAL (2,8 mil. slov), který se od svých předchůdců odlišuje v řadě důležitých rysů ([[cnk:oral2013#rada_korpusu_oral_v_cem_se_oral2013_odlisuje|podrobnosti]]): jde především o propojení přepisu se zvukovou stopou, značení překryvů replik dvou mluvčích, proznačení shodných mluvčích a pokrytí celého území České republiky (tj. Čech, Moravy i Slezska).
   - Speciální **[[cnk:schola2010|Korpus školní komunikace SCHOLA2010]]**, který vznikal pod vedením Karla Šebesty a Hany Goláňové, obsahuje 792 764 slov. Tento korpus zaznamenává mluvenou komunikaci během vyučovacích hodin na základních školách, gymnáziích a středních odborných školách. Nahrávky byly pořizovány v letech 2005–2008. Korpus je vyvážen vzhledem ke skupinám vyučovacích předmětů.
-Následující korpusy jsou lemmatizovány a tagovány a propojeny se zvukem:
+Následující korpusy jsou **[[cnk:lemtag_mluv|lemmatizovány a tagovány]]** a **propojeny se zvukem**:
   - Korpus **[[cnk:oral|ORAL]]** sdružuje data z korpusů řady ORAL a dalších nahrávek z let 2002-2011. Zvuk je dostupný pouze k části ORAL2013 a ORAL-Z. Korpus obsahuje 5,4 mil. slov a byl zpřístupněn v roce 2017.
   - **[[cnk:ortofon|ORTOFON]]** je miliónový korpus zachycující mluvu z celé České republiky v období 2012-2017. Korpus je vyvážený vzhledem k pohlaví, věku, vzdělání a nářeční oblasti pobytu mluvčího v dětství. Korpus má dvouúrovňový přepis - ortografický a fonetický.
   - Nářeční korpus **[[cnk:dialekt|DIALEKT]]** ukazuje tradiční teritoriální dialekty zachycené na území České republiky ve dvou obdobích: 50. - 80. léta 20. století a od 90. let 20. století dosud. Korpus má dvouúrovňový přepis - ortografický a dialektologický.
+  - Korpus monologů **[[cnk:orator|ORATOR]]** představuje projevy proslovené při příležitostech, o kterých jsou řečníci předem informováni a na něž se mohou připravit. Korpus má jednoúrovňový přepis.
- --- //Marie Kopřivová//
 ==== Související odkazy ====
 <WRAP round box 50%>
-[[pojmy:psany|Korpusy psané češtiny]] • [[cnk:oral2006|ORAL2006]] • [[cnk:oral2008|ORAL2008]] • [[cnk:oral2013|ORAL2013]] • [[cnk:bmk|BMK]] • [[cnk:pmk|PMK]] • [[cnk:schola2010|SCHOLA2010]] • [[pojmy:anonymizace|Anonymizace dat]]
+[[pojmy:psany|Korpusy psané češtiny]] • [[pojmy:anonymizace|Anonymizace dat]]
 </WRAP>

Historie: • hapax • gen1 • typ

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence