Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:mluveny [2017/06/07 15:56] – [České korpusy mluveného jazyka] zuzanakomrskova | pojmy:mluveny [2020/02/24 12:09] (aktuální) – [Související odkazy] zuzanakomrskova |
---|
===== České korpusy mluveného jazyka ===== | ===== České korpusy mluveného jazyka ===== |
| |
Následující mluvené korpusy jsou přístupny prostřednictvím [[http://www.korpus.cz|ČNK]]. V jejich přepisech je možné vyhledávat pomocí [[pojmy:korpusovy_manazer|korpusového manažeru]], zvukové záznamy nejsou dostupné: | Následující mluvené korpusy jsou přístupny prostřednictvím [[http://www.korpus.cz|ČNK]]. V jejich přepisech je možné vyhledávat pomocí rozhraní [[manualy:kontext:index|KonText]], zvukové záznamy jsou dostupné pouze pro novější z nich: |
| |
- **[[cnk:pmk|Pražský mluvený korpus]]** (PMK) je prvním mluveným korpusem, zachycuje autentickou mluvu, tematicky nespecializovanou z oblasti Prahy a okolí. Vznikal v letech 1988–1996 pod vedením F. Čermáka a obsahuje 675 000 slov. U mluvčích zachycuje binárně 4 sociolingvistické proměnné: pohlaví (muž – žena), věk (mladší – do 35 let, – starší nad 35 let), vzdělání (nižší (základní a středoškolské) – vyšší (vysokoškolské)) a formálnost či neformálnost promluvy. Nahráváni byli pouze mluvčí žijící trvale na území Prahy a starší 18 let. Způsob přepisu se snaží co nejvěrněji zachytit mluvený jazyk, především z hlediska jeho neformálnosti. Je to zatím jediný plně a poloautomaticky anotovaný český korpus zachycující i frazémy, idiomy a další víceslovné jednotky včetně citátových výrazů cizojazyčných, ale i zkratky; anotace systematicky zachycuje i valenci všech slovních druhů a bohatou sémantickou a funkční povahu všech slovních tvarů, včetně variability typické pro mluvený jazyk. | - **[[cnk:pmk|Pražský mluvený korpus]]** (PMK) je prvním mluveným korpusem, zachycuje autentickou mluvu, tematicky nespecializovanou z oblasti Prahy a okolí. Vznikal v letech 1988–1996 pod vedením F. Čermáka a obsahuje 675 000 slov. U mluvčích zachycuje binárně 4 sociolingvistické proměnné: pohlaví (muž – žena), věk (mladší – do 35 let, – starší nad 35 let), vzdělání (nižší (základní a středoškolské) – vyšší (vysokoškolské)) a formálnost či neformálnost promluvy. Nahráváni byli pouze mluvčí žijící trvale na území Prahy a starší 18 let. Způsob přepisu se snaží co nejvěrněji zachytit mluvený jazyk, především z hlediska jeho neformálnosti. Je to zatím jediný plně a poloautomaticky anotovaný český korpus zachycující i frazémy, idiomy a další víceslovné jednotky včetně citátových výrazů cizojazyčných, ale i zkratky; anotace zachycuje i valenci všech slovních druhů a bohatou sémantickou a funkční povahu všech slovních tvarů, včetně variability typické pro mluvený jazyk. |
- **[[cnk:bmk|Brněnský mluvený korpus]]** (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zpřístupňuje nahrávky autentického jazyka z Brna, které byly pořízeny v letech 1994–1999 pod vedením Z. Hladké. Obsahuje 490 000 slov. U mluvčích zachycuje stejné kategorie jako PMK. Jako způsob přepisu byla zvolena účelová kombinace fonetického zápisu a standardních pravopisných norem, na rozdíl od PMK zde byla tradiční interpunkce nahrazena pauzovou. | - **[[cnk:bmk|Brněnský mluvený korpus]]** (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zpřístupňuje nahrávky autentického jazyka z Brna, které byly pořízeny v letech 1994–1999 pod vedením Z. Hladké. Obsahuje 490 000 slov. U mluvčích zachycuje stejné kategorie jako PMK. Jako způsob přepisu byla zvolena účelová kombinace fonetického zápisu a standardních pravopisných norem, na rozdíl od PMK zde byla tradiční interpunkce nahrazena pauzovou. |
- **Korpusy řady ORAL** vznikají v Ústavu Českého národního korpusu za koordinace M. Kopřivové a M. Waclawičové. Usilují o zachycení mluveného jazyka na širším teritoriu České republiky, proto jako další kategorie týkající se mluvčího přibyla nářeční oblast, ze které mluvčí pochází (středočeská, severovýchodočeská, jihozápadočeská, české pohraničí, česko-moravská, středomovská, východomoravská, slezská, moravské pohraničí). Tato kategorie významně ovlivňuje jazyk mluvčího; přestože cílem není zachycení dialektu (odlišení nářečních výrazů od obecnějších je obtížné). Zároveň se tyto korpusy snaží udržovat kontinuitu započatou korpusy PMK a BMK. Transkripční pravidla připravil na základě PMK Pavel Jančák. Nahrávány a přepisovány jsou pouze rozhovory v neformálních situacích. | - **Korpusy řady ORAL** vznikaly v Ústavu Českého národního korpusu od roku 2002 do roku 2011, kdy byly pořízeny poslední nahrávky (jejich další zpracování a anotace však pokračovaly i po tomto datu). Protože usilovaly o zachycení mluveného jazyka na širším teritoriu České republiky, další kategorie týkající se mluvčího přibyla nářeční oblast, ze které mluvčí pochází (středočeská, severovýchodočeská, jihozápadočeská, české pohraničí, česko-moravská, středomovská, východomoravská, slezská, moravské pohraničí). Tato kategorie významně ovlivňuje jazyk mluvčího, přestože cílem korpusů řady ORAL primárně není zachycení dialektu (na ten se soustřeďuje nový [[cnk:dialekt|DIALEKT]]); zároveň se tyto korpusy snaží udržovat kontinuitu započatou korpusy PMK a BMK. Transkripční pravidla připravil na základě PMK Pavel Jančák. Nahrávány a přepisovány jsou pouze rozhovory v neformálních situacích. |
- [[cnk:oral2006|ORAL2006]] zachycuje mluvenou češtinu z celé oblasti českých nářečí v užším slova smyslu. I zde byly zachovány binární sociolingvistické kategorie pohlaví, věk a vzdělání, přibyla kategorie nářeční oblast původu mluvčího; kromě binárního rozlišení jsou tyto kategorie vyjádřeny i přesněji. Korpus obsahuje 1 milion slov, byl zpřístupněn v roce 2006. | - [[cnk:oral2006|ORAL2006]] zachycuje mluvenou češtinu z celé oblasti českých nářečí v užším slova smyslu. I zde byly zachovány binární sociolingvistické kategorie pohlaví, věk a vzdělání, přibyla kategorie nářeční oblast původu mluvčího; kromě binárního rozlišení jsou tyto kategorie vyjádřeny i přesněji. Korpus obsahuje 1 milion slov, byl zpřístupněn v roce 2006. |
- [[cnk:oral2008|ORAL2008]] je milionový vyvážený korpus mluvené češtiny z oblasti Čech. Korpus byl vyvážen podle sociolingvistických kategorií pohlaví, vzdělání, věk a nářeční oblast původu mluvčího. Byl zpřístupněn v roce 2008. | - [[cnk:oral2008|ORAL2008]] je milionový vyvážený korpus mluvené češtiny z oblasti Čech. Korpus byl vyvážen podle sociolingvistických kategorií pohlaví, vzdělání, věk a nářeční oblast původu mluvčího. Byl zpřístupněn v roce 2008. |
- [[cnk:oral2013|ORAL2013]] je dalším připravovaným korpusem, který zpřístupní nahrávky i jejich přepis z celého území České republiky. | - [[cnk:oral2013|ORAL2013]] je největší z korpusů řady ORAL (2,8 mil. slov), který se od svých předchůdců odlišuje v řadě důležitých rysů ([[cnk:oral2013#rada_korpusu_oral_v_cem_se_oral2013_odlisuje|podrobnosti]]): jde především o propojení přepisu se zvukovou stopou, značení překryvů replik dvou mluvčích, proznačení shodných mluvčích a pokrytí celého území České republiky (tj. Čech, Moravy i Slezska). |
- Speciální **[[cnk:schola2010|Korpus školní komunikace SCHOLA2010]]**, který vznikal pod vedením Karla Šebesty a Hany Goláňové, obsahuje 792 764 slov. Tento korpus zaznamenává mluvenou komunikaci během vyučovacích hodin na základních školách, gymnáziích a středních odborných školách. Nahrávky byly pořizovány v letech 2005–2008. Korpus je vyvážen vzhledem ke skupinám vyučovacích předmětů. | - Speciální **[[cnk:schola2010|Korpus školní komunikace SCHOLA2010]]**, který vznikal pod vedením Karla Šebesty a Hany Goláňové, obsahuje 792 764 slov. Tento korpus zaznamenává mluvenou komunikaci během vyučovacích hodin na základních školách, gymnáziích a středních odborných školách. Nahrávky byly pořizovány v letech 2005–2008. Korpus je vyvážen vzhledem ke skupinám vyučovacích předmětů. |
| |
Následující korpusy jsou lemmatizovány a tagovány a propojeny se zvukem: | Následující korpusy jsou **[[cnk:lemtag_mluv|lemmatizovány a tagovány]]** a **propojeny se zvukem**: |
- **[[cnk:oral|ORAL]]** sdružuje data z korpusů řady ORAL a dalších nahrávek z let 2002-2011. Zvuk je dostupný pouze k části ORAL2013 a ORAL-Z. Korpus obsahuje 5,4 mil. slov a byl zpřístupněn v roce 2017. | - Korpus **[[cnk:oral|ORAL]]** sdružuje data z korpusů řady ORAL a dalších nahrávek z let 2002-2011. Zvuk je dostupný pouze k části ORAL2013 a ORAL-Z. Korpus obsahuje 5,4 mil. slov a byl zpřístupněn v roce 2017. |
- **[[cnk:ortofon|ORTOFON]]** je miliónový korpus zachycující mluvu z celé České republiky v období 2012-2017. Korpus je vyvážený vzhledem k pohlaví, věku, vzdělání a nářeční oblasti pobytu mluvčího v dětství. Korpus má dvouúrovňový přepis - ortografický a fonetický. | - **[[cnk:ortofon|ORTOFON]]** je miliónový korpus zachycující mluvu z celé České republiky v období 2012-2017. Korpus je vyvážený vzhledem k pohlaví, věku, vzdělání a nářeční oblasti pobytu mluvčího v dětství. Korpus má dvouúrovňový přepis - ortografický a fonetický. |
- Nářeční korpus **[[cnk:dialekt|DIALEKT]]** ukazuje tradiční teritoriální dialekty zachycené na území České republiky ve dvou obdobích: 50. - 80. léta 20. století a od 90. let 20. století dosud. Korpus má dvouúrovňový přepis - ortografický a dialektologický. | - Nářeční korpus **[[cnk:dialekt|DIALEKT]]** ukazuje tradiční teritoriální dialekty zachycené na území České republiky ve dvou obdobích: 50. - 80. léta 20. století a od 90. let 20. století dosud. Korpus má dvouúrovňový přepis - ortografický a dialektologický. |
| - Korpus monologů **[[cnk:orator|ORATOR]]** představuje projevy proslovené při příležitostech, o kterých jsou řečníci předem informováni a na něž se mohou připravit. Korpus má jednoúrovňový přepis. |
--- //Marie Kopřivová// | |
| |
==== Související odkazy ==== | ==== Související odkazy ==== |
| |
<WRAP round box 50%> | <WRAP round box 50%> |
[[pojmy:psany|Korpusy psané češtiny]] • [[cnk:oral2006|ORAL2006]] • [[cnk:oral2008|ORAL2008]] • [[cnk:oral2013|ORAL2013]] • [[cnk:bmk|BMK]] • [[cnk:pmk|PMK]] • [[cnk:schola2010|SCHOLA2010]] • [[pojmy:anonymizace|Anonymizace dat]] | [[pojmy:psany|Korpusy psané češtiny]] • [[pojmy:anonymizace|Anonymizace dat]] |
</WRAP> | </WRAP> |