AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:oral2008 [2014/02/04 09:34] – [Korpus mluvené češtiny ORAL2008] Michal Křencnk:oral2008 [2022/08/29 17:25] (aktuální) – BatchEdit: pojmy>seznamy promluvy Václav Cvrček (admin)
Řádek 9: Řádek 9:
 ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |  1 000 097 | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |  1 000 097 |
 ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  65 778 |   ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  65 778 |  
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  297 | +^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] |  297 | 
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  106 941 |+^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] |  106 941 |
 ^ Počet mluvčích |  995 |   ^ Počet mluvčích |  995 |  
 ^ Délka nahrávek v min. |  6883 |   ^ Délka nahrávek v min. |  6883 |  
Řádek 18: Řádek 18:
 Korpus je sestaven z přepisů 297 nahrávek, které byly v letech 2002-2007 pořízeny na různých místech po celém území Čech (tj. ne Moravy a Slezska). Tyto nahrávky zachycují autentickou mluvenou češtinu v přirozeném prostředí na území tradičně vymezovaném jako oblast českých nářečí v užším slova smyslu. Data umožňují zkoumat především obecnou češtinu a její regionální varianty, všem nahrávkám je totiž společné to, že byly pořízeny výhradně v neformálních situacích, mluvčí se vzájemně znali a měli k sobě přátelský vztah. Mluvčí dále nebyli předem informováni o nahrávání, všichni však následně souhlasili s použitím nahrávky pro potřeby Českého národního korpusu. Nahrávky pro ORAL2008 jsou dlouhé 6 883 minut, tj. necelých 115 hodin, a obsahují projevy 995 mluvčích o celkové délce 1 000 097 slov. Korpus je sestaven z přepisů 297 nahrávek, které byly v letech 2002-2007 pořízeny na různých místech po celém území Čech (tj. ne Moravy a Slezska). Tyto nahrávky zachycují autentickou mluvenou češtinu v přirozeném prostředí na území tradičně vymezovaném jako oblast českých nářečí v užším slova smyslu. Data umožňují zkoumat především obecnou češtinu a její regionální varianty, všem nahrávkám je totiž společné to, že byly pořízeny výhradně v neformálních situacích, mluvčí se vzájemně znali a měli k sobě přátelský vztah. Mluvčí dále nebyli předem informováni o nahrávání, všichni však následně souhlasili s použitím nahrávky pro potřeby Českého národního korpusu. Nahrávky pro ORAL2008 jsou dlouhé 6 883 minut, tj. necelých 115 hodin, a obsahují projevy 995 mluvčích o celkové délce 1 000 097 slov.
  
-[[Vložit grafy]] https://www.korpus.cz/struktura_oral08.php+ 
 +**Tab 1**Počet nahrávek podle roků 
 +^ Rok ^ Počet nahrávek ^ 
 +|2002 | 9| 
 +|2003 | 7| 
 +|2004 | 11| 
 +|2005 | 49| 
 +|2006 | 79| 
 +|2007 |  142| 
 + 
 +**Tab 2**. Počet nahrávek podle počtu mluvčích 
 + 
 +^ Počet mluvčích ^ Počet nahrávek ^ 
 +|2| 109| 
 +|3| 76| 
 +|4| 54| 
 +|5| 33| 
 +|6| 15| 
 +|7| 5| 
 +|8| 3| 
 +|9| 1| 
 +|10| 1| 
 + 
 +**Tab 3**. Počet mluvčích a pozic podle vzdělání 
 +^Vzdělání ^ Počet mluvčích ^ Počet pozic ^ 
 +|A|  559|  500672| 
 +|B|  436|  499425| 
 +|ZŠ|  130|  163988| 
 +|SŠ|  306|  335437| 
 +|VŠ|  559|  500672| 
 + 
 +**Tab 4**. Počet mluvčích a pozic podle pohlaví 
 +^Pohlaví ^ Počet mluvčích ^ Počet pozic ^ 
 +|ženy |  522|  500478| 
 +|muži |  473|  499619| 
 + 
 +**Tab 5**Počet mluvčích a pozic podle věku 
 +^Věk ^ Počet mluvčích ^ Počet pozic ^ 
 +|I |  576|  500199| 
 +|V |  419|  499898| 
 + 
 +**Tab 6**Počet mluvčích a pozic podle nářečních oblastí 
 +^Nářeční oblast ^ Počet mluvčích ^ Počet pozic ^ 
 +|středočeská|  312|  247630| 
 +|severovýchodočeská|  167|  242199| 
 +|jihozápadočeská|  281|  237417| 
 +|české pohraničí|  206|  239511| 
 +|česko-moravská|  29| 33340| 
  
 ==== Přepis nahrávek a další informace ==== ==== Přepis nahrávek a další informace ====
  
-Pořizování nahrávek, jejich přepisování a označování probíhalo v souladu s [[seznamy:pravidlaprepis|obecnými zásadami]] uplatňovanými při přípravě všech předchozích mluvených korpusů v rámci Českého národního korpusu, zejména korpusu ORAL2006. +Pořizování nahrávek, jejich přepisování a označování probíhalo v souladu s [[seznamy:pravidla_2008|obecnými zásadami]] uplatňovanými při přípravě všech předchozích mluvených korpusů v rámci Českého národního korpusu, zejména korpusu ORAL2006. 
 Všechny korpusy se shodují v označování základních tří binárních sociolingvistických kategorií mluvčích: Všechny korpusy se shodují v označování základních tří binárních sociolingvistických kategorií mluvčích:
  
Řádek 36: Řádek 84:
  
 === Oblast převažujícího pobytu do 15 let === === Oblast převažujícího pobytu do 15 let ===
-Věk 15 let je stanoven jako hranice, kdy se formoval základ individuálního jazykového úzu. Tyto oblasti jsou vymezeny na základě tradičního nářečního členění podle Jaromíra Běliče (Nástin české dialektologie, SPN, Praha 1972) a dělení používaného v Českém jazykovém atlasu (Academia, Praha 1992-2005). Území Čech je tedy rozděleno na **oblast středočeskou, severovýchodočeskou, jihozápadočeskou, přechodnou oblast česko-moravskou a české pohraničí**. U každého přepisu je zaznamenán počet mluvčích účastnících se hovoru, rok pořízení nahrávky a neformálnost situace. Poslední označení zachováváme kvůli srovnatelnosti s ostatními korpusy i přesto, že korpus ORAL2008 obsahuje pouze nahrávky neformálních situací. Podrobný přehled všech strukturních značek pro korpus ORAL2008 najdete v manuálu korpusového manažeru Bonito v sekci [[http://korpus.cz/bonito/korpusy.php#oral08|dostupné korpusy]].+Věk 15 let je stanoven jako hranice, kdy se formoval základ individuálního jazykového úzu. Tyto oblasti jsou vymezeny na základě tradičního nářečního členění podle Jaromíra Běliče (Nástin české dialektologie, SPN, Praha 1972). Území Čech je tedy rozděleno na **oblast středočeskou, severovýchodočeskou, jihozápadočeskou, přechodnou oblast česko-moravskou a české pohraničí**. U každého přepisu je zaznamenán počet mluvčích účastnících se hovoru, rok pořízení nahrávky a neformálnost situace. Poslední označení zachováváme kvůli srovnatelnosti s ostatními korpusy i přesto, že korpus ORAL2008 obsahuje pouze nahrávky neformálních situací (viz podrobný [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|přehled strukturních značek]] pro korpusy řady ORAL).
  
 +[{{ :cnk:o08.png?600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).}}]
 +
 +Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{:cnk:o08_win.csv|ke stažení ve formátu .csv}}.
 ===== Změny oproti korpusu ORAL2006 – sociolingvistická vyváženost ===== ===== Změny oproti korpusu ORAL2006 – sociolingvistická vyváženost =====
 Korpus ORAL2008 je **plně vyvážený s ohledem na základní čtyři sociolingvistické kategorie mluvčích**. Znamená to, že přepisy nahrávek byly do korpusu ORAL2008 vybrány tak, aby byly všechny hodnoty základních sociolingvistických kategorií mluvčích zastoupeny přibližně stejným počtem slov. Polovinou všech slov v korpusu je tedy zastoupena každá z hodnot binárních kategorií: Korpus ORAL2008 je **plně vyvážený s ohledem na základní čtyři sociolingvistické kategorie mluvčích**. Znamená to, že přepisy nahrávek byly do korpusu ORAL2008 vybrány tak, aby byly všechny hodnoty základních sociolingvistických kategorií mluvčích zastoupeny přibližně stejným počtem slov. Polovinou všech slov v korpusu je tedy zastoupena každá z hodnot binárních kategorií:
Řádek 60: Řádek 111:
  
 ===== Jak citovat ORAL2008 ===== ===== Jak citovat ORAL2008 =====
-<WRAP round tip 30%> 
-Waclawičová, M. – Kopřivová, M. – Křen, M. – Válková, L.: ORAL2008: sociolingvisticky vyvážený korpus neformální mluvené češtiny. Ústav Českého národního korpusu FF UK, Praha 2008. Dostupný z WWW: http://www.korpus.cz 
-</WRAP> 
  
 +<WRAP round tip 70%>
 +Waclawičová, M. – Kopřivová, M. – Křen, M. – Válková, L.: //ORAL2008: sociolingvisticky vyvážený korpus neformální mluvené češtiny//. Ústav Českého národního korpusu FF UK, Praha 2008. Dostupný z WWW: http://www.korpus.cz
 +
 +Waclawičová, M. – Křen, M. – Válková, L. (2009): Balanced Corpus of Informal Spoken Czech: Compilation, Design and Findings. In //Proceedings of the 10th Annual Conference of the International Speech Communication Association INTERSPEECH 2009//, 1819–1822, Brighton.
 +</WRAP>
  
 ==== Poděkování ==== ==== Poděkování ====
Řádek 74: Řádek 127:
  
 <WRAP round box 49%> <WRAP round box 49%>
-[[seznamy:pravidlaprepis|Pravidla pro přepis nahrávek]], [[ORAL2006]], [[ORAL2013]], [[PMK]], [[BMK]], [[pojmy:mluveny|Korpus mluveného jazyka]]+[[seznamy:index#pravidla_pro_prepis|Pravidla pro přepis nahrávek]], [[ORAL2006]], [[ORAL2013]], [[PMK]], [[BMK]], [[pojmy:mluveny|Korpus mluveného jazyka]]
  </WRAP>  </WRAP>