AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:oral2006 [2015/01/15 10:09] – [Struktura korpusu ORAL2006] davidlukescnk:oral2006 [2022/08/29 17:25] (aktuální) – BatchEdit: pojmy>seznamy promluvy cvrcek
Řádek 10: Řádek 10:
 ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |   1 000 798 | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |   1 000 798 |
 ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  64 495 |   ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  64 495 |  
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  221 | +^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] |  221 | 
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  97 112 |+^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] |  97 112 |
 ^ Počet mluvčích |  754 |   ^ Počet mluvčích |  754 |  
 </WRAP> </WRAP>
Řádek 18: Řádek 18:
  
  
-Způsob pořizování nahrávek, jejich přepis a označování probíhalo v souladu s [[[[seznamy:pravidlaprepis2006|pravidly a zásadami]] předchozích mluvených korpusů, jimiž byl [[cnk:pmk|Pražský mluvený korpus]] –- PMK (z jeho pravidel se vycházelo především) a [[cnk:bmk|Brněnský mluvený korpus]] –- BMK. Z tohoto důvodu bylo zachováno označování sociolingvistických kategorií mluvčích:+Způsob pořizování nahrávek, jejich přepis a označování probíhalo v souladu s [[seznamy:pravidla_2006|pravidly a zásadami]] předchozích mluvených korpusů, jimiž byl [[cnk:pmk|Pražský mluvený korpus]] –- PMK (z jeho pravidel se vycházelo především) a [[cnk:bmk|Brněnský mluvený korpus]] –- BMK. Z tohoto důvodu bylo zachováno označování sociolingvistických kategorií mluvčích:
  
 ^ Kategorie ^ zkratky ^ ^ Kategorie ^ zkratky ^
Řádek 34: Řádek 34:
  
 === Oblast převažujícího pobytu do 15 let === === Oblast převažujícího pobytu do 15 let ===
-Věk 15 let je stanoven jako hranice, kdy se formoval základ individuálního jazykového úzu. Tyto oblasti jsou vymezeny na základě tradičního nářečního členění podle Jaromíra Běliče (Nástin české dialektologie, SPN, Praha 1972) a dělení používaného v Českém jazykovém atlasu (Academia, Praha 1992-2005). Území Čech je tedy rozděleno na **oblast středočeskou, severovýchodočeskou, jihozápadočeskou, přechodnou oblast česko-moravskou a české pohraničí**. U každého přepisu je zaznamenán počet mluvčích účastnících se hovoru, rok pořízení nahrávky a neformálnost situace. Poslední označení se zachovává kvůli srovnatelnosti s ostatními korpusy i přesto, že korpus ORAL2006 obsahuje pouze nahrávky neformálních situací. +Věk 15 let je stanoven jako hranice, kdy se formoval základ individuálního jazykového úzu. Tyto oblasti jsou vymezeny na základě tradičního nářečního členění podle Jaromíra Běliče (Nástin české dialektologie, SPN, Praha 1972). Území Čech je tedy rozděleno na **oblast středočeskou, severovýchodočeskou, jihozápadočeskou, přechodnou oblast česko-moravskou a české pohraničí**. U každého přepisu je zaznamenán počet mluvčích účastnících se hovoru, rok pořízení nahrávky a neformálnost situace. Poslední označení se zachovává kvůli srovnatelnosti s ostatními korpusy i přesto, že korpus ORAL2006 obsahuje pouze nahrávky neformálních situací. 
  
 ===== Složení korpusu ORAL2006 ===== ===== Složení korpusu ORAL2006 =====
-FIXME: Grafy ze stránky [[http://www.korpus.cz/struktura_oral06.php]]+ 
 +[{{ :cnk:o06.png?600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození)}}] 
 + 
 +Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{:cnk:o06_win.csv|ke stažení ve formátu .csv}}. 
 + 
 +**Tab 1**. Počet nahrávek podle roků 
 +^ Rok ^ Počet nahrávek ^ 
 +| 2002 | 18 | 
 +| 2003 | 17 | 
 +| 2004 | 36 | 
 +| 2005 | 72 | 
 +| 2006 | 78 | 
 + 
 +**Tab 2**. Počet nahrávek podle počtu mluvčích 
 +^Počet mluvčích ^ Počet nahrávek ^ 
 +| 2| 66| 
 +| 3| 71| 
 +| 4| 45| 
 +| 5| 15| 
 +| 6| 14| 
 +| 7| 5| 
 +| 8| 3| 
 +| 9| 1| 
 +| 10| 1| 
 + 
 +**Tab 3**. Počet mluvčích a pozic podle vzdělání 
 +^Vzdělání ^ Počet mluvčích ^ Počet pozic ^ 
 +|A | 496| 781089| 
 +|B | 258| 531193| 
 +|ZŠ |   48| 89102| 
 +|SŠ |  210| 442091| 
 +|VŠ | 496| 781089| 
 + 
 + 
 +**Tab 4**. Počet mluvčích a pozic podle pohlaví 
 +^Pohlaví ^ Počet mluvčích ^ Počet pozic ^ 
 +|ženy |  452|  910536| 
 +|muži |  302|  401746| 
 + 
 +**Tab 5**. Počet mluvčích a pozic podle věku 
 +^Věk ^ Počet mluvčích ^ Počet pozic ^ 
 +|I |  431|  755474| 
 +|V |  323|  556808| 
 + 
 +**Tab 6**. Počet mluvčích a pozic podle nářečních oblastí 
 +^Nářeční oblast ^ Počet mluvčích ^ Počet pozic ^ 
 +|středočeská | 452|  573802| 
 +|severovýchodočeská |  139|  447500| 
 +|jihozápadočeská |  73|  143239| 
 +|česko-moravská |  3|  12031| 
 +|české pohraničí |  87|  135710| 
 + 
 + 
 +**Počet mluvčích podle věku**: 
 + 
 +{{:cnk:histogram.gif?nolink |}}
  
 ===== Struktura korpusu ORAL2006 ===== ===== Struktura korpusu ORAL2006 =====
Řádek 49: Řádek 104:
 ==== Zachycování a zobrazování metainformací ==== ==== Zachycování a zobrazování metainformací ====
  
-Všechny nahrávky pocházejí z neformálních situací, přesto, jak již bylo řečeno výše, se zachovává označení neformálnosti jako v předchozích korpusech ([[cnk:pmk|PMK]] a [[cnk:bmk|BMK]]) -- je vyjádřeno posledním písmenem v označení sondy, N. První dvojčíslí v názvu sondy označuje rok pořízení nahrávky, další kombinace písmene a čísel je vlastním číslem sondy. Ovšem ID (identifikační číslo) sondy nám toho zas mnoho neřekne, zato po dvojkliku na něj se zobrazí podrobné sociolingvistické informace o mluvčím a další údaje o sondě. Chcete-li mít tyto informace zobrazené automaticky, upravte si [[manual:zobrazeni_dotazu#moznosti_zobrazeni|Možnosti nastavení]].+Všechny nahrávky pocházejí z neformálních situací, přesto, jak již bylo řečeno výše, se zachovává označení neformálnosti jako v předchozích korpusech ([[cnk:pmk|PMK]] a [[cnk:bmk|BMK]]) -- je vyjádřeno posledním písmenem v označení sondy, N. První dvojčíslí v názvu sondy označuje rok pořízení nahrávky, další kombinace písmene a čísel je vlastním číslem sondy. Ovšem ID (identifikační číslo) sondy nám toho zas mnoho neřekne, zato po dvojkliku na něj se zobrazí podrobné sociolingvistické informace o mluvčím a další údaje o sondě. Chcete-li mít tyto informace zobrazené automaticky, upravte si [[kurz:zobrazeni_dotazu#moznosti_zobrazeni|Možnosti nastavení]].
  
  
  
 ===== Jak citovat ORAL2006 ===== ===== Jak citovat ORAL2006 =====
-<WRAP round tip 30%> 
-Kopřivová, M. –- Waclawičová, M.: ORAL2006: korpus neformální mluvené češtiny. Ústav Českého národního korpusu FF UK, Praha 2006. Dostupný z WWW: <http://www.korpus.cz>. 
-</WRAP> 
  
 +<WRAP round tip 70%>
 +Kopřivová, M. – Waclawičová, M.: //ORAL2006: korpus neformální mluvené češtiny//. Ústav Českého národního korpusu FF UK, Praha 2006. Dostupný z WWW: http://www.korpus.cz
 +</WRAP>
  
 ==== Poděkování ==== ==== Poděkování ====
Řádek 68: Řádek 123:
 ===== Související odkazy ===== ===== Související odkazy =====
  
-<WRAP round box 49%> +<WRAP round box 70%> 
-[[seznamy:pravidlaprepis|Pravidla pro přepis nahrávek]][[ORAL2008]][[ORAL2013]][[PMK]][[BMK]][[SCHOLA2010]][[pojmy:mluveny|Korpus mluveného jazyka]]+[[seznamy:index#pravidla_pro_prepis|Pravidla pro přepis nahrávek]] • [[ORAL2008]] • [[ORAL2013]] • [[PMK]] • [[BMK]] • [[SCHOLA2010]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]]
  </WRAP>  </WRAP>