AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:oral2008 [2015/04/08 11:08] – [Přepis nahrávek a další informace] Václav Cvrčekcnk:oral2008 [2022/08/29 17:25] (aktuální) – BatchEdit: pojmy>seznamy promluvy Václav Cvrček (admin)
Řádek 9: Řádek 9:
 ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |  1 000 097 | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |  1 000 097 |
 ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  65 778 |   ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  65 778 |  
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  297 | +^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] |  297 | 
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  106 941 |+^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] |  106 941 |
 ^ Počet mluvčích |  995 |   ^ Počet mluvčích |  995 |  
 ^ Délka nahrávek v min. |  6883 |   ^ Délka nahrávek v min. |  6883 |  
Řádek 18: Řádek 18:
 Korpus je sestaven z přepisů 297 nahrávek, které byly v letech 2002-2007 pořízeny na různých místech po celém území Čech (tj. ne Moravy a Slezska). Tyto nahrávky zachycují autentickou mluvenou češtinu v přirozeném prostředí na území tradičně vymezovaném jako oblast českých nářečí v užším slova smyslu. Data umožňují zkoumat především obecnou češtinu a její regionální varianty, všem nahrávkám je totiž společné to, že byly pořízeny výhradně v neformálních situacích, mluvčí se vzájemně znali a měli k sobě přátelský vztah. Mluvčí dále nebyli předem informováni o nahrávání, všichni však následně souhlasili s použitím nahrávky pro potřeby Českého národního korpusu. Nahrávky pro ORAL2008 jsou dlouhé 6 883 minut, tj. necelých 115 hodin, a obsahují projevy 995 mluvčích o celkové délce 1 000 097 slov. Korpus je sestaven z přepisů 297 nahrávek, které byly v letech 2002-2007 pořízeny na různých místech po celém území Čech (tj. ne Moravy a Slezska). Tyto nahrávky zachycují autentickou mluvenou češtinu v přirozeném prostředí na území tradičně vymezovaném jako oblast českých nářečí v užším slova smyslu. Data umožňují zkoumat především obecnou češtinu a její regionální varianty, všem nahrávkám je totiž společné to, že byly pořízeny výhradně v neformálních situacích, mluvčí se vzájemně znali a měli k sobě přátelský vztah. Mluvčí dále nebyli předem informováni o nahrávání, všichni však následně souhlasili s použitím nahrávky pro potřeby Českého národního korpusu. Nahrávky pro ORAL2008 jsou dlouhé 6 883 minut, tj. necelých 115 hodin, a obsahují projevy 995 mluvčích o celkové délce 1 000 097 slov.
  
-[[Vložit grafy]] https://www.korpus.cz/struktura_oral08.php+ 
 +**Tab 1**Počet nahrávek podle roků 
 +^ Rok ^ Počet nahrávek ^ 
 +|2002 | 9| 
 +|2003 | 7| 
 +|2004 | 11| 
 +|2005 | 49| 
 +|2006 | 79| 
 +|2007 |  142| 
 + 
 +**Tab 2**. Počet nahrávek podle počtu mluvčích 
 + 
 +^ Počet mluvčích ^ Počet nahrávek ^ 
 +|2| 109| 
 +|3| 76| 
 +|4| 54| 
 +|5| 33| 
 +|6| 15| 
 +|7| 5| 
 +|8| 3| 
 +|9| 1| 
 +|10| 1| 
 + 
 +**Tab 3**. Počet mluvčích a pozic podle vzdělání 
 +^Vzdělání ^ Počet mluvčích ^ Počet pozic ^ 
 +|A|  559|  500672| 
 +|B|  436|  499425| 
 +|ZŠ|  130|  163988| 
 +|SŠ|  306|  335437| 
 +|VŠ|  559|  500672| 
 + 
 +**Tab 4**. Počet mluvčích a pozic podle pohlaví 
 +^Pohlaví ^ Počet mluvčích ^ Počet pozic ^ 
 +|ženy |  522|  500478| 
 +|muži |  473|  499619| 
 + 
 +**Tab 5**Počet mluvčích a pozic podle věku 
 +^Věk ^ Počet mluvčích ^ Počet pozic ^ 
 +|I |  576|  500199| 
 +|V |  419|  499898| 
 + 
 +**Tab 6**Počet mluvčích a pozic podle nářečních oblastí 
 +^Nářeční oblast ^ Počet mluvčích ^ Počet pozic ^ 
 +|středočeská|  312|  247630| 
 +|severovýchodočeská|  167|  242199| 
 +|jihozápadočeská|  281|  237417| 
 +|české pohraničí|  206|  239511| 
 +|česko-moravská|  29| 33340| 
  
 ==== Přepis nahrávek a další informace ==== ==== Přepis nahrávek a další informace ====
  
-Pořizování nahrávek, jejich přepisování a označování probíhalo v souladu s [[seznamy:pravidlaprepis|obecnými zásadami]] uplatňovanými při přípravě všech předchozích mluvených korpusů v rámci Českého národního korpusu, zejména korpusu ORAL2006. +Pořizování nahrávek, jejich přepisování a označování probíhalo v souladu s [[seznamy:pravidla_2008|obecnými zásadami]] uplatňovanými při přípravě všech předchozích mluvených korpusů v rámci Českého národního korpusu, zejména korpusu ORAL2006. 
 Všechny korpusy se shodují v označování základních tří binárních sociolingvistických kategorií mluvčích: Všechny korpusy se shodují v označování základních tří binárních sociolingvistických kategorií mluvčích:
  
Řádek 36: Řádek 84:
  
 === Oblast převažujícího pobytu do 15 let === === Oblast převažujícího pobytu do 15 let ===
-Věk 15 let je stanoven jako hranice, kdy se formoval základ individuálního jazykového úzu. Tyto oblasti jsou vymezeny na základě tradičního nářečního členění podle Jaromíra Běliče (Nástin české dialektologie, SPN, Praha 1972) a dělení používaného v Českém jazykovém atlasu (Academia, Praha 1992-2005). Území Čech je tedy rozděleno na **oblast středočeskou, severovýchodočeskou, jihozápadočeskou, přechodnou oblast česko-moravskou a české pohraničí**. U každého přepisu je zaznamenán počet mluvčích účastnících se hovoru, rok pořízení nahrávky a neformálnost situace. Poslední označení zachováváme kvůli srovnatelnosti s ostatními korpusy i přesto, že korpus ORAL2008 obsahuje pouze nahrávky neformálních situací (viz podrobný [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|přehled strukturních značek]] pro korpusy řady ORAL).+Věk 15 let je stanoven jako hranice, kdy se formoval základ individuálního jazykového úzu. Tyto oblasti jsou vymezeny na základě tradičního nářečního členění podle Jaromíra Běliče (Nástin české dialektologie, SPN, Praha 1972). Území Čech je tedy rozděleno na **oblast středočeskou, severovýchodočeskou, jihozápadočeskou, přechodnou oblast česko-moravskou a české pohraničí**. U každého přepisu je zaznamenán počet mluvčích účastnících se hovoru, rok pořízení nahrávky a neformálnost situace. Poslední označení zachováváme kvůli srovnatelnosti s ostatními korpusy i přesto, že korpus ORAL2008 obsahuje pouze nahrávky neformálních situací (viz podrobný [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|přehled strukturních značek]] pro korpusy řady ORAL).
  
 [{{ :cnk:o08.png?600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).}}] [{{ :cnk:o08.png?600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).}}]
Řádek 79: Řádek 127:
  
 <WRAP round box 49%> <WRAP round box 49%>
-[[seznamy:pravidlaprepis|Pravidla pro přepis nahrávek]], [[ORAL2006]], [[ORAL2013]], [[PMK]], [[BMK]], [[pojmy:mluveny|Korpus mluveného jazyka]]+[[seznamy:index#pravidla_pro_prepis|Pravidla pro přepis nahrávek]], [[ORAL2006]], [[ORAL2013]], [[PMK]], [[BMK]], [[pojmy:mluveny|Korpus mluveného jazyka]]
  </WRAP>  </WRAP>