AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
cnk:oral2008 [2015/01/23 09:27] – [Jak citovat ORAL2008] vaclavcvrcekcnk:oral2008 [2018/08/13 15:08] – [Přepis nahrávek a další informace] vaclavcvrcek
Řádek 22: Řádek 22:
 ==== Přepis nahrávek a další informace ==== ==== Přepis nahrávek a další informace ====
  
-Pořizování nahrávek, jejich přepisování a označování probíhalo v souladu s [[seznamy:pravidlaprepis|obecnými zásadami]] uplatňovanými při přípravě všech předchozích mluvených korpusů v rámci Českého národního korpusu, zejména korpusu ORAL2006. +Pořizování nahrávek, jejich přepisování a označování probíhalo v souladu s [[seznamy:pravidla_2008|obecnými zásadami]] uplatňovanými při přípravě všech předchozích mluvených korpusů v rámci Českého národního korpusu, zejména korpusu ORAL2006. 
 Všechny korpusy se shodují v označování základních tří binárních sociolingvistických kategorií mluvčích: Všechny korpusy se shodují v označování základních tří binárních sociolingvistických kategorií mluvčích:
  
Řádek 36: Řádek 36:
  
 === Oblast převažujícího pobytu do 15 let === === Oblast převažujícího pobytu do 15 let ===
-Věk 15 let je stanoven jako hranice, kdy se formoval základ individuálního jazykového úzu. Tyto oblasti jsou vymezeny na základě tradičního nářečního členění podle Jaromíra Běliče (Nástin české dialektologie, SPN, Praha 1972) a dělení používaného v Českém jazykovém atlasu (Academia, Praha 1992-2005). Území Čech je tedy rozděleno na **oblast středočeskou, severovýchodočeskou, jihozápadočeskou, přechodnou oblast česko-moravskou a české pohraničí**. U každého přepisu je zaznamenán počet mluvčích účastnících se hovoru, rok pořízení nahrávky a neformálnost situace. Poslední označení zachováváme kvůli srovnatelnosti s ostatními korpusy i přesto, že korpus ORAL2008 obsahuje pouze nahrávky neformálních situací. Podrobný přehled všech strukturních značek pro korpus ORAL2008 najdete v manuálu korpusového manažeru Bonito v sekci [[http://ucnk.ff.cuni.cz/bonito/korpusy.php#oral08|dostupné korpusy]].+Věk 15 let je stanoven jako hranice, kdy se formoval základ individuálního jazykového úzu. Tyto oblasti jsou vymezeny na základě tradičního nářečního členění podle Jaromíra Běliče (Nástin české dialektologie, SPN, Praha 1972). Území Čech je tedy rozděleno na **oblast středočeskou, severovýchodočeskou, jihozápadočeskou, přechodnou oblast česko-moravskou a české pohraničí**. U každého přepisu je zaznamenán počet mluvčích účastnících se hovoru, rok pořízení nahrávky a neformálnost situace. Poslední označení zachováváme kvůli srovnatelnosti s ostatními korpusy i přesto, že korpus ORAL2008 obsahuje pouze nahrávky neformálních situací (viz podrobný [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|přehled strukturních značek]] pro korpusy řady ORAL).
  
 [{{ :cnk:o08.png?600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).}}] [{{ :cnk:o08.png?600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).}}]
  
 Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{:cnk:o08_win.csv|ke stažení ve formátu .csv}}. Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{:cnk:o08_win.csv|ke stažení ve formátu .csv}}.
- 
 ===== Změny oproti korpusu ORAL2006 – sociolingvistická vyváženost ===== ===== Změny oproti korpusu ORAL2006 – sociolingvistická vyváženost =====
 Korpus ORAL2008 je **plně vyvážený s ohledem na základní čtyři sociolingvistické kategorie mluvčích**. Znamená to, že přepisy nahrávek byly do korpusu ORAL2008 vybrány tak, aby byly všechny hodnoty základních sociolingvistických kategorií mluvčích zastoupeny přibližně stejným počtem slov. Polovinou všech slov v korpusu je tedy zastoupena každá z hodnot binárních kategorií: Korpus ORAL2008 je **plně vyvážený s ohledem na základní čtyři sociolingvistické kategorie mluvčích**. Znamená to, že přepisy nahrávek byly do korpusu ORAL2008 vybrány tak, aby byly všechny hodnoty základních sociolingvistických kategorií mluvčích zastoupeny přibližně stejným počtem slov. Polovinou všech slov v korpusu je tedy zastoupena každá z hodnot binárních kategorií: