Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
cnk:oral2013 [2013/12/28 20:27]
lukasjanicik
cnk:oral2013 [2017/12/02 23:34] (aktuální)
Michal Křen [Jak citovat ORAL2013]
Řádek 6: Řádek 6:
 <WRAP right 35%> <WRAP right 35%>
 ^ <fs medium>​Název</​fs>​ | <fs medium>​[[cnk:​oral2013|ORAL2013]]</​fs>​ | ^ <fs medium>​Název</​fs>​ | <fs medium>​[[cnk:​oral2013|ORAL2013]]</​fs>​ |
-^ Počet [[pojmy:​token|pozic (tokenů)]] |  ​3 290 055 ​|   +^ Počet [[pojmy:​token|pozic (tokenů)]] |  ​3 285 508 |   
-^ Počet [[pojmy:​token|pozic (tokenů)]] bez interpunkce a dalších značek |  ​2 788 632 ​+^ Počet [[pojmy:​token|pozic (tokenů)]] bez interpunkce a dalších značek |  ​2 785 189 
-^ Počet [[pojmy:​word| slovních tvarů (wordů)]] |  ​65 778 |   +^ Počet [[pojmy:​word| slovních tvarů (wordů)]] |  ​131 246 |   
-^ Počet [[pojmy:​atributy_strukturni#​struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  ​836 +^ Počet [[pojmy:​atributy_strukturni#​struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  ​835 
-^ Počet [[pojmy:​atributy_strukturni#​struktura_korpusu_mluvene_cestiny|promluv]] |  ​395 908 +^ Počet [[pojmy:​atributy_strukturni#​struktura_korpusu_mluvene_cestiny|promluv]] |  ​394 982 
-^ Počet mluvčích |  1 297 |   +^ Počet ​unikátních (různých) ​mluvčích |  1 297 |   
-^ Délka nahrávek [hodiny:​minuty] |  291:35 |  ​+^ Délka nahrávek [hodiny:​minuty] |  291:11 |  ​
 </​WRAP>​ </​WRAP>​
   
Řádek 19: Řádek 19:
 ===== Složení korpusu a sběr dat ===== ===== Složení korpusu a sběr dat =====
  
-Korpus ORAL2013 se skládá z **836 nahrávek** z let **2008–2011** a obsahuje **2 788 632 ​textových slov**, tj. celkem **3 290 055 ​pozic**; v sondách vystupuje celkem **2 548 ​mluvčích**,​ z toho **1 297 unikátních**. Nahrávky byly pořizovány v Čechách,​ na Moravě i ve Slezsku, jejich celková délka je **17 495 ​minut**, tj. téměř 300 hodin (viz [[cnk:​struktura-oral13|podrobnější údaje]] o složení a vyváženosti korpusu).+Korpus ORAL2013 se skládá z **835 nahrávek** z let **2008–2011** a obsahuje **2 785 189 textových slov**, tj. celkem **3 285 508 pozic**; v sondách vystupuje celkem **2 544 ​mluvčích**,​ z toho **1 297 unikátních**. Nahrávky byly pořizovány v Čechách,​ na Moravě i ve Slezsku, jejich celková délka je **17 471 ​minut**, tj. téměř 300 hodin (viz [[cnk:​struktura-oral13|podrobnější údaje]] o složení a vyváženosti korpusu). ​
  
 Pro korpus byl sbírán výhradně materiál představující prototypický spontánní mluvený jazyk, který se používá při bezprostřední interakci mluvčích v neformálních komunikačních situacích. Hlavními kritérii pro získávání nahrávek byly: Pro korpus byl sbírán výhradně materiál představující prototypický spontánní mluvený jazyk, který se používá při bezprostřední interakci mluvčích v neformálních komunikačních situacích. Hlavními kritérii pro získávání nahrávek byly:
Řádek 29: Řádek 29:
  
 Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK. Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK.
 +
 +[{{ :​cnk:​o13.png?​600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).}}]
 +
 +Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{:​cnk:​o13_win.csv|ke stažení ve formátu .csv}}.
 ===== Řada korpusů ORAL – v čem se ORAL2013 odlišuje? ===== ===== Řada korpusů ORAL – v čem se ORAL2013 odlišuje? =====
  
 ORAL2013 se od korpusů [[cnk:​oral2006|ORAL2006]] a [[cnk:​oral2008|ORAL2008]] liší v těchto rysech: ORAL2013 se od korpusů [[cnk:​oral2006|ORAL2006]] a [[cnk:​oral2008|ORAL2008]] liší v těchto rysech:
  
-  * **Propojení přepisu se zvukovou stopou**: Všechny nahrávky byly manuálně přepsány v transkripčním programu Transcriber,​ v němž byl zároveň přepis propojen se zvukem. Uživatel si tak může ​ve webových rozhraních ​[[pojmy:korpusovy_manazer#​nosketch_engine|NoSKE]] a [[manual:​menu:​index|KonText]] ​(v původním [[pojmy:​korpusovy_manazer#​bonito|Bonitu]] to není z technických důvodů možné) ​ke každému zobrazenému výrazu přehrát odpovídající část zvukové stopy (tzv. segment, viz dále), a poslechnout si tak jeho realizaci.+  * **Propojení přepisu se zvukovou stopou**: Všechny nahrávky byly manuálně přepsány v transkripčním programu Transcriber,​ v němž byl zároveň přepis propojen se zvukem. Uživatel si tak může ​v rozhraní ​[[manualy:kontext:​index|KonText]] ke každému zobrazenému výrazu přehrát odpovídající část zvukové stopy (tzv. segment, viz dále), a poslechnout si tak jeho realizaci.
  
 [{{ :​cnk:​transcriber.png?​direct&​300|Obr. 1: Ukázka přepisu v Transcriberu.}}] [{{ :​cnk:​transcriber.png?​direct&​300|Obr. 1: Ukázka přepisu v Transcriberu.}}]
Řádek 69: Řádek 73:
  
 ===== Jak citovat ORAL2013 ===== ===== Jak citovat ORAL2013 =====
-<WRAP round tip 30%> 
-Benešová, L. – Křen, M. – Waclawičová,​ M.: ORAL2013: reprezentativní korpus neformální mluvené češtiny. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://​www.korpus.cz 
-</​WRAP>​ 
  
 +<WRAP round tip 70%>
 +Benešová, L. – Křen, M. – Waclawičová,​ M.: //ORAL2013: reprezentativní korpus neformální mluvené češtiny//​. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://​www.korpus.cz
 +
 +Benešová, L. – Křen, M. – Waclawičová,​ M. (2015): [[http://​casopispromodernifilologii.ff.cuni.cz/​wp-content/​uploads/​sites/​9/​2015/​07/​Lucie-Beneseva_-Michal-Kren_42-50.pdf|Korpus spontánní mluvené češtiny ORAL2013]]. In //Časopis pro moderní filologii//,​ 97(1), 42–50. ISSN 0008-7386.
 +
 +Válková, L. – Waclawičová,​ M. – Křen, M. (2012): [[http://​www.lrec-conf.org/​proceedings/​lrec2012/​pdf/​179_Paper.pdf|Balanced data repository of spontaneous spoken Czech]]. In //​Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'​12)//,​ 3345–3349. Istanbul: ELRA. ISBN 978-2-9517408-7-7. ​
 +
 +</​WRAP>​
 ===== Poděkování ===== ===== Poděkování =====
  
Řádek 81: Řádek 90:
 ===== Související odkazy ===== ===== Související odkazy =====
  
-<WRAP round box 49%> +<WRAP round box 72%> 
-[[seznamy:​pravidlaprepis|Pravidla pro přepis nahrávek]], ​[[ORAL2006]][[ORAL2008]][[PMK]][[BMK]][[SCHOLA2010]][[pojmy:​mluveny|Korpus mluveného jazyka]]+[[ORAL2006]] ​• [[ORAL2008]] ​• [[PMK]] ​• [[BMK]] ​• [[SCHOLA2010]] ​• [[cnk:​dialekt|Dialekt]] • [[pojmy:​mluveny|Korpus mluveného jazyka]] • [[pojmy:​atributy_strukturni#​strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:​hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]]
  </​WRAP>​  </​WRAP>​