AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
cnk:oral2013 [2013/12/18 12:52] Jan Kocekcnk:oral2013 [2017/12/02 23:34] – [Jak citovat ORAL2013] Michal Křen
Řádek 6: Řádek 6:
 <WRAP right 35%> <WRAP right 35%>
 ^ <fs medium>Název</fs> | <fs medium>[[cnk:oral2013|ORAL2013]]</fs> | ^ <fs medium>Název</fs> | <fs medium>[[cnk:oral2013|ORAL2013]]</fs> |
-^ Počet [[pojmy:token|pozic (tokenů)]] |  3 290 055 |   +^ Počet [[pojmy:token|pozic (tokenů)]] |  3 285 508 |   
-^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |  2 788 632 +^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |  2 785 189 
-^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  65 778 |   +^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  131 246 |   
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  836 +^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  835 
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  395 908 +^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  394 982 
-^ Počet mluvčích |  1 297 |   +^ Počet unikátních (různých) mluvčích |  1 297 |   
-^ Délka nahrávek v min. |  17 495 |  +^ Délka nahrávek [hodiny:minuty] |  291:11 |  
 </WRAP> </WRAP>
   
Řádek 19: Řádek 19:
 ===== Složení korpusu a sběr dat ===== ===== Složení korpusu a sběr dat =====
  
-Korpus ORAL2013 se skládá z **836 nahrávek** z let **2008–2011** a obsahuje **2 788 632 textových slov**, tj. celkem **3 290 055 pozic**; v sondách vystupuje celkem **2 548 mluvčích**, z toho **1 297 unikátních**. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je **17 495 minut**, tj. téměř 300 hodin (viz [[cnk:struktura-oral13|podrobnější údaje]] o složení a vyváženosti korpusu).+Korpus ORAL2013 se skládá z **835 nahrávek** z let **2008–2011** a obsahuje **2 785 189 textových slov**, tj. celkem **3 285 508 pozic**; v sondách vystupuje celkem **2 544 mluvčích**, z toho **1 297 unikátních**. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je **17 471 minut**, tj. téměř 300 hodin (viz [[cnk:struktura-oral13|podrobnější údaje]] o složení a vyváženosti korpusu). 
  
 Pro korpus byl sbírán výhradně materiál představující prototypický spontánní mluvený jazyk, který se používá při bezprostřední interakci mluvčích v neformálních komunikačních situacích. Hlavními kritérii pro získávání nahrávek byly: Pro korpus byl sbírán výhradně materiál představující prototypický spontánní mluvený jazyk, který se používá při bezprostřední interakci mluvčích v neformálních komunikačních situacích. Hlavními kritérii pro získávání nahrávek byly:
Řádek 29: Řádek 29:
  
 Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK. Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK.
 +
 +[{{ :cnk:o13.png?600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).}}]
 +
 +Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{:cnk:o13_win.csv|ke stažení ve formátu .csv}}.
 ===== Řada korpusů ORAL – v čem se ORAL2013 odlišuje? ===== ===== Řada korpusů ORAL – v čem se ORAL2013 odlišuje? =====
  
 ORAL2013 se od korpusů [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] liší v těchto rysech: ORAL2013 se od korpusů [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] liší v těchto rysech:
  
-  * **Propojení přepisu se zvukovou stopou**: Všechny nahrávky byly manuálně přepsány v transkripčním programu Transcriber, v němž byl zároveň přepis propojen se zvukem. Uživatel si tak může ve webových rozhraních [[pojmy:korpusovy_manazer#nosketch_engine|NoSKE]] a [[manual:menu:index|KonText]] (v původním [[pojmy:korpusovy_manazer#bonito|Bonitu]] to není z technických důvodů možné) ke každému zobrazenému výrazu přehrát odpovídající část zvukové stopy (tzv. segment, viz dále), a poslechnout si tak jeho realizaci.+  * **Propojení přepisu se zvukovou stopou**: Všechny nahrávky byly manuálně přepsány v transkripčním programu Transcriber, v němž byl zároveň přepis propojen se zvukem. Uživatel si tak může v rozhraní [[manualy:kontext:index|KonText]] ke každému zobrazenému výrazu přehrát odpovídající část zvukové stopy (tzv. segment, viz dále), a poslechnout si tak jeho realizaci.
  
-[{{ :cnk:transcriber.png?direct&200|Obr. 1: Ukázka přepisu v Transcriberu.}}]+[{{ :cnk:transcriber.png?direct&300|Obr. 1: Ukázka přepisu v Transcriberu.}}]
  
  
Řádek 68: Řádek 72:
   * **[[pojmy:anonymizace|Anonymizaci]] citlivých údajů**: Kvůli ochraně osobních údajů jsou veškerá příjmení a telefonní čísla v přepisech kódována anonymizačními zkratkami; kódování jiných vlastních jmen, jako jsou např. přezdívky, rodná jména, názvy firem, případně jiné citlivé údaje, bylo ponecháno na vůli a přání přepisujících nebo samotných mluvčích. Anonymizovány byly samozřejmě i odpovídající úseky ve zvukových souborech.   * **[[pojmy:anonymizace|Anonymizaci]] citlivých údajů**: Kvůli ochraně osobních údajů jsou veškerá příjmení a telefonní čísla v přepisech kódována anonymizačními zkratkami; kódování jiných vlastních jmen, jako jsou např. přezdívky, rodná jména, názvy firem, případně jiné citlivé údaje, bylo ponecháno na vůli a přání přepisujících nebo samotných mluvčích. Anonymizovány byly samozřejmě i odpovídající úseky ve zvukových souborech.
  
 +===== Jak citovat ORAL2013 =====
 +
 +<WRAP round tip 70%>
 +Benešová, L. – Křen, M. – Waclawičová, M.: //ORAL2013: reprezentativní korpus neformální mluvené češtiny//. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz
 +
 +Benešová, L. – Křen, M. – Waclawičová, M. (2015): [[http://casopispromodernifilologii.ff.cuni.cz/wp-content/uploads/sites/9/2015/07/Lucie-Beneseva_-Michal-Kren_42-50.pdf|Korpus spontánní mluvené češtiny ORAL2013]]. In //Časopis pro moderní filologii//, 97(1), 42–50. ISSN 0008-7386.
 +
 +Válková, L. – Waclawičová, M. – Křen, M. (2012): [[http://www.lrec-conf.org/proceedings/lrec2012/pdf/179_Paper.pdf|Balanced data repository of spontaneous spoken Czech]]. In //Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)//, 3345–3349. Istanbul: ELRA. ISBN 978-2-9517408-7-7. 
 +
 +</WRAP>
 ===== Poděkování ===== ===== Poděkování =====
  
Řádek 76: Řádek 90:
 ===== Související odkazy ===== ===== Související odkazy =====
  
-<WRAP round box 49%> +<WRAP round box 72%> 
-[[seznamy:pravidlaprepis|Pravidla pro přepis nahrávek]], [[ORAL2006]][[ORAL2008]][[PMK]][[BMK]][[SCHOLA2010]][[pojmy:mluveny|Korpus mluveného jazyka]]+[[ORAL2006]] • [[ORAL2008]] • [[PMK]] • [[BMK]] • [[SCHOLA2010]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]] • [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]]
  </WRAP>  </WRAP>