Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
cnk:oral2013 [2013/12/17 00:53]
Jan Kocek
cnk:oral2013 [2017/12/02 23:34]
Michal Křen [Jak citovat ORAL2013]
Řádek 6: Řádek 6:
 <WRAP right 35%> <WRAP right 35%>
 ^ <fs medium>​Název</​fs>​ | <fs medium>​[[cnk:​oral2013|ORAL2013]]</​fs>​ | ^ <fs medium>​Název</​fs>​ | <fs medium>​[[cnk:​oral2013|ORAL2013]]</​fs>​ |
-^ Počet [[pojmy:​token|pozic (tokenů)]] |  ​3 290 055 ​|   +^ Počet [[pojmy:​token|pozic (tokenů)]] |  ​3 285 508 |   
-^ Počet [[pojmy:​token|pozic (tokenů)]] bez interpunkce a dalších značek |  ​2 788 632 ​+^ Počet [[pojmy:​token|pozic (tokenů)]] bez interpunkce a dalších značek |  ​2 785 189 
-^ Počet [[pojmy:​word| slovních tvarů (wordů)]] |  ​65 778 |   +^ Počet [[pojmy:​word| slovních tvarů (wordů)]] |  ​131 246 |   
-^ Počet [[pojmy:​atributy_strukturni#​struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  ​836 +^ Počet [[pojmy:​atributy_strukturni#​struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  ​835 
-^ Počet [[pojmy:​atributy_strukturni#​struktura_korpusu_mluvene_cestiny|promluv]] |  ​395 908 +^ Počet [[pojmy:​atributy_strukturni#​struktura_korpusu_mluvene_cestiny|promluv]] |  ​394 982 
-^ Počet mluvčích |  1 297 |   +^ Počet ​unikátních (různých) ​mluvčích |  1 297 |   
-^ Délka nahrávek ​v min. |  ​17 495 ​|  ​+^ Délka nahrávek ​[hodiny:​minuty] ​|  ​291:​11 ​|  ​
 </​WRAP>​ </​WRAP>​
   
Řádek 19: Řádek 19:
 ===== Složení korpusu a sběr dat ===== ===== Složení korpusu a sběr dat =====
  
-Korpus ORAL2013 se skládá z **836 nahrávek** z let **2008–2011** a obsahuje **2 788 632 ​textových slov**, tj. celkem **3 290 055 ​pozic**; v sondách vystupuje celkem **2 548 ​mluvčích**,​ z toho **1 297 unikátních**. Nahrávky byly pořizovány v Čechách,​ na Moravě i ve Slezsku, jejich celková délka je **17 495 ​minut**, tj. téměř 300 hodin (viz [[cnk:​struktura-oral13|podrobnější údaje]] o složení a vyváženosti korpusu).+Korpus ORAL2013 se skládá z **835 nahrávek** z let **2008–2011** a obsahuje **2 785 189 textových slov**, tj. celkem **3 285 508 pozic**; v sondách vystupuje celkem **2 544 ​mluvčích**,​ z toho **1 297 unikátních**. Nahrávky byly pořizovány v Čechách,​ na Moravě i ve Slezsku, jejich celková délka je **17 471 ​minut**, tj. téměř 300 hodin (viz [[cnk:​struktura-oral13|podrobnější údaje]] o složení a vyváženosti korpusu). ​
  
 Pro korpus byl sbírán výhradně materiál představující prototypický spontánní mluvený jazyk, který se používá při bezprostřední interakci mluvčích v neformálních komunikačních situacích. Hlavními kritérii pro získávání nahrávek byly: Pro korpus byl sbírán výhradně materiál představující prototypický spontánní mluvený jazyk, který se používá při bezprostřední interakci mluvčích v neformálních komunikačních situacích. Hlavními kritérii pro získávání nahrávek byly:
Řádek 29: Řádek 29:
  
 Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK. Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK.
 +
 +[{{ :​cnk:​o13.png?​600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).}}]
 +
 +Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{:​cnk:​o13_win.csv|ke stažení ve formátu .csv}}.
 ===== Řada korpusů ORAL – v čem se ORAL2013 odlišuje? ===== ===== Řada korpusů ORAL – v čem se ORAL2013 odlišuje? =====
  
 ORAL2013 se od korpusů [[cnk:​oral2006|ORAL2006]] a [[cnk:​oral2008|ORAL2008]] liší v těchto rysech: ORAL2013 se od korpusů [[cnk:​oral2006|ORAL2006]] a [[cnk:​oral2008|ORAL2008]] liší v těchto rysech:
  
-  * **Propojení přepisu se zvukovou stopou**: Všechny nahrávky byly manuálně přepsány v transkripčním programu Transcriber,​ v němž byl zároveň přepis propojen se zvukem. Uživatel si tak může ​ve webových rozhraních ​[[pojmy:korpusovy_manazer#​nosketch_engine|NoSKE]] a [[manual:​menu:​index|KonText]] ​(v původním [[pojmy:​korpusovy_manazer#​bonito|Bonitu]] to není z technických důvodů možné) ​ke každému zobrazenému výrazu přehrát odpovídající část zvukové stopy (tzv. segment, viz dále), a poslechnout si tak jeho realizaci.+  * **Propojení přepisu se zvukovou stopou**: Všechny nahrávky byly manuálně přepsány v transkripčním programu Transcriber,​ v němž byl zároveň přepis propojen se zvukem. Uživatel si tak může ​v rozhraní ​[[manualy:kontext:​index|KonText]] ke každému zobrazenému výrazu přehrát odpovídající část zvukové stopy (tzv. segment, viz dále), a poslechnout si tak jeho realizaci. 
 + 
 +[{{ :​cnk:​transcriber.png?​direct&​300|Obr. 1: Ukázka přepisu v Transcriberu.}}]
  
-[[Obr. 1: Ukázka přepisu v Transcriberu.]] FIXME Prosím nedávat odkaz, ale rovnou obrázek a nejlíp vedle textu, nikoliv pod (aby to nerušilo přehlednost). 
  
   * **Použití pauzové interpunkce**:​ Tradiční syntaktickou interpunkci nahradila interpunkce pauzová, která je pro přepis spontánního mluveného dialogu vhodnější. Rozlišují se celkem tři typy pauz (krátká pauza, delší pauza, odmlčení),​ které přepisující zaznamenávali podle individuálního tempa každého z mluvčích. Jednotlivé repliky jsou členěny na segmenty představující sémanticky,​ prozodicky i syntagmaticky ucelenou sekvenci v průměru o 5–10 slovech (maximálně však 15).   * **Použití pauzové interpunkce**:​ Tradiční syntaktickou interpunkci nahradila interpunkce pauzová, která je pro přepis spontánního mluveného dialogu vhodnější. Rozlišují se celkem tři typy pauz (krátká pauza, delší pauza, odmlčení),​ které přepisující zaznamenávali podle individuálního tempa každého z mluvčích. Jednotlivé repliky jsou členěny na segmenty představující sémanticky,​ prozodicky i syntagmaticky ucelenou sekvenci v průměru o 5–10 slovech (maximálně však 15).
Řádek 45: Řádek 50:
 ===== Co má ORAL2013 s korpusy ORAL2006 a ORAL2008 společného?​ ===== ===== Co má ORAL2013 s korpusy ORAL2006 a ORAL2008 společného?​ =====
  
-  * **Přepisovací pravidla**: Původní pravidla byla pro ORAL2013 pouze rozšířena o popis toho, jakým způsobem zachycovat vybrané specifické jazykové jevy vyskytující se na území Moravy a Slezska. Kompletní znění přepisovacích pravidel je k dispozici ​[[zde]]FIXME+  * **Přepisovací pravidla**: Původní pravidla byla pro ORAL2013 pouze rozšířena o popis toho, jakým způsobem zachycovat vybrané specifické jazykové jevy vyskytující se na území Moravy a Slezska. Kompletní znění přepisovacích pravidel je k dispozici ​{{:​cnk:​prepisovaci_pravidla_oral2013.pdf|zde}}.
   * **Sociolingvistické charakteristiky mluvčích**:​ Všechny mluvené korpusy se shodují v označování tří základních binárních sociolingvistických kategorií mluvčích:   * **Sociolingvistické charakteristiky mluvčích**:​ Všechny mluvené korpusy se shodují v označování tří základních binárních sociolingvistických kategorií mluvčích:
  
Řádek 67: Řádek 72:
   * **[[pojmy:​anonymizace|Anonymizaci]] citlivých údajů**: Kvůli ochraně osobních údajů jsou veškerá příjmení a telefonní čísla v přepisech kódována anonymizačními zkratkami; kódování jiných vlastních jmen, jako jsou např. přezdívky,​ rodná jména, názvy firem, případně jiné citlivé údaje, bylo ponecháno na vůli a přání přepisujících nebo samotných mluvčích. Anonymizovány byly samozřejmě i odpovídající úseky ve zvukových souborech.   * **[[pojmy:​anonymizace|Anonymizaci]] citlivých údajů**: Kvůli ochraně osobních údajů jsou veškerá příjmení a telefonní čísla v přepisech kódována anonymizačními zkratkami; kódování jiných vlastních jmen, jako jsou např. přezdívky,​ rodná jména, názvy firem, případně jiné citlivé údaje, bylo ponecháno na vůli a přání přepisujících nebo samotných mluvčích. Anonymizovány byly samozřejmě i odpovídající úseky ve zvukových souborech.
  
 +===== Jak citovat ORAL2013 =====
 +
 +<WRAP round tip 70%>
 +Benešová, L. – Křen, M. – Waclawičová,​ M.: //ORAL2013: reprezentativní korpus neformální mluvené češtiny//​. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://​www.korpus.cz
 +
 +Benešová, L. – Křen, M. – Waclawičová,​ M. (2015): [[http://​casopispromodernifilologii.ff.cuni.cz/​wp-content/​uploads/​sites/​9/​2015/​07/​Lucie-Beneseva_-Michal-Kren_42-50.pdf|Korpus spontánní mluvené češtiny ORAL2013]]. In //Časopis pro moderní filologii//,​ 97(1), 42–50. ISSN 0008-7386.
 +
 +Válková, L. – Waclawičová,​ M. – Křen, M. (2012): [[http://​www.lrec-conf.org/​proceedings/​lrec2012/​pdf/​179_Paper.pdf|Balanced data repository of spontaneous spoken Czech]]. In //​Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'​12)//,​ 3345–3349. Istanbul: ELRA. ISBN 978-2-9517408-7-7. ​
 +
 +</​WRAP>​
 ===== Poděkování ===== ===== Poděkování =====
  
Řádek 75: Řádek 90:
 ===== Související odkazy ===== ===== Související odkazy =====
  
-<WRAP round box 49%> +<WRAP round box 72%> 
-[[seznamy:​pravidlaprepis|Pravidla pro přepis nahrávek]][[ORAL2008]][[ORAL2006]][[PMK]][[BMK]][[pojmy:​mluveny|Korpus mluveného jazyka]]+[[ORAL2006]] • [[ORAL2008]] ​• [[PMK]] • [[BMK]] • [[SCHOLA2010]] • [[cnk:​dialekt|Dialekt]] • [[pojmy:​mluveny|Korpus mluveného jazyka]] • [[pojmy:​atributy_strukturni#​strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:​hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]]
  </​WRAP>​  </​WRAP>​