AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
cnk:oral2013 [2013/12/17 23:43]
lukasjanicik [Související odkazy]
cnk:oral2013 [2017/12/02 23:34] (aktuální)
Michal Křen [Jak citovat ORAL2013]
Řádek 6: Řádek 6:
 <WRAP right 35%> <WRAP right 35%>
 ^ <fs medium>Název</fs> | <fs medium>[[cnk:oral2013|ORAL2013]]</fs> | ^ <fs medium>Název</fs> | <fs medium>[[cnk:oral2013|ORAL2013]]</fs> |
-^ Počet [[pojmy:token|pozic (tokenů)]] |  3 290 055 |   +^ Počet [[pojmy:token|pozic (tokenů)]] |  3 285 508 |   
-^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |  2 788 632 +^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |  2 785 189 
-^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  65 778 |   +^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  131 246 |   
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  836 +^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  835 
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  395 908 +^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  394 982 
-^ Počet mluvčích |  1 297 |   +^ Počet unikátních (různých) mluvčích |  1 297 |   
-^ Délka nahrávek v min. |  17 495 |  +^ Délka nahrávek [hodiny:minuty] |  291:11 |  
 </WRAP> </WRAP>
   
Řádek 19: Řádek 19:
 ===== Složení korpusu a sběr dat ===== ===== Složení korpusu a sběr dat =====
  
-Korpus ORAL2013 se skládá z **836 nahrávek** z let **2008–2011** a obsahuje **2 788 632 textových slov**, tj. celkem **3 290 055 pozic**; v sondách vystupuje celkem **2 548 mluvčích**, z toho **1 297 unikátních**. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je **17 495 minut**, tj. téměř 300 hodin (viz [[cnk:struktura-oral13|podrobnější údaje]] o složení a vyváženosti korpusu).+Korpus ORAL2013 se skládá z **835 nahrávek** z let **2008–2011** a obsahuje **2 785 189 textových slov**, tj. celkem **3 285 508 pozic**; v sondách vystupuje celkem **2 544 mluvčích**, z toho **1 297 unikátních**. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je **17 471 minut**, tj. téměř 300 hodin (viz [[cnk:struktura-oral13|podrobnější údaje]] o složení a vyváženosti korpusu). 
  
 Pro korpus byl sbírán výhradně materiál představující prototypický spontánní mluvený jazyk, který se používá při bezprostřední interakci mluvčích v neformálních komunikačních situacích. Hlavními kritérii pro získávání nahrávek byly: Pro korpus byl sbírán výhradně materiál představující prototypický spontánní mluvený jazyk, který se používá při bezprostřední interakci mluvčích v neformálních komunikačních situacích. Hlavními kritérii pro získávání nahrávek byly:
Řádek 29: Řádek 29:
  
 Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK. Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK.
 +
 +[{{ :cnk:o13.png?600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).}}]
 +
 +Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{:cnk:o13_win.csv|ke stažení ve formátu .csv}}.
 ===== Řada korpusů ORAL – v čem se ORAL2013 odlišuje? ===== ===== Řada korpusů ORAL – v čem se ORAL2013 odlišuje? =====
  
 ORAL2013 se od korpusů [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] liší v těchto rysech: ORAL2013 se od korpusů [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] liší v těchto rysech:
  
-  * **Propojení přepisu se zvukovou stopou**: Všechny nahrávky byly manuálně přepsány v transkripčním programu Transcriber, v němž byl zároveň přepis propojen se zvukem. Uživatel si tak může ve webových rozhraních [[pojmy:korpusovy_manazer#nosketch_engine|NoSKE]] a [[manual:menu:index|KonText]] (v původním [[pojmy:korpusovy_manazer#bonito|Bonitu]] to není z technických důvodů možné) ke každému zobrazenému výrazu přehrát odpovídající část zvukové stopy (tzv. segment, viz dále), a poslechnout si tak jeho realizaci.+  * **Propojení přepisu se zvukovou stopou**: Všechny nahrávky byly manuálně přepsány v transkripčním programu Transcriber, v němž byl zároveň přepis propojen se zvukem. Uživatel si tak může v rozhraní [[manualy:kontext:index|KonText]] ke každému zobrazenému výrazu přehrát odpovídající část zvukové stopy (tzv. segment, viz dále), a poslechnout si tak jeho realizaci. 
 + 
 +[{{ :cnk:transcriber.png?direct&300|Obr. 1: Ukázka přepisu v Transcriberu.}}]
  
-[[Obr. 1: Ukázka přepisu v Transcriberu.]] FIXME Prosím nedávat odkaz, ale rovnou obrázek a nejlíp vedle textu, nikoliv pod (aby to nerušilo přehlednost). 
  
   * **Použití pauzové interpunkce**: Tradiční syntaktickou interpunkci nahradila interpunkce pauzová, která je pro přepis spontánního mluveného dialogu vhodnější. Rozlišují se celkem tři typy pauz (krátká pauza, delší pauza, odmlčení), které přepisující zaznamenávali podle individuálního tempa každého z mluvčích. Jednotlivé repliky jsou členěny na segmenty představující sémanticky, prozodicky i syntagmaticky ucelenou sekvenci v průměru o 5–10 slovech (maximálně však 15).   * **Použití pauzové interpunkce**: Tradiční syntaktickou interpunkci nahradila interpunkce pauzová, která je pro přepis spontánního mluveného dialogu vhodnější. Rozlišují se celkem tři typy pauz (krátká pauza, delší pauza, odmlčení), které přepisující zaznamenávali podle individuálního tempa každého z mluvčích. Jednotlivé repliky jsou členěny na segmenty představující sémanticky, prozodicky i syntagmaticky ucelenou sekvenci v průměru o 5–10 slovech (maximálně však 15).
Řádek 45: Řádek 50:
 ===== Co má ORAL2013 s korpusy ORAL2006 a ORAL2008 společného? ===== ===== Co má ORAL2013 s korpusy ORAL2006 a ORAL2008 společného? =====
  
-  * **Přepisovací pravidla**: Původní pravidla byla pro ORAL2013 pouze rozšířena o popis toho, jakým způsobem zachycovat vybrané specifické jazykové jevy vyskytující se na území Moravy a Slezska. Kompletní znění přepisovacích pravidel je k dispozici [[zde]]FIXME+  * **Přepisovací pravidla**: Původní pravidla byla pro ORAL2013 pouze rozšířena o popis toho, jakým způsobem zachycovat vybrané specifické jazykové jevy vyskytující se na území Moravy a Slezska. Kompletní znění přepisovacích pravidel je k dispozici {{:cnk:prepisovaci_pravidla_oral2013.pdf|zde}}.
   * **Sociolingvistické charakteristiky mluvčích**: Všechny mluvené korpusy se shodují v označování tří základních binárních sociolingvistických kategorií mluvčích:   * **Sociolingvistické charakteristiky mluvčích**: Všechny mluvené korpusy se shodují v označování tří základních binárních sociolingvistických kategorií mluvčích:
  
Řádek 67: Řádek 72:
   * **[[pojmy:anonymizace|Anonymizaci]] citlivých údajů**: Kvůli ochraně osobních údajů jsou veškerá příjmení a telefonní čísla v přepisech kódována anonymizačními zkratkami; kódování jiných vlastních jmen, jako jsou např. přezdívky, rodná jména, názvy firem, případně jiné citlivé údaje, bylo ponecháno na vůli a přání přepisujících nebo samotných mluvčích. Anonymizovány byly samozřejmě i odpovídající úseky ve zvukových souborech.   * **[[pojmy:anonymizace|Anonymizaci]] citlivých údajů**: Kvůli ochraně osobních údajů jsou veškerá příjmení a telefonní čísla v přepisech kódována anonymizačními zkratkami; kódování jiných vlastních jmen, jako jsou např. přezdívky, rodná jména, názvy firem, případně jiné citlivé údaje, bylo ponecháno na vůli a přání přepisujících nebo samotných mluvčích. Anonymizovány byly samozřejmě i odpovídající úseky ve zvukových souborech.
  
 +===== Jak citovat ORAL2013 =====
 +
 +<WRAP round tip 70%>
 +Benešová, L. – Křen, M. – Waclawičová, M.: //ORAL2013: reprezentativní korpus neformální mluvené češtiny//. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz
 +
 +Benešová, L. – Křen, M. – Waclawičová, M. (2015): [[http://casopispromodernifilologii.ff.cuni.cz/wp-content/uploads/sites/9/2015/07/Lucie-Beneseva_-Michal-Kren_42-50.pdf|Korpus spontánní mluvené češtiny ORAL2013]]. In //Časopis pro moderní filologii//, 97(1), 42–50. ISSN 0008-7386.
 +
 +Válková, L. – Waclawičová, M. – Křen, M. (2012): [[http://www.lrec-conf.org/proceedings/lrec2012/pdf/179_Paper.pdf|Balanced data repository of spontaneous spoken Czech]]. In //Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)//, 3345–3349. Istanbul: ELRA. ISBN 978-2-9517408-7-7. 
 +
 +</WRAP>
 ===== Poděkování ===== ===== Poděkování =====
  
Řádek 75: Řádek 90:
 ===== Související odkazy ===== ===== Související odkazy =====
  
-<WRAP round box 49%> +<WRAP round box 72%> 
-[[seznamy:pravidlaprepis|Pravidla pro přepis nahrávek]], [[ORAL2006]][[ORAL2008]][[PMK]][[BMK]][[SCHOLA2010]][[pojmy:mluveny|Korpus mluveného jazyka]]+[[ORAL2006]] • [[ORAL2008]] • [[PMK]] • [[BMK]] • [[SCHOLA2010]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]] • [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]]
  </WRAP>  </WRAP>