AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
cnk:oral2013 [2013/12/28 20:27] lukasjanicikcnk:oral2013 [2015/01/16 14:15] – [Složení korpusu a sběr dat] davidlukes
Řádek 6: Řádek 6:
 <WRAP right 35%> <WRAP right 35%>
 ^ <fs medium>Název</fs> | <fs medium>[[cnk:oral2013|ORAL2013]]</fs> | ^ <fs medium>Název</fs> | <fs medium>[[cnk:oral2013|ORAL2013]]</fs> |
-^ Počet [[pojmy:token|pozic (tokenů)]] |  3 290 055 |   +^ Počet [[pojmy:token|pozic (tokenů)]] |  3 285 508 |   
-^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |  2 788 632 +^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |  2 785 189 
-^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  65 778 |   +^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  131 246 |   
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  836 +^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  835 
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  395 908 +^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  394 982 
-^ Počet mluvčích |  1 297 |   +^ Počet unikátních (různých) mluvčích |  1 297 |   
-^ Délka nahrávek [hodiny:minuty] |  291:35 |  +^ Délka nahrávek [hodiny:minuty] |  291:11 |  
 </WRAP> </WRAP>
   
Řádek 19: Řádek 19:
 ===== Složení korpusu a sběr dat ===== ===== Složení korpusu a sběr dat =====
  
-Korpus ORAL2013 se skládá z **836 nahrávek** z let **2008–2011** a obsahuje **2 788 632 textových slov**, tj. celkem **3 290 055 pozic**; v sondách vystupuje celkem **2 548 mluvčích**, z toho **1 297 unikátních**. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je **17 495 minut**, tj. téměř 300 hodin (viz [[cnk:struktura-oral13|podrobnější údaje]] o složení a vyváženosti korpusu).+Korpus ORAL2013 se skládá z **835 nahrávek** z let **2008–2011** a obsahuje **2 785 189 textových slov**, tj. celkem **3 285 508 pozic**; v sondách vystupuje celkem **2 544 mluvčích**, z toho **1 297 unikátních**. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je **17 471 minut**, tj. téměř 300 hodin (viz [[cnk:struktura-oral13|podrobnější údaje]] o složení a vyváženosti korpusu). 
  
 Pro korpus byl sbírán výhradně materiál představující prototypický spontánní mluvený jazyk, který se používá při bezprostřední interakci mluvčích v neformálních komunikačních situacích. Hlavními kritérii pro získávání nahrávek byly: Pro korpus byl sbírán výhradně materiál představující prototypický spontánní mluvený jazyk, který se používá při bezprostřední interakci mluvčích v neformálních komunikačních situacích. Hlavními kritérii pro získávání nahrávek byly:
Řádek 29: Řádek 29:
  
 Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK. Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK.
 +
 +[{{ :cnk:o13.png?600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).}}]
 +
 +Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{:cnk:o13_win.csv|ke stažení ve formátu .csv}}.
 ===== Řada korpusů ORAL – v čem se ORAL2013 odlišuje? ===== ===== Řada korpusů ORAL – v čem se ORAL2013 odlišuje? =====