Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- cnk:ortofon [2017/06/01 07:35] – [Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON] zuzanakomrskova
+++ cnk:ortofon [2019/12/19 13:22] – [Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON] mariekoprivova
@@ Řádek 11: / Řádek 11: @@
 ^ <fs medium>Název</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]</fs> |
 ^ Počet [[pojmy:token|pozic (tokenů)]] |  1 236 508 |
-^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |  1 014 786 |
+^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů |  1 014 786 |
 ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  65 294 |
 ^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  332 |
 ^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  172 736 |
-^ Počet unikátních (různých) mluvčích |  625 |
+^ Počet unikátních (různých) mluvčích |  624 |
 ^ Délka nahrávek [hh:mm:ss.ms] |  102:41:14.247 |
 </WRAP>
 ===== Složení korpusu a sběr dat =====
-Korpus ORTOFON se skládá z 332 nahrávek z let 2012–2017 a obsahuje 1 013 565 textových slov, tj. celkem 1 240 147 pozic; v sondách vystupuje celkem 624 různých mluvčích. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je téměř 103 hodin.
+Korpus ORTOFON se skládá z 332 nahrávek z let 2012–2017 a obsahuje 1 014 786 textových slov, tj. celkem 1 236 508 pozic; v sondách vystupuje celkem 624 různých mluvčích. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je téměř 103 hodin. Více kvantitativních údajů viz na stránce o [[cnk:struktura_ortofon|složení korpusu]].
 Materiál byl sbírán v souladu s [[cnk:oral2013#slozeni_korpusu_a_sber_dat|kritérii]] platnými pro korpusy řady ORAL. Vzhledem k fonetické vrstvě přepisu byl kladen vyšší důraz na kvalitu nahrávek. Regionální původ mluvčích zahrnutých v korpusu ukazuje následující mapa. Hranice jednotlivých nářečních oblastí byly pro korpusy ORTOFON i DIALEKT zpřesněny.
+[{{:cnk:ortofon:map.png?600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).}}]
+Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{:cnk:ortofon:geocounts.xlsx|ke stažení ve formátu .xlsx}}.
 ===== Vyváženost korpusu =====
@@ Řádek 29: / Řádek 33: @@
 [{{:cnk:ortofon-vysece.png?400 | Rozvržení binárních sociolingvistických kategorií v jedné nářeční oblasti. }}]
-Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNK. S ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) stanovena cílová hranice 12 500 slov.
+Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNK. S ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) - stanovena cílová hranice 12 500 slov.
 Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích ((Feagin, C. (2002). Entering the community: Fieldwork. Chambers, J. K., Trudgill, P. and Schilling-Estes, N., editors, //The Handbook of Language Variation and Change//, 20–39. Blackwell Publishing, Malden, MA.)). Cílem tohoto opatření bylo omezit vliv idiolektu.
@@ Řádek 39: / Řádek 43: @@
   * **Rozšíření segmentu k poslechu**: Segment odděleného transkriptu může být dlouhý až 25 slov, což zlepšuje možnosti poslechu zvukového segmentu.
   * **Jiný způsob značení překryvů**: Překryvy jsou v traskriptu značeny hranatými závorkami, nejsou oddělovány ve zvuku, aby bylo možné je lépe poslouchat, srov. [[cnk:oral2013|ORAL2013]]. V korpusovém manažeru KonTextu jsou zobrazeny jako [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|strukturní atributy]] (více viz [[kurz:hledani_ortofon| hledání v korpusu ORTOFON]]).
-  * **Dostupnost audia**: Celý korpus OROTOFON je propojen se zvukem, takže je možná si vyhledanou konkordanci poslechnout (u korpusu ORAL jenom části ORAL-Z a ORAL2013).
+  * **Dostupnost audia**: Celý korpus ORTOFON je propojen se zvukem, takže je možné si vyhledanou konkordanci poslechnout (u korpusu [[cnk:oral|ORAL]] jenom části ORAL-Z a ORAL2013).
-  * **Nové metainformace**: Byl rozšířen soubor metainformace sbíraných k celé nahrávce i jednotlivým mluvčím. Více viz [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_ortofon|přehled strukturních atributů]].
+  * **Nové metainformace**: Byl rozšířen soubor metainformací sbíraných k celé nahrávce i jednotlivým mluvčím. Více viz [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_ortofon|přehled strukturních atributů]].
 ===== Poděkování =====
 Děkujeme všem spolupracovníkům, kteří se podíleli na pořízení nahrávek, jejich přepisu a kontrole.
+Jmenovitě chceme poděkovat především koordinátorům přepisu: PhDr. Iloně Adámkové, Mgr. Vendule Hálkové, dr. Daně Hlaváčkové, Mgr. Lence Klatovské, Mgr. Anně Marklové, PhDr. Evě Pasáčkové, Mgr. Pavle Smolové, Marice Svojanovské, Mgr. Pavlu Šturmovi, dr. Miloslavu Vondráčkovi a Mgr. Lence Zábojové.
 ===== Jak citovat =====
 <WRAP round tip 70%>
 Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz
+Komrsková, Z. - Kopřivová, M. - Lukeš, D. - Poukarová, P. - Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897.
 Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In //Complex Visibles Out There//. Olomouc: Univerzita Palackého v Olomouci, 529-544.
@@ Řádek 59: / Řádek 67: @@
 <WRAP round box 72%>
-[[cnk:ortofon:pravidla|Pravidla pro přepis nahrávek v korpusu ORTOFON]] • [[ORAL]] • [[ORAL2006]] • [[ORAL2008]] • [[ORAL2013]] • [[PMK]] • [[BMK]] • [[SCHOLA2010]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]] • [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]] • [[kurz:hledani_ORTOFON|Hledání v korpusu ORTOFON]]
+[[cnk:ortofon:pravidla|Pravidla pro přepis nahrávek v korpusu ORTOFON]] • [[kurz:hledani_ORTOFON|Hledání v korpusu ORTOFON]] • [[ORAL]] • [[ORAL2006]] • [[ORAL2008]] • [[ORAL2013]] • [[PMK]] • [[BMK]] • [[SCHOLA2010]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]] • [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]] • [[cnk:lemtag_mluv|Lemmatizace a tagování mluvených korpusů]]
  </WRAP>

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence