AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
cnk:ortofon [2017/06/01 07:35] – [Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON] zuzanakomrskovacnk:ortofon [2019/12/19 13:22] – [Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON] mariekoprivova
Řádek 11: Řádek 11:
 ^ <fs medium>Název</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]</fs> | ^ <fs medium>Název</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]</fs> |
 ^ Počet [[pojmy:token|pozic (tokenů)]] |  1 236 508 |   ^ Počet [[pojmy:token|pozic (tokenů)]] |  1 236 508 |  
-^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |  1 014 786 |+^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních citoslovečných zvuků a komentářů |  1 014 786 |
 ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  65 294 |   ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  65 294 |  
 ^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  332 | ^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  332 |
 ^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  172 736 | ^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  172 736 |
-^ Počet unikátních (různých) mluvčích |  625 |  +^ Počet unikátních (různých) mluvčích |  624 |  
 ^ Délka nahrávek [hh:mm:ss.ms] |  102:41:14.247 |   ^ Délka nahrávek [hh:mm:ss.ms] |  102:41:14.247 |  
 </WRAP> </WRAP>
  
 ===== Složení korpusu a sběr dat ===== ===== Složení korpusu a sběr dat =====
-Korpus ORTOFON se skládá z 332 nahrávek z let 2012–2017 a obsahuje 1 013 565 textových slov, tj. celkem 1 240 147 pozic; v sondách vystupuje celkem 624 různých mluvčích. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je téměř 103 hodin. +Korpus ORTOFON se skládá z 332 nahrávek z let 2012–2017 a obsahuje 1 014 786 textových slov, tj. celkem 1 236 508 pozic; v sondách vystupuje celkem 624 různých mluvčích. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je téměř 103 hodin. Více kvantitativních údajů viz na stránce o [[cnk:struktura_ortofon|složení korpusu]].
  
 Materiál byl sbírán v souladu s [[cnk:oral2013#slozeni_korpusu_a_sber_dat|kritérii]] platnými pro korpusy řady ORAL. Vzhledem k fonetické vrstvě přepisu byl kladen vyšší důraz na kvalitu nahrávek. Regionální původ mluvčích zahrnutých v korpusu ukazuje následující mapa. Hranice jednotlivých nářečních oblastí byly pro korpusy ORTOFON i DIALEKT zpřesněny. Materiál byl sbírán v souladu s [[cnk:oral2013#slozeni_korpusu_a_sber_dat|kritérii]] platnými pro korpusy řady ORAL. Vzhledem k fonetické vrstvě přepisu byl kladen vyšší důraz na kvalitu nahrávek. Regionální původ mluvčích zahrnutých v korpusu ukazuje následující mapa. Hranice jednotlivých nářečních oblastí byly pro korpusy ORTOFON i DIALEKT zpřesněny.
 +
 +[{{:cnk:ortofon:map.png?600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).}}]
 +
 +Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{:cnk:ortofon:geocounts.xlsx|ke stažení ve formátu .xlsx}}. 
  
 ===== Vyváženost korpusu ===== ===== Vyváženost korpusu =====
Řádek 29: Řádek 33:
 [{{:cnk:ortofon-vysece.png?400 | Rozvržení binárních sociolingvistických kategorií v jedné nářeční oblasti. }}] [{{:cnk:ortofon-vysece.png?400 | Rozvržení binárních sociolingvistických kategorií v jedné nářeční oblasti. }}]
  
-Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNK. S ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) stanovena cílová hranice 12 500 slov.+Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNK. S ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) stanovena cílová hranice 12 500 slov.
 Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích ((Feagin, C. (2002). Entering the community: Fieldwork. Chambers, J. K., Trudgill, P. and Schilling-Estes, N., editors, //The Handbook of Language Variation and Change//, 20–39. Blackwell Publishing, Malden, MA.)). Cílem tohoto opatření bylo omezit vliv idiolektu.  Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích ((Feagin, C. (2002). Entering the community: Fieldwork. Chambers, J. K., Trudgill, P. and Schilling-Estes, N., editors, //The Handbook of Language Variation and Change//, 20–39. Blackwell Publishing, Malden, MA.)). Cílem tohoto opatření bylo omezit vliv idiolektu. 
  
Řádek 39: Řádek 43:
   * **Rozšíření segmentu k poslechu**: Segment odděleného transkriptu může být dlouhý až 25 slov, což zlepšuje možnosti poslechu zvukového segmentu.   * **Rozšíření segmentu k poslechu**: Segment odděleného transkriptu může být dlouhý až 25 slov, což zlepšuje možnosti poslechu zvukového segmentu.
   * **Jiný způsob značení překryvů**: Překryvy jsou v traskriptu značeny hranatými závorkami, nejsou oddělovány ve zvuku, aby bylo možné je lépe poslouchat, srov. [[cnk:oral2013|ORAL2013]]. V korpusovém manažeru KonTextu jsou zobrazeny jako [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|strukturní atributy]] (více viz [[kurz:hledani_ortofon| hledání v korpusu ORTOFON]]).   * **Jiný způsob značení překryvů**: Překryvy jsou v traskriptu značeny hranatými závorkami, nejsou oddělovány ve zvuku, aby bylo možné je lépe poslouchat, srov. [[cnk:oral2013|ORAL2013]]. V korpusovém manažeru KonTextu jsou zobrazeny jako [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|strukturní atributy]] (více viz [[kurz:hledani_ortofon| hledání v korpusu ORTOFON]]).
-  * **Dostupnost audia**: Celý korpus OROTOFON je propojen se zvukem, takže je možná si vyhledanou konkordanci poslechnout (u korpusu ORAL jenom části ORAL-Z a ORAL2013). +  * **Dostupnost audia**: Celý korpus ORTOFON je propojen se zvukem, takže je možné si vyhledanou konkordanci poslechnout (u korpusu [[cnk:oral|ORAL]] jenom části ORAL-Z a ORAL2013). 
-  * **Nové metainformace**: Byl rozšířen soubor metainformace sbíraných k celé nahrávce i jednotlivým mluvčím. Více viz [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_ortofon|přehled strukturních atributů]].+  * **Nové metainformace**: Byl rozšířen soubor metainformací sbíraných k celé nahrávce i jednotlivým mluvčím. Více viz [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_ortofon|přehled strukturních atributů]].
  
  
 ===== Poděkování ===== ===== Poděkování =====
 Děkujeme všem spolupracovníkům, kteří se podíleli na pořízení nahrávek, jejich přepisu a kontrole.  Děkujeme všem spolupracovníkům, kteří se podíleli na pořízení nahrávek, jejich přepisu a kontrole. 
 +
 +Jmenovitě chceme poděkovat především koordinátorům přepisu: PhDr. Iloně Adámkové, Mgr. Vendule Hálkové, dr. Daně Hlaváčkové, Mgr. Lence Klatovské, Mgr. Anně Marklové, PhDr. Evě Pasáčkové, Mgr. Pavle Smolové, Marice Svojanovské, Mgr. Pavlu Šturmovi, dr. Miloslavu Vondráčkovi a Mgr. Lence Zábojové.
 ===== Jak citovat ===== ===== Jak citovat =====
 <WRAP round tip 70%> <WRAP round tip 70%>
 Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz
 +
 +Komrsková, Z. - Kopřivová, M. - Lukeš, D. - Poukarová, P. - Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897.
  
 Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In //Complex Visibles Out There//. Olomouc: Univerzita Palackého v Olomouci, 529-544. Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In //Complex Visibles Out There//. Olomouc: Univerzita Palackého v Olomouci, 529-544.
Řádek 59: Řádek 67:
  
 <WRAP round box 72%> <WRAP round box 72%>
-[[cnk:ortofon:pravidla|Pravidla pro přepis nahrávek v korpusu ORTOFON]] • [[ORAL]] • [[ORAL2006]] • [[ORAL2008]] • [[ORAL2013]] • [[PMK]] • [[BMK]] • [[SCHOLA2010]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]] • [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]] • [[kurz:hledani_ORTOFON|Hledání v korpusu ORTOFON]]  +[[cnk:ortofon:pravidla|Pravidla pro přepis nahrávek v korpusu ORTOFON]] • [[kurz:hledani_ORTOFON|Hledání v korpusu ORTOFON]] • [[ORAL]] • [[ORAL2006]] • [[ORAL2008]] • [[ORAL2013]] • [[PMK]] • [[BMK]] • [[SCHOLA2010]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]] • [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]] • [[cnk:lemtag_mluv|Lemmatizace a tagování mluvených korpusů]]
  </WRAP>  </WRAP>