Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- cnk:ortofon [2017/07/18 14:28] – [Poděkování] michalkren
+++ cnk:ortofon [2020/12/22 00:03] – základní zmínka o ORTOFON v2 lukes
@@ Řádek 1: / Řádek 1: @@
 ====== Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON ======
 Korpus ORTOFON navazuje svou koncepcí sběru dat na korpusy neformální mluvené češtiny řady [[cnk:oral|ORAL]]. Společně s korpusem [[cnk:dialekt|DIALEKT]] se jedná o první dva mluvené korpusy češtiny, které disponují víceúrovňovým přepisem. Stejně jako korpusy řady ORAL shromažďuje i ORTOFON spontánní mluvený jazyk užívaný v neformálních situacích mezi mluvčími, kteří se znají. Podobně jako v korpusu [[cnk:oral2013|ORAL2013]] pocházejí mluvčí z celé České republiky a jsou o nich shromažďovány vybrané sociologické informace.
@@ Řádek 9: / Řádek 10: @@
 <WRAP right 35%>
-^ <fs medium>Název</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]</fs> |
+^ <fs medium>Název</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v1</fs> |
 ^ Počet [[pojmy:token|pozic (tokenů)]] |  1 236 508 |
 ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů |  1 014 786 |
@@ Řádek 20: / Řádek 21: @@
 ===== Složení korpusu a sběr dat =====
 Korpus ORTOFON se skládá z 332 nahrávek z let 2012–2017 a obsahuje 1 014 786 textových slov, tj. celkem 1 236 508 pozic; v sondách vystupuje celkem 624 různých mluvčích. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je téměř 103 hodin. Více kvantitativních údajů viz na stránce o [[cnk:struktura_ortofon|složení korpusu]].
@@ Řádek 29: / Řádek 31: @@
 ===== Vyváženost korpusu =====
 Již při sběru dat bylo dbáno na maximální možnou variabilitu mluvčích v rámci všech nářečních oblastí. Materiál byl proto průběžně vyvažován v rámci základních čtyř sociolingvistických kategorií: pohlaví, věk, nejvyšší dosažené vzdělání a nářeční oblast, v níž mluvčí strávil většinu života do svých 15 let. První tři kategorie, tj. pohlaví, věk, vzdělání, byly rozděleny binárně (viz obrázek), čtvrtá kategrie byla rozvržena do deseti skupin, tj. deseti nářečních oblastí. Následující obrázek představuje rozvržení binárních kategorií v rámci jedné nářeční oblasti. Každá oblast by tedy měla obsahovat stejný počet slov od mužů a žen, od osob ve věku 18-34 let a starších 35 let, od osob s nejvyšším dosaženým vzděláním maturitním a vysokoškolským.
@@ Řádek 37: / Řádek 40: @@
 ===== Rozdíly mezi korpusem ORAL a ORTOFON =====
   * **Víceúrovňový přepis**: Přepis mluveného jazyka v korpusu ORTOFON realizován na dvou rovinách: **ortografické** a **fonetické**. Ortografická rovina slouží primárně k porozumění nahranému rozhovoru a orientaci v něm, zatímco fonetická rovina zachycuje skutečnou realizaci vyřčeného pomocí upraveného fonetického přepisu. Tyto dvě roviny doprovází ještě **metajazyková**, která zachycuje doprovodné zvuky produkované mluvčími (např. smích, kašel) nebo přítomné v okolí s možností ovlivnit rozhovor (např. zvonění telefonu může vést k přerušení dialogu). Více viz [[cnk:ortofon:pravidla|transkripční zásady]].
   * **Pauzová interpunkce založená na délce pauz**: Část korpusu [[cnk:oral|ORAL]], konkrétně ORAL2013 a ORAL-Z, obsahuje pauzovou interpunkci založenou na intuitivním rozlišení kratších a delších pauz podle tempa mluvy konkrétního mluvčího. V korpusu ORTOFON jsou rozlišovány tři druhy pauz podle časového kritéria: předěly (méně než 120 ms), pauzy (120 ms - 2 s), dlouhé pauzy (delší než 2 s).
@@ Řádek 46: / Řádek 50: @@
   * **Nové metainformace**: Byl rozšířen soubor metainformací sbíraných k celé nahrávce i jednotlivým mluvčím. Více viz [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_ortofon|přehled strukturních atributů]].
+<WRAP right 35%>
+^ <fs medium>Název</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v2</fs> |
+^ Počet [[pojmy:token|pozic (tokenů)]] |  2 560 590 |
+^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů |  2 101 214 |
+^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  101 502 |
+^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  615 |
+^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  360 248 |
+^ Počet unikátních (různých) mluvčích |  960 |
+^ Délka nahrávek [hh:mm:ss.ms] |  210:09:35.155 |
+</WRAP>
+===== Verze 2 (2020) =====
+V roce 2020 byla zveřejněna rozšířená verze korpusu obsahující nahrávky z let 2012–2019. Na rozdíl od původní verze **není vyvážená**, jejím cílem je zpřístupnit co největší množství sebraného materiálu. Sběr neformálních dialogů pokračuje a část staršího materiálu se pro vydání zatím ještě připravuje, ale i tak je nárůst oproti předchozí verzi dvojnásobný.
+Krom toho korpus obsahuje mnohá drobná vylepšení v konzistentnosti transkripce a v anotaci.
 ===== Poděkování =====
 Děkujeme všem spolupracovníkům, kteří se podíleli na pořízení nahrávek, jejich přepisu a kontrole.
 Jmenovitě chceme poděkovat především koordinátorům přepisu: PhDr. Iloně Adámkové, Mgr. Vendule Hálkové, dr. Daně Hlaváčkové, Mgr. Lence Klatovské, Mgr. Anně Marklové, PhDr. Evě Pasáčkové, Mgr. Pavle Smolové, Marice Svojanovské, Mgr. Pavlu Šturmovi, dr. Miloslavu Vondráčkovi a Mgr. Lence Zábojové.
 ===== Jak citovat =====
 <WRAP round tip 70%>
-Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz
+Poukarová, P. – Kopřivová, M. – Laubeová, Z. – Lukeš, D.: //ORTOFON v2: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz
-Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In //Complex Visibles Out There//. Olomouc: Univerzita Palackého v Olomouci, 529-544.
+Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz
-Kopřivová M. – Goláňová H. – Klimešová P. – Lukeš D.(2014): Mapping Diatopic and Diachronic Variation in Spoken Czech: the ORTOFON and DIALEKT Corpora. In //Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014)//. Reykjavík, Iceland, European Language Resources Association, 376-382.
+Komrsková, Z. - Kopřivová, M. - Lukeš, D. - Poukarová, P. - Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897.
+Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In //Complex Visibles Out There//. Olomouc: Univerzita Palackého v Olomouci, 529-544.
+Kopřivová M. – Goláňová H. – Klimešová P. – Lukeš D.(2014): Mapping Diatopic and Diachronic Variation in Spoken Czech: the ORTOFON and DIALEKT Corpora. In //Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014)//. Reykjavík, Iceland, European Language Resources Association, 376-382.
 </WRAP>

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence