Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
cnk:ortofon [2017/07/18 14:28] – [Poděkování] michalkren | cnk:ortofon [2020/12/22 00:03] – základní zmínka o ORTOFON v2 lukes | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON ====== | ====== Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON ====== | ||
+ | |||
Korpus ORTOFON navazuje svou koncepcí sběru dat na korpusy neformální mluvené češtiny řady [[cnk: | Korpus ORTOFON navazuje svou koncepcí sběru dat na korpusy neformální mluvené češtiny řady [[cnk: | ||
Řádek 9: | Řádek 10: | ||
<WRAP right 35%> | <WRAP right 35%> | ||
- | ^ <fs medium> | + | ^ <fs medium> |
^ Počet [[pojmy: | ^ Počet [[pojmy: | ||
^ Počet [[pojmy: | ^ Počet [[pojmy: | ||
Řádek 20: | Řádek 21: | ||
===== Složení korpusu a sběr dat ===== | ===== Složení korpusu a sběr dat ===== | ||
+ | |||
Korpus ORTOFON se skládá z 332 nahrávek z let 2012–2017 a obsahuje 1 014 786 textových slov, tj. celkem 1 236 508 pozic; v sondách vystupuje celkem 624 různých mluvčích. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je téměř 103 hodin. Více kvantitativních údajů viz na stránce o [[cnk: | Korpus ORTOFON se skládá z 332 nahrávek z let 2012–2017 a obsahuje 1 014 786 textových slov, tj. celkem 1 236 508 pozic; v sondách vystupuje celkem 624 různých mluvčích. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je téměř 103 hodin. Více kvantitativních údajů viz na stránce o [[cnk: | ||
Řádek 29: | Řádek 31: | ||
===== Vyváženost korpusu ===== | ===== Vyváženost korpusu ===== | ||
+ | |||
Již při sběru dat bylo dbáno na maximální možnou variabilitu mluvčích v rámci všech nářečních oblastí. Materiál byl proto průběžně vyvažován v rámci základních čtyř sociolingvistických kategorií: pohlaví, věk, nejvyšší dosažené vzdělání a nářeční oblast, v níž mluvčí strávil většinu života do svých 15 let. První tři kategorie, tj. pohlaví, věk, vzdělání, | Již při sběru dat bylo dbáno na maximální možnou variabilitu mluvčích v rámci všech nářečních oblastí. Materiál byl proto průběžně vyvažován v rámci základních čtyř sociolingvistických kategorií: pohlaví, věk, nejvyšší dosažené vzdělání a nářeční oblast, v níž mluvčí strávil většinu života do svých 15 let. První tři kategorie, tj. pohlaví, věk, vzdělání, | ||
Řádek 37: | Řádek 40: | ||
===== Rozdíly mezi korpusem ORAL a ORTOFON ===== | ===== Rozdíly mezi korpusem ORAL a ORTOFON ===== | ||
+ | |||
* **Víceúrovňový přepis**: Přepis mluveného jazyka v korpusu ORTOFON realizován na dvou rovinách: **ortografické** a **fonetické**. Ortografická rovina slouží primárně k porozumění nahranému rozhovoru a orientaci v něm, zatímco fonetická rovina zachycuje skutečnou realizaci vyřčeného pomocí upraveného fonetického přepisu. Tyto dvě roviny doprovází ještě **metajazyková**, | * **Víceúrovňový přepis**: Přepis mluveného jazyka v korpusu ORTOFON realizován na dvou rovinách: **ortografické** a **fonetické**. Ortografická rovina slouží primárně k porozumění nahranému rozhovoru a orientaci v něm, zatímco fonetická rovina zachycuje skutečnou realizaci vyřčeného pomocí upraveného fonetického přepisu. Tyto dvě roviny doprovází ještě **metajazyková**, | ||
* **Pauzová interpunkce založená na délce pauz**: Část korpusu [[cnk: | * **Pauzová interpunkce založená na délce pauz**: Část korpusu [[cnk: | ||
Řádek 46: | Řádek 50: | ||
* **Nové metainformace**: | * **Nové metainformace**: | ||
+ | <WRAP right 35%> | ||
+ | ^ <fs medium> | ||
+ | ^ Počet [[pojmy: | ||
+ | ^ Počet [[pojmy: | ||
+ | ^ Počet [[pojmy: | ||
+ | ^ Počet [[pojmy: | ||
+ | ^ Počet [[pojmy: | ||
+ | ^ Počet unikátních (různých) mluvčích | 960 | | ||
+ | ^ Délka nahrávek [hh: | ||
+ | </ | ||
+ | |||
+ | ===== Verze 2 (2020) ===== | ||
+ | |||
+ | V roce 2020 byla zveřejněna rozšířená verze korpusu obsahující nahrávky z let 2012–2019. Na rozdíl od původní verze **není vyvážená**, | ||
+ | |||
+ | Krom toho korpus obsahuje mnohá drobná vylepšení v konzistentnosti transkripce a v anotaci. | ||
===== Poděkování ===== | ===== Poděkování ===== | ||
+ | |||
Děkujeme všem spolupracovníkům, | Děkujeme všem spolupracovníkům, | ||
Jmenovitě chceme poděkovat především koordinátorům přepisu: PhDr. Iloně Adámkové, Mgr. Vendule Hálkové, dr. Daně Hlaváčkové, | Jmenovitě chceme poděkovat především koordinátorům přepisu: PhDr. Iloně Adámkové, Mgr. Vendule Hálkové, dr. Daně Hlaváčkové, | ||
+ | |||
===== Jak citovat ===== | ===== Jak citovat ===== | ||
+ | |||
<WRAP round tip 70%> | <WRAP round tip 70%> | ||
- | Kopřivová, | + | Poukarová, P. – Kopřivová, |
- | Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In //Complex Visibles Out There//. Olomouc: Univerzita Palackého v Olomouci, 529-544. | + | Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http:// |
- | Kopřivová M. – Goláňová H. – Klimešová P. – Lukeš D.(2014): Mapping Diatopic and Diachronic Variation in Spoken Czech: | + | Komrsková, Z. - Kopřivová, M. - Lukeš, D. - Poukarová, P. - Goláňová, H. (2017): New Spoken |
+ | Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In //Complex Visibles Out There//. Olomouc: Univerzita Palackého v Olomouci, 529-544. | ||
+ | Kopřivová M. – Goláňová H. – Klimešová P. – Lukeš D.(2014): Mapping Diatopic and Diachronic Variation in Spoken Czech: the ORTOFON and DIALEKT Corpora. In // | ||
</ | </ | ||