Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzePoslední revizeObě strany příští revize | ||
cnk:ortofon [2019/12/19 13:21] – [Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON] mariekoprivova | cnk:ortofon [2022/08/29 17:24] – BatchEdit: pojmy>seznamy nahravky cvrcek | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON ====== | ====== Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON ====== | ||
+ | |||
Korpus ORTOFON navazuje svou koncepcí sběru dat na korpusy neformální mluvené češtiny řady [[cnk: | Korpus ORTOFON navazuje svou koncepcí sběru dat na korpusy neformální mluvené češtiny řady [[cnk: | ||
Korpus ORTOFON je také první korpus, který je plně vyvážený v rámci všech základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství). Korpus je [[cnk: | Korpus ORTOFON je také první korpus, který je plně vyvážený v rámci všech základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství). Korpus je [[cnk: | ||
- | Korpus ORTOFON umožňuje zkoumat různé aspekty mluveného jazyka, tj. lexikum, morfologii, syntax, pragmatiku, výstavbu dialogu. Korpus není primárně určen pro dialektologický ((Pro tento typ výzkumu je určen korpus [[cnk: | + | Korpus ORTOFON umožňuje zkoumat různé aspekty mluveného jazyka, tj. lexikon, morfologii, syntax, pragmatiku, výstavbu dialogu. Korpus není primárně určen pro dialektologický((Pro tento typ výzkumu je určen korpus [[cnk: |
- | Zveřejněním korpusu ORTOFON spolu se spojeným korpusem [[cnk: | + | Zveřejněním korpusu ORTOFON spolu se spojeným korpusem [[cnk: |
<WRAP right 35%> | <WRAP right 35%> | ||
- | ^ <fs medium> | + | ^ <fs medium> |
^ Počet [[pojmy: | ^ Počet [[pojmy: | ||
^ Počet [[pojmy: | ^ Počet [[pojmy: | ||
^ Počet [[pojmy: | ^ Počet [[pojmy: | ||
- | ^ Počet [[pojmy:atributy_strukturni# | + | ^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 332 | |
^ Počet [[pojmy: | ^ Počet [[pojmy: | ||
^ Počet unikátních (různých) mluvčích | 624 | | ^ Počet unikátních (různých) mluvčích | 624 | | ||
Řádek 20: | Řádek 21: | ||
===== Složení korpusu a sběr dat ===== | ===== Složení korpusu a sběr dat ===== | ||
+ | |||
Korpus ORTOFON se skládá z 332 nahrávek z let 2012–2017 a obsahuje 1 014 786 textových slov, tj. celkem 1 236 508 pozic; v sondách vystupuje celkem 624 různých mluvčích. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je téměř 103 hodin. Více kvantitativních údajů viz na stránce o [[cnk: | Korpus ORTOFON se skládá z 332 nahrávek z let 2012–2017 a obsahuje 1 014 786 textových slov, tj. celkem 1 236 508 pozic; v sondách vystupuje celkem 624 různých mluvčích. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je téměř 103 hodin. Více kvantitativních údajů viz na stránce o [[cnk: | ||
Řádek 29: | Řádek 31: | ||
===== Vyváženost korpusu ===== | ===== Vyváženost korpusu ===== | ||
+ | |||
Již při sběru dat bylo dbáno na maximální možnou variabilitu mluvčích v rámci všech nářečních oblastí. Materiál byl proto průběžně vyvažován v rámci základních čtyř sociolingvistických kategorií: pohlaví, věk, nejvyšší dosažené vzdělání a nářeční oblast, v níž mluvčí strávil většinu života do svých 15 let. První tři kategorie, tj. pohlaví, věk, vzdělání, | Již při sběru dat bylo dbáno na maximální možnou variabilitu mluvčích v rámci všech nářečních oblastí. Materiál byl proto průběžně vyvažován v rámci základních čtyř sociolingvistických kategorií: pohlaví, věk, nejvyšší dosažené vzdělání a nářeční oblast, v níž mluvčí strávil většinu života do svých 15 let. První tři kategorie, tj. pohlaví, věk, vzdělání, | ||
Řádek 35: | Řádek 38: | ||
Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNK. S ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) - stanovena cílová hranice 12 500 slov. | Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNK. S ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) - stanovena cílová hranice 12 500 slov. | ||
Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích ((Feagin, C. (2002). Entering the community: Fieldwork. Chambers, J. K., Trudgill, P. and Schilling-Estes, | Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích ((Feagin, C. (2002). Entering the community: Fieldwork. Chambers, J. K., Trudgill, P. and Schilling-Estes, | ||
+ | |||
+ | ===== Strukturní atributy korpusu ORTOFON ===== | ||
+ | |||
+ | Struktury a strukturní atributu korpusu ORTOFON jsou popsány na [[seznamy: | ||
===== Rozdíly mezi korpusem ORAL a ORTOFON ===== | ===== Rozdíly mezi korpusem ORAL a ORTOFON ===== | ||
+ | |||
* **Víceúrovňový přepis**: Přepis mluveného jazyka v korpusu ORTOFON realizován na dvou rovinách: **ortografické** a **fonetické**. Ortografická rovina slouží primárně k porozumění nahranému rozhovoru a orientaci v něm, zatímco fonetická rovina zachycuje skutečnou realizaci vyřčeného pomocí upraveného fonetického přepisu. Tyto dvě roviny doprovází ještě **metajazyková**, | * **Víceúrovňový přepis**: Přepis mluveného jazyka v korpusu ORTOFON realizován na dvou rovinách: **ortografické** a **fonetické**. Ortografická rovina slouží primárně k porozumění nahranému rozhovoru a orientaci v něm, zatímco fonetická rovina zachycuje skutečnou realizaci vyřčeného pomocí upraveného fonetického přepisu. Tyto dvě roviny doprovází ještě **metajazyková**, | ||
* **Pauzová interpunkce založená na délce pauz**: Část korpusu [[cnk: | * **Pauzová interpunkce založená na délce pauz**: Část korpusu [[cnk: | ||
Řádek 46: | Řádek 54: | ||
* **Nové metainformace**: | * **Nové metainformace**: | ||
+ | <WRAP right 35%> | ||
+ | ^ <fs medium> | ||
+ | ^ Počet [[pojmy: | ||
+ | ^ Počet [[pojmy: | ||
+ | ^ Počet [[pojmy: | ||
+ | ^ Počet [[seznamy: | ||
+ | ^ Počet [[pojmy: | ||
+ | ^ Počet unikátních (různých) mluvčích | 960 | | ||
+ | ^ Délka nahrávek [hh: | ||
+ | </ | ||
+ | |||
+ | ===== Verze 2 (2020) ===== | ||
+ | |||
+ | V roce 2020 byla zveřejněna rozšířená verze korpusu obsahující nahrávky z let 2012–2019. Na rozdíl od původní verze **není vyvážená**, | ||
+ | |||
+ | Krom toho korpus obsahuje mnohá drobná vylepšení v konzistentnosti transkripce a v anotaci. | ||
===== Poděkování ===== | ===== Poděkování ===== | ||
+ | |||
Děkujeme všem spolupracovníkům, | Děkujeme všem spolupracovníkům, | ||
Jmenovitě chceme poděkovat především koordinátorům přepisu: PhDr. Iloně Adámkové, Mgr. Vendule Hálkové, dr. Daně Hlaváčkové, | Jmenovitě chceme poděkovat především koordinátorům přepisu: PhDr. Iloně Adámkové, Mgr. Vendule Hálkové, dr. Daně Hlaváčkové, | ||
+ | |||
===== Jak citovat ===== | ===== Jak citovat ===== | ||
+ | |||
<WRAP round tip 70%> | <WRAP round tip 70%> | ||
- | Kopřivová, | + | Kopřivová, |
+ | |||
+ | Kopřivová, | ||
Komrsková, Z. - Kopřivová, | Komrsková, Z. - Kopřivová, | ||
Řádek 60: | Řádek 89: | ||
Kopřivová M. – Goláňová H. – Klimešová P. – Lukeš D.(2014): Mapping Diatopic and Diachronic Variation in Spoken Czech: the ORTOFON and DIALEKT Corpora. In // | Kopřivová M. – Goláňová H. – Klimešová P. – Lukeš D.(2014): Mapping Diatopic and Diachronic Variation in Spoken Czech: the ORTOFON and DIALEKT Corpora. In // | ||
- | |||
- | |||
</ | </ | ||