Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:ortofon [2017/05/31 22:29] – [Rozdíly mezi korpusem ORAL a ORTOFON] mariekoprivova | cnk:ortofon [2019/12/19 13:22] – [Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON] mariekoprivova |
---|
Korpus ORTOFON navazuje svou koncepcí sběru dat na korpusy neformální mluvené češtiny řady [[cnk:oral|ORAL]]. Společně s korpusem [[cnk:dialekt|DIALEKT]] se jedná o první dva mluvené korpusy češtiny, které disponují víceúrovňovým přepisem. Stejně jako korpusy řady ORAL shromažďuje i ORTOFON spontánní mluvený jazyk užívaný v neformálních situacích mezi mluvčími, kteří se znají. Podobně jako v korpusu [[cnk:oral2013|ORAL2013]] pocházejí mluvčí z celé České republiky a jsou o nich shromažďovány vybrané sociologické informace. | Korpus ORTOFON navazuje svou koncepcí sběru dat na korpusy neformální mluvené češtiny řady [[cnk:oral|ORAL]]. Společně s korpusem [[cnk:dialekt|DIALEKT]] se jedná o první dva mluvené korpusy češtiny, které disponují víceúrovňovým přepisem. Stejně jako korpusy řady ORAL shromažďuje i ORTOFON spontánní mluvený jazyk užívaný v neformálních situacích mezi mluvčími, kteří se znají. Podobně jako v korpusu [[cnk:oral2013|ORAL2013]] pocházejí mluvčí z celé České republiky a jsou o nich shromažďovány vybrané sociologické informace. |
| |
Korpus ORTOFON je také první korpus, který je plně vyvážený v rámci všech základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství). Korpus je [[cnk:oral#lemmatizace_a_taggovani|lemmatizován a morfologicky značkován]] stejně jako korpus ORAL, transkript je propojen se zvukovou stopou. | Korpus ORTOFON je také první korpus, který je plně vyvážený v rámci všech základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství). Korpus je [[cnk:lemtag_mluv|lemmatizován a morfologicky značkován]] stejně jako korpus ORAL, transkript je propojen se zvukovou stopou. |
| |
Korpus ORTOFON umožňuje zkoumat různé aspekty mluveného jazyka, tj. lexikum, morfologii, syntax, pragmatiku, výstavbu dialogu. Korpus není primárně určen pro dialektologický ((Pro tento typ výzkumu je určen korpus [[cnk:dialekt|DIALEKT]].)) či fonetický výzkum, přesto zjednodušený fonetický přepis umožňuje ověřit existenci výslovnostních či regionálních variant nebo jevů souvisejících s výslovností. | Korpus ORTOFON umožňuje zkoumat různé aspekty mluveného jazyka, tj. lexikum, morfologii, syntax, pragmatiku, výstavbu dialogu. Korpus není primárně určen pro dialektologický ((Pro tento typ výzkumu je určen korpus [[cnk:dialekt|DIALEKT]].)) či fonetický výzkum, přesto zjednodušený fonetický přepis umožňuje ověřit existenci výslovnostních či regionálních variant nebo jevů souvisejících s výslovností. |
^ <fs medium>Název</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]</fs> | | ^ <fs medium>Název</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]</fs> | |
^ Počet [[pojmy:token|pozic (tokenů)]] | 1 236 508 | | ^ Počet [[pojmy:token|pozic (tokenů)]] | 1 236 508 | |
^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek | 1 014 786 | | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 1 014 786 | |
^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 65 294 | | ^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 65 294 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] | 332 | | ^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] | 332 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] | 172 736 | | ^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] | 172 736 | |
^ Počet unikátních (různých) mluvčích | 625 | | ^ Počet unikátních (různých) mluvčích | 624 | |
^ Délka nahrávek [hh:mm:ss.ms] | 102:41:14.247 | | ^ Délka nahrávek [hh:mm:ss.ms] | 102:41:14.247 | |
</WRAP> | </WRAP> |
| |
===== Složení korpusu a sběr dat ===== | ===== Složení korpusu a sběr dat ===== |
Korpus ORTOFON se skládá z 332 nahrávek z let 2012–2017 a obsahuje 1 013 565 textových slov, tj. celkem 1 240 147 pozic; v sondách vystupuje celkem 624 různých mluvčích. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je téměř 103 hodin. | Korpus ORTOFON se skládá z 332 nahrávek z let 2012–2017 a obsahuje 1 014 786 textových slov, tj. celkem 1 236 508 pozic; v sondách vystupuje celkem 624 různých mluvčích. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je téměř 103 hodin. Více kvantitativních údajů viz na stránce o [[cnk:struktura_ortofon|složení korpusu]]. |
| |
Materiál byl sbírán v souladu s [[cnk:oral2013#slozeni_korpusu_a_sber_dat|kritérii]] platnými pro korpusy řady ORAL. Vzhledem k fonetické vrstvě přepisu byl kladen vyšší důraz na kvalitu nahrávek. Regionální původ mluvčích zahrnutých v korpusu ukazuje následující mapa. Hranice jednotlivých nářečních oblastí byly pro korpusy ORTOFON i DIALEKT zpřesněny. | Materiál byl sbírán v souladu s [[cnk:oral2013#slozeni_korpusu_a_sber_dat|kritérii]] platnými pro korpusy řady ORAL. Vzhledem k fonetické vrstvě přepisu byl kladen vyšší důraz na kvalitu nahrávek. Regionální původ mluvčích zahrnutých v korpusu ukazuje následující mapa. Hranice jednotlivých nářečních oblastí byly pro korpusy ORTOFON i DIALEKT zpřesněny. |
| |
| [{{:cnk:ortofon:map.png?600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).}}] |
| |
| Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{:cnk:ortofon:geocounts.xlsx|ke stažení ve formátu .xlsx}}. |
| |
===== Vyváženost korpusu ===== | ===== Vyváženost korpusu ===== |
[{{:cnk:ortofon-vysece.png?400 | Rozvržení binárních sociolingvistických kategorií v jedné nářeční oblasti. }}] | [{{:cnk:ortofon-vysece.png?400 | Rozvržení binárních sociolingvistických kategorií v jedné nářeční oblasti. }}] |
| |
Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNK. S ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) stanovena cílová hranice 12 500 slov. | Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNK. S ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) - stanovena cílová hranice 12 500 slov. |
Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích ((Feagin, C. (2002). Entering the community: Fieldwork. Chambers, J. K., Trudgill, P. and Schilling-Estes, N., editors, //The Handbook of Language Variation and Change//, 20–39. Blackwell Publishing, Malden, MA.)). Cílem tohoto opatření bylo omezit vliv idiolektu. | Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích ((Feagin, C. (2002). Entering the community: Fieldwork. Chambers, J. K., Trudgill, P. and Schilling-Estes, N., editors, //The Handbook of Language Variation and Change//, 20–39. Blackwell Publishing, Malden, MA.)). Cílem tohoto opatření bylo omezit vliv idiolektu. |
| |
* **Rozšíření segmentu k poslechu**: Segment odděleného transkriptu může být dlouhý až 25 slov, což zlepšuje možnosti poslechu zvukového segmentu. | * **Rozšíření segmentu k poslechu**: Segment odděleného transkriptu může být dlouhý až 25 slov, což zlepšuje možnosti poslechu zvukového segmentu. |
* **Jiný způsob značení překryvů**: Překryvy jsou v traskriptu značeny hranatými závorkami, nejsou oddělovány ve zvuku, aby bylo možné je lépe poslouchat, srov. [[cnk:oral2013|ORAL2013]]. V korpusovém manažeru KonTextu jsou zobrazeny jako [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|strukturní atributy]] (více viz [[kurz:hledani_ortofon| hledání v korpusu ORTOFON]]). | * **Jiný způsob značení překryvů**: Překryvy jsou v traskriptu značeny hranatými závorkami, nejsou oddělovány ve zvuku, aby bylo možné je lépe poslouchat, srov. [[cnk:oral2013|ORAL2013]]. V korpusovém manažeru KonTextu jsou zobrazeny jako [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|strukturní atributy]] (více viz [[kurz:hledani_ortofon| hledání v korpusu ORTOFON]]). |
* **Dostupnost audia**: Celý korpus OROTOFON je propojen se zvukem, takže je možná si vyhledanou konkordanci poslechnout (u korpusu ORAL jenom části ORAL-Z a ORAL2013). | * **Dostupnost audia**: Celý korpus ORTOFON je propojen se zvukem, takže je možné si vyhledanou konkordanci poslechnout (u korpusu [[cnk:oral|ORAL]] jenom části ORAL-Z a ORAL2013). |
* **Nové metainformace**: Byl rozšířen soubor metainformace sbíraných k celé nahrávce i jednotlivým mluvčím. Více viz [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_ortofon|přehled strukturních atributů]]. | * **Nové metainformace**: Byl rozšířen soubor metainformací sbíraných k celé nahrávce i jednotlivým mluvčím. Více viz [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_ortofon|přehled strukturních atributů]]. |
| |
| |
===== Poděkování ===== | ===== Poděkování ===== |
Děkujeme všem spolupracovníkům, kteří se podíleli na pořízení nahrávek, jejich přepisu a kontrole. | Děkujeme všem spolupracovníkům, kteří se podíleli na pořízení nahrávek, jejich přepisu a kontrole. |
| |
| Jmenovitě chceme poděkovat především koordinátorům přepisu: PhDr. Iloně Adámkové, Mgr. Vendule Hálkové, dr. Daně Hlaváčkové, Mgr. Lence Klatovské, Mgr. Anně Marklové, PhDr. Evě Pasáčkové, Mgr. Pavle Smolové, Marice Svojanovské, Mgr. Pavlu Šturmovi, dr. Miloslavu Vondráčkovi a Mgr. Lence Zábojové. |
===== Jak citovat ===== | ===== Jak citovat ===== |
<WRAP round tip 70%> | <WRAP round tip 70%> |
Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz | Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz |
| |
| Komrsková, Z. - Kopřivová, M. - Lukeš, D. - Poukarová, P. - Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897. |
| |
Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In //Complex Visibles Out There//. Olomouc: Univerzita Palackého v Olomouci, 529-544. | Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In //Complex Visibles Out There//. Olomouc: Univerzita Palackého v Olomouci, 529-544. |
| |
<WRAP round box 72%> | <WRAP round box 72%> |
[[cnk:ortofon:pravidla|Pravidla pro přepis nahrávek v korpusu ORTOFON]] • [[ORAL]] • [[ORAL2006]] • [[ORAL2008]] • [[ORAL2013]] • [[PMK]] • [[BMK]] • [[SCHOLA2010]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]] • [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]] • [[kurz:hledani_ORTOFON|Hledání v korpusu ORTOFON]] | [[cnk:ortofon:pravidla|Pravidla pro přepis nahrávek v korpusu ORTOFON]] • [[kurz:hledani_ORTOFON|Hledání v korpusu ORTOFON]] • [[ORAL]] • [[ORAL2006]] • [[ORAL2008]] • [[ORAL2013]] • [[PMK]] • [[BMK]] • [[SCHOLA2010]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]] • [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]] • [[cnk:lemtag_mluv|Lemmatizace a tagování mluvených korpusů]] |
</WRAP> | </WRAP> |