AplikaceAplikace
Nastavení

This is an old revision of the document!


DIALEKT corpus

The DIALEKT corpus presents traditional regional dialects captured over the entire Czech Republic. The dialect material was acquired by transcribing sound recordings coming from all dialectal regions of the Czech Republic. Additionally, several probes were recorded in Poland. The corpus is composed of two levels. The older dialectal level contains recordings which were made in the period from the end of the 1950s until the 1980s. The newer level contains probes covering the period from the 1990s until the present. For both layers we have language data which capture archaic dialectal elements which do not generally occur in the present day usage.

The first version of the dialect corpus contains approx. 100 000 words and will gradually expand. We assume that it will serve not only for specialists (dialectologists, other linguists and researchers from related fields), but also for example as a practical learning aid for high schools and universities. In the future it should also be supplemented with interactive maps with dialectal features from the individual regional dialects, excerpts from transcripts and recordings from selected locations, and other useful additions.

Corpus name Dialekt_dial Dialekt_ort
Number of positions (tokens) 128 289 126 131
Number of positions (tokens) without punctuation and other symbols 99 552 99 581
Number of word forms (words) 19 189 15 061
Number of recordings 324
Number of utterances 9 745
Number of speakers 178
Length of recordings (hh:mm:ss.ms) 12:40:24.771

Composition of DIALEKT and data collection

The DIALEKT corpus contains representations of all dialect regions in the Czech Republic, see Map of dialect regions in CR, which means that the language material is regionally varied. Probes from the Bohemian, Moravian and Silesian border areas have so far not been included in the data collection. Currently our top priority is the collection of sufficient language data, and therefore we are not yet taking steps to balance the corpus.

A section of the older level is composed of language material acquired by the Department of Dialectology of the Institute of the Czech Language of the Academy of Sciences of the Czech Republic, v. v. i., published in the appendix to the Czech language atlas (Balhar 2011), which is also the source of the recordings made in Poland. The remainder of the older level is composed of private collections made by individuals, most of which have also been published. The newer level of the corpus is composed of the collections of institutions, mostly from separate university faculties, private collections of individuals and last but not least the collections of dialect probes made by the Institute of the Czech National Corpus.

Co se týká metodiky sběru dat, praktikují se zásady, které jsou běžné v oblasti české dialektologie. V této fázi získávání nářečního materiálu se přednostně soustředíme na zachycení nejstaršího stavu tradičního teritoriálního dialektu. V případě obou korpusových levels se tedy terénní nářeční výzkum zaměřuje výhradně na příslušníky nejstarší generace (zatím neregistrujeme generační rozdíly), aby byly zachyceny původní nářeční rysy. Mluvčími jsou především místní rodáci zpravidla z venkovských lokalit, kteří patřili ke starousedlé vrstvě obyvatelstva, většinou se nestěhovali a byli spjatí se zemědělským způsobem života nebo s řemeslem. Vybíráni byli hlavně nářeční mluvčí ve věkové kategorii nad 60 let, kteří se narodili v období od konce 19. století až do 1. poloviny 20. století.

Promluvy mají spíše neformální ráz, přestože je explorátoři (nahrávající) vedli s informátory (nářečními mluvčími) formou řízeného rozhovoru – metodou užívanou v dialektologii. Mezi přepsanými nářečními nahrávkami se vyskytuje většinou nepřipravený monologický typ promluvy realizovaný v soukromém domácím prostředí. Témata promluv souvisí s tradičním venkovským životem a tehdejší světem, jsou tedy spojena se zemědělstvím, řemesly, místními zvyky a tradicemi, lidovým folklorem, dobovými událostmi atp., např. Tkalcování, O zakletém hadovi, Začátek II. světové války. V těchto promluvách jsou dochovány dialektismy ze všech jazykových rovin (fonetické a fonologické, morfologické, syntaktické i lexikální).

Nářeční korpus má také bohaté sociolingvistické značkování, což bude možné využít i při tvorbě subkorpusů, viz dvě nejspodnější tabulky v oddílu Strukturní atributy mluvených korpusů.

Map of dialect regions in CR

 Map of dialect regions in CR

Zpracování nářečních nahrávek

Nářeční materiál je v korpusu DIALEKT zpracováván tak, že má dvě úrovně přepisu – dialektologickou a ortografickou, viz transkripční zásady. Základní přepis je dialektologický a vychází z pravidel pro přepis vědeckých dialektologických textů. Druhou úroveň přepisu představuje ortografický přepis, blížící se bežné podobě psaných textů, jenž je srovnatelný s obecnými pravidly stanovenými pro mluvené korpusy v Českém národním korpusu (ČNK). Korpus DIALEKT je podobně jako korpus ORAL a ORTOFON lemmatizovaný a morfologicky označkovaný. Vzhledem k velké variabilitě nářečního materiálu a nedostatku trénovacích dat byl ale proces značkování a lemmatizace značně komplikovaný a s vědomím toho je také třeba k výsledku přistupovat.

Při zadání dotazu v korpusovém rozhraní KonText se nám zobrazí buď pouze jedna vybraná rovina přepisu, nebo obě roviny současně jako paralelní korpusy stojící vedle sebe. Přitom záleží na nás, kterou rovinu (dialektologickou nebo ortografickou) si zvolíme jako primární. Na té se pak zobrazují všechny funkce korpusu – je možné si pustit po segmentech část nahrávky, nastavit zobrazení dalších informací, pozičních nebo strukturních jednotek a atributů atp., viz Práce s korpusem Dialekt.

Poděkování

Děkujeme všem, kteří se podíleli na pořizování nahrávek, a všem, kteří nám poskytli svůj nářeční materiál ke zpracování. Poděkování náleží také editorům a revizorům. Tento korpus by rovněž nemohl vzniknout bez cenné pomoci dialektologů, zvláště Jarmily Bachmannové, nebo bez spolupráce s kartografem Karlem Kupkou. Celému pracovnímu týmu tímto děkujeme.

Jak citovat

Goláňová, H. – Waclawičová, M. – Komrsková, Z. – Lukeš, D. – Kopřivová, M. – Poukarová, P.: DIALEKT: nářeční korpus, verze 1 z 2. 6. 2017. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz

Goláňová, H. (2015): A new dialect corpus: DIALEKT. In Katarína Gajdošová - Adriana Žáková (eds.): Proceedings of the Eight International Conference Slovko 2015 (Natural Language Processing, Corpus Linguistics, Lexicography). Lüdenscheid: RAM-Verlag, s. 36-44. ISBN 978-3-942303-32-3.

Goláňová, H. – Kopřivová, M. – Lukeš, D. – Štěpán, M. (2015): Kartografické a geografické zpracování dat z mluvených korpusů. In Korpus – gramatika – axiologie, 11, s. 42-54. ISSN: 1804-137X

Budováním korpusu a koordinací projektu se zabývala Hana Goláňová, přípravou korpusu a kontrolou transkripce Martina Waclawičová, transkripcí na ortografické úrovni Zuzana Komrsková, technickou tvorbou korpusu David Lukeš a lemmatizaci a morfologické značkování připravili Zuzana Komrsková, Marie Kopřivová, David Lukeš a Petra Poukarová.

Související odkazy