AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
cnk:dialekt [2017/06/05 09:21] – [Složení korpusu DIALEKT a sběr dat] Martina Waclawičovácnk:dialekt [2020/11/02 11:48] – [Korpus DIALEKT] Martina Waclawičová
Řádek 2: Řádek 2:
 ====== Korpus DIALEKT ====== ====== Korpus DIALEKT ======
  
-Korpus **DIALEKT** prezentuje tradiční teritoriální dialekty zachycené na území celé České republiky. Nářeční materiál byl získán přepisem zvukových nahrávek pocházejících ze všech nářečních oblastí České republiky. Kromě toho byly některé sondy nahrány na území Polska. Korpus je budován ve dvou vrstvách. Starší nářeční vrstva obsahuje nahrávky, které byly pořízeny v období od konce 50. let až do 80. let 20. století. Do nové vrstvy jsou zařazeny sondy pocházející z období od 90. let 20. století až do současnosti. V případě obou vrstev máme k dispozici jazyková data, v nichž jsou zachyceny archaické nářeční prvky, které se už dnes v běžném úzu většinou nevyskytují. +Korpus **DIALEKT** prezentuje tradiční teritoriální dialekty zachycené na území celé České republiky. Nářeční materiál byl získán přepisem zvukových nahrávek pocházejících ze všech nářečních oblastí České republiky. Kromě toho byly některé nářeční promluvy nahrány na území Polska. Korpus je budován ve dvou vrstvách. Starší nářeční vrstva obsahuje nahrávky, které byly pořízeny v období od konce 50. let až do 80. let 20. století. Do nové vrstvy jsou zařazeny nářeční sondy pocházející z období od 90. let 20. století až do současnosti. V případě obou vrstev máme k dispozici jazyková data, v nichž jsou zachyceny archaické nářeční prvky, které se už dnes v běžném úzu většinou nevyskytují. 
  
-Nářeční korpus ve své první verzi obsahuje cca 100 000 slov a bude se postupně rozšiřovat. Předpokládáme, že bude sloužit nejen pro odbornou veřejnost (dialektology, ostatní lingvisty a badatele z příbuzných oborů), ale například i jako praktická pomůcka při výuce na středních nebo vysokých školách. V budoucnu by měl být doplněn také interaktivní mapy s nářečními rysy z jednotlivých nářečních oblastí, o ukázky episů a nahrávek z vybraných lokalit a o další užitečné doplňky.+Nářeční korpus ve své první verzi obsahuje cca 100 000 slov a bude se postupně rozšiřovat. Předpokládáme, že bude sloužit nejen pro odbornou veřejnost (dialektology, ostatní lingvisty a badatele z příbuzných oborů), ale například i jako praktická pomůcka při výuce na středních nebo vysokých školách.  
 + 
 +Doplňkem ke korpusu DIALEKT je aplikace [[https://korpus.cz/mapka/|**Mapka**]], která nabízí interaktivní mapu České republiky, ve které si lze zobrazovat nářeční členění a údaje o nářečních rysech jednotlivých nářečních oblastí. Jako názorné íklady jsou do ní začleněny zvukové ukázky projevů nářečních mluvčích spolu s jejich přepisy a rozbory.
  
 <WRAP right 35%> <WRAP right 35%>
Řádek 19: Řádek 21:
 ====== Složení korpusu DIALEKT a sběr dat ====== ====== Složení korpusu DIALEKT a sběr dat ======
  
-V korpusu **DIALEKT** jsou zastoupeny všechny nářeční oblasti České republiky, viz [[#Mapa nářečních oblastí ČR]], takže se jedná o jazykový materiál teritoriálně různorodý. Sondy z českého, moravského a slezského pohraničí se do sběru dat zatím nepodařilo zařadit. V této chvíli potřebujeme shromáždit především dostatek jazykových dat, proto korpus zatím nevyvažujeme.+V korpusu **DIALEKT** jsou zastoupeny všechny nářeční oblasti České republiky, viz [[cnk:dialekt:mapa|Mapa nářečí českého jazyka]], takže se jedná o jazykový materiál teritoriálně různorodý. Nářeční promluvy z českého, moravského a slezského pohraničí se do sběru dat zatím nepodařilo zařadit. V této chvíli potřebujeme shromáždit především dostatek jazykových dat, proto korpus zatím nevyvažujeme.
  
 Část starší vrstvy tvoří jazykový materiál získaný sběrem dialektologického oddělení Ústavu pro jazyk český AV ČR, v. v. i., publikovaný v //Dodatcích Českého jazykového atlasu// (Balhar 2011), z něhož pocházejí také nahrávky pořízené na polském území. Zbývající část starší vrstvy tvoří soukromé sběry jednotlivců, které byly také z velké části publikovány. V nové vrstvě korpusu jsou zařazeny vlastní sběry institucí, pocházející zejména z fakult jednotlivých univerzit, soukromé sběry jednotlivců a v neposlední řadě také sběr nářečních sond Ústavu Českého národního korpusu.  Část starší vrstvy tvoří jazykový materiál získaný sběrem dialektologického oddělení Ústavu pro jazyk český AV ČR, v. v. i., publikovaný v //Dodatcích Českého jazykového atlasu// (Balhar 2011), z něhož pocházejí také nahrávky pořízené na polském území. Zbývající část starší vrstvy tvoří soukromé sběry jednotlivců, které byly také z velké části publikovány. V nové vrstvě korpusu jsou zařazeny vlastní sběry institucí, pocházející zejména z fakult jednotlivých univerzit, soukromé sběry jednotlivců a v neposlední řadě také sběr nářečních sond Ústavu Českého národního korpusu. 
Řádek 25: Řádek 27:
 Co se týká metodiky sběru dat, praktikují se zásady, které jsou běžné v oblasti české dialektologie. V této fázi získávání nářečního materiálu se přednostně soustředíme na zachycení nejstaršího stavu tradičního teritoriálního dialektu. V případě obou korpusových vrstev se tedy terénní nářeční výzkum zaměřuje výhradně na příslušníky nejstarší generace (zatím neregistrujeme generační rozdíly), aby byly zachyceny původní nářeční rysy. Mluvčími jsou především místní rodáci zpravidla z venkovských lokalit, kteří patřili ke starousedlé vrstvě obyvatelstva, většinou se nestěhovali a byli spjatí se zemědělským způsobem života nebo s řemeslem. Vybíráni byli hlavně nářeční mluvčí ve věkové kategorii nad 60 let, kteří se narodili v období od konce 19. století až do 1. poloviny 20. století.  Co se týká metodiky sběru dat, praktikují se zásady, které jsou běžné v oblasti české dialektologie. V této fázi získávání nářečního materiálu se přednostně soustředíme na zachycení nejstaršího stavu tradičního teritoriálního dialektu. V případě obou korpusových vrstev se tedy terénní nářeční výzkum zaměřuje výhradně na příslušníky nejstarší generace (zatím neregistrujeme generační rozdíly), aby byly zachyceny původní nářeční rysy. Mluvčími jsou především místní rodáci zpravidla z venkovských lokalit, kteří patřili ke starousedlé vrstvě obyvatelstva, většinou se nestěhovali a byli spjatí se zemědělským způsobem života nebo s řemeslem. Vybíráni byli hlavně nářeční mluvčí ve věkové kategorii nad 60 let, kteří se narodili v období od konce 19. století až do 1. poloviny 20. století. 
  
-Promluvy mají spíše neformální ráz, přestože je explorátoři (nahrávající) vedli s informátory (nářečními mluvčími) formou řízeného rozhovoru – metodou užívanou v dialektologii. Mezi přepsanými nářečními nahrávkami se vyskytuje většinou nepřipravený monologický typ promluvy realizovaný v soukromém domácím prostředí.  Témata promluv souvisí s tradičním venkovským životem a tehdejší světem, jsou tedy spojena se zemědělstvím, řemesly, místními zvyky a tradicemi, lidovým folklorem, dobovými událostmi atp., např. Tkalcovánízakletém hadovi, Začátek II. světové války. V těchto promluvách jsou dochovány dialektismy ze všech jazykových rovin (fonetické a fonologické, morfologické, syntaktické i lexikální).+Nářeční promluvy mají spíše neformální ráz, přestože je explorátoři (nahrávající) vedli s informátory (nářečními mluvčími) formou řízeného rozhovoru – metodou užívanou v dialektologii. Mezi přepsanými nářečními nahrávkami se vyskytuje většinou nepřipravený monologický typ promluvy realizovaný v soukromém domácím prostředí.  Témata promluv souvisí s tradičním venkovským životem a tehdejší světem, jsou tedy spojena se zemědělstvím, řemesly, místními zvyky a tradicemi, lidovým folklorem, dobovými událostmi atp., např. tkalcovánívyprávění o zakletém hadovi, o začátku II. světové války. V těchto promluvách jsou dochovány dialektismy ze všech jazykových rovin (fonetické a fonologické, morfologické, syntaktické i lexikální).
  
 Nářeční korpus má také bohaté sociolingvistické značkování, což bude možné využít i při tvorbě subkorpusů, viz dvě nejspodnější tabulky v oddílu [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|Strukturní atributy mluvených korpusů]]. Nářeční korpus má také bohaté sociolingvistické značkování, což bude možné využít i při tvorbě subkorpusů, viz dvě nejspodnější tabulky v oddílu [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|Strukturní atributy mluvených korpusů]].
  
  
-===== Mapa nářečních oblastí ČR ===== 
  
-{{:cnk:oblasti_ridsi_mod2.jpg?direct&500| Mapa nářečních oblastí ČR}} 
 ====== Zpracování nářečních nahrávek ====== ====== Zpracování nářečních nahrávek ======
  
-Nářeční materiál je v korpusu **DIALEKT** zpracováván tak, že má dvě úrovně přepisu – dialektologickou a ortografickou, viz [[cnk:dialekt:pravidla|transkripční zásady]]. Základní přepis je dialektologický a vychází z pravidel pro přepis vědeckých dialektologických textů. Druhou úroveň přepisu představuje ortografický přepis, blížící se bežné podobě psaných textů, jenž je srovnatelný s obecnými pravidly stanovenými pro mluvené korpusy v Českém národním korpusu (ČNK).+Nářeční materiál je v korpusu **DIALEKT** zpracováván tak, že má dvě úrovně přepisu – dialektologickou a ortografickou, viz [[cnk:dialekt:pravidla|transkripční zásady]]. Základní přepis je dialektologický a vychází z pravidel pro přepis vědeckých dialektologických textů (použité speciální znaky jsou uvedeny v [[cnk:dialekt:archivhlasek|Archivu diferenčních hlásek nářečí českého jazyka]]). Druhou úroveň přepisu představuje ortografický přepis, blížící se bežné podobě psaných textů, jenž je srovnatelný s obecnými pravidly stanovenými pro mluvené korpusy v Českém národním korpusu (ČNK).
 Korpus **DIALEKT** je podobně jako korpus **[[cnk:oral|ORAL]]** a **[[cnk:ortofon|ORTOFON]]** [[cnk:lemtag_mluv|lemmatizovaný a morfologicky označkovaný]]. Vzhledem k velké variabilitě nářečního materiálu a nedostatku trénovacích dat byl ale proces značkování a lemmatizace značně komplikovaný a s vědomím toho je také třeba k výsledku přistupovat. Korpus **DIALEKT** je podobně jako korpus **[[cnk:oral|ORAL]]** a **[[cnk:ortofon|ORTOFON]]** [[cnk:lemtag_mluv|lemmatizovaný a morfologicky označkovaný]]. Vzhledem k velké variabilitě nářečního materiálu a nedostatku trénovacích dat byl ale proces značkování a lemmatizace značně komplikovaný a s vědomím toho je také třeba k výsledku přistupovat.
  
-Při zadání dotazu v korpusovém rozhraní [[manualy:kontext:index|KonText]] se nám zobrazí buď pouze jedna vybraná rovina přepisu, nebo obě roviny současně jako paralelní korpusy stojící vedle sebe. Přitom záleží na nás, kterou rovinu (dialektologickou nebo ortografickou) si zvolíme jako primární. Na té se pak zobrazují všechny funkce korpusu – je možné si pustit po segmentech část nahrávky, nastavit zobrazení dalších informací, [[pojmy:atributy_pozicni|pozičních]] nebo [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|strukturních jednotek a atributů]] atp., viz [[cnk:dialekt:prace|Práce s korpusem Dialekt]].+Při zadání dotazu v korpusovém rozhraní [[manualy:kontext:index|KonText]] se nám zobrazí buď pouze jedna vybraná rovina přepisu, nebo obě roviny současně jako paralelní korpusy stojící vedle sebe. Přitom záleží na nás, kterou rovinu (dialektologickou nebo ortografickou) si zvolíme jako primární. Na té se pak zobrazují všechny funkce korpusu – je možné si pustit po segmentech část nahrávky, nastavit zobrazení dalších informací, [[pojmy:atributy_pozicni|pozičních]] nebo [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|strukturních jednotek a atributů]] atp. Pro zájemce jsou na zvláštní stránce zpracovány [[cnk:dialekt:prace|podrobnosti o práci s korpusem DIALEKT]] (např. řada tipů pro lexikografickou práci nebo práci se subkorpusy).
  
 ===== Poděkování ===== ===== Poděkování =====
Řádek 50: Řádek 50:
 ===== Jak citovat ===== ===== Jak citovat =====
 <WRAP round tip 70%> <WRAP round tip 70%>
-Goláňová, H. – Waclawičová, M. – Komrsková, Z. – Lukeš, D. – Kopřivová, M. – Poukarová, P.: //DIALEKT//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz\\+Goláňová, H. – Waclawičová, M. – Komrsková, Z. – Lukeš, D. – Kopřivová, M. – Poukarová, P.: //DIALEKT: nářeční korpus, verze 1 z 2. 6. 2017//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz\\ 
 + 
 +Komrsková, Z. - Kopřivová, M. - Lukeš, D. - Poukarová, P. - Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897.
  
-Goláňová, H. (2015): A new dialect corpus: DIALEKT. In Katarína Gajdošová - Adriana Žáková (eds.): //Proceedings of the Eight International Conference Slovko 2015 (Natural Language Processing, Corpus Linguistics, Lexicography)//. Lüdenscheid: RAM-Verlag, s. 36-44. ISBN 978-3-942303-32-3.\\+Goláňová, H. (2015): A new dialect corpus: DIALEKT. In Katarína Gajdošová - Adriana Žáková (eds.): //Proceedings of the Eight International Conference Slovko 2015 (Natural Language Processing, Corpus Linguistics, Lexicography)//. Lüdenscheid: RAM-Verlag, 36-44. ISBN 978-3-942303-32-3.\\
  
-Goláňová, H. – Kopřivová, M. – Lukeš, D. – Štěpán, M. (2015): Kartografické a geografické zpracování dat z mluvených korpusů. In //Korpus – gramatika – axiologie//, 11, s. 42-54. ISSN: 1804-137X+Goláňová, H. – Kopřivová, M. – Lukeš, D. – Štěpán, M. (2015): Kartografické a geografické zpracování dat z mluvených korpusů. In //Korpus – gramatika – axiologie//, 11, 42-54. ISSN: 1804-137X
 </WRAP> </WRAP>