Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:dialekt [2018/04/03 14:21] – [Složení korpusu DIALEKT a sběr dat] Hana Goláňová | cnk:dialekt [2018/05/03 09:10] – [Zpracování nářečních nahrávek] Martina Waclawičová |
---|
====== Složení korpusu DIALEKT a sběr dat ====== | ====== Složení korpusu DIALEKT a sběr dat ====== |
| |
V korpusu **DIALEKT** jsou zastoupeny všechny nářeční oblasti České republiky, viz [[#Mapa nářečních oblastí ČR]], takže se jedná o jazykový materiál teritoriálně různorodý. Nářeční promluvy z českého, moravského a slezského pohraničí se do sběru dat zatím nepodařilo zařadit. V této chvíli potřebujeme shromáždit především dostatek jazykových dat, proto korpus zatím nevyvažujeme. | V korpusu **DIALEKT** jsou zastoupeny všechny nářeční oblasti České republiky, viz [[cnk:dialekt:mapa|Mapa nářečí českého jazyka]], takže se jedná o jazykový materiál teritoriálně různorodý. Nářeční promluvy z českého, moravského a slezského pohraničí se do sběru dat zatím nepodařilo zařadit. V této chvíli potřebujeme shromáždit především dostatek jazykových dat, proto korpus zatím nevyvažujeme. |
| |
Část starší vrstvy tvoří jazykový materiál získaný sběrem dialektologického oddělení Ústavu pro jazyk český AV ČR, v. v. i., publikovaný v //Dodatcích Českého jazykového atlasu// (Balhar 2011), z něhož pocházejí také nahrávky pořízené na polském území. Zbývající část starší vrstvy tvoří soukromé sběry jednotlivců, které byly také z velké části publikovány. V nové vrstvě korpusu jsou zařazeny vlastní sběry institucí, pocházející zejména z fakult jednotlivých univerzit, soukromé sběry jednotlivců a v neposlední řadě také sběr nářečních sond Ústavu Českého národního korpusu. | Část starší vrstvy tvoří jazykový materiál získaný sběrem dialektologického oddělení Ústavu pro jazyk český AV ČR, v. v. i., publikovaný v //Dodatcích Českého jazykového atlasu// (Balhar 2011), z něhož pocházejí také nahrávky pořízené na polském území. Zbývající část starší vrstvy tvoří soukromé sběry jednotlivců, které byly také z velké části publikovány. V nové vrstvě korpusu jsou zařazeny vlastní sběry institucí, pocházející zejména z fakult jednotlivých univerzit, soukromé sběry jednotlivců a v neposlední řadě také sběr nářečních sond Ústavu Českého národního korpusu. |
| |
| |
===== Mapa nářečních oblastí ČR ===== | |
| |
{{:cnk:oblasti_ridsi_mod2.jpg?direct&500| Mapa nářečních oblastí ČR}} | |
====== Zpracování nářečních nahrávek ====== | ====== Zpracování nářečních nahrávek ====== |
| |
Nářeční materiál je v korpusu **DIALEKT** zpracováván tak, že má dvě úrovně přepisu – dialektologickou a ortografickou, viz [[cnk:dialekt:pravidla|transkripční zásady]]. Základní přepis je dialektologický a vychází z pravidel pro přepis vědeckých dialektologických textů. Druhou úroveň přepisu představuje ortografický přepis, blížící se bežné podobě psaných textů, jenž je srovnatelný s obecnými pravidly stanovenými pro mluvené korpusy v Českém národním korpusu (ČNK). | Nářeční materiál je v korpusu **DIALEKT** zpracováván tak, že má dvě úrovně přepisu – dialektologickou a ortografickou, viz [[cnk:dialekt:pravidla|transkripční zásady]]. Základní přepis je dialektologický a vychází z pravidel pro přepis vědeckých dialektologických textů (použité speciální znaky jsou uvedeny v [[cnk:dialekt:archivhlasek|Archivu diferenčních hlásek nářečí českého jazyka]]). Druhou úroveň přepisu představuje ortografický přepis, blížící se bežné podobě psaných textů, jenž je srovnatelný s obecnými pravidly stanovenými pro mluvené korpusy v Českém národním korpusu (ČNK). |
Korpus **DIALEKT** je podobně jako korpus **[[cnk:oral|ORAL]]** a **[[cnk:ortofon|ORTOFON]]** [[cnk:lemtag_mluv|lemmatizovaný a morfologicky označkovaný]]. Vzhledem k velké variabilitě nářečního materiálu a nedostatku trénovacích dat byl ale proces značkování a lemmatizace značně komplikovaný a s vědomím toho je také třeba k výsledku přistupovat. | Korpus **DIALEKT** je podobně jako korpus **[[cnk:oral|ORAL]]** a **[[cnk:ortofon|ORTOFON]]** [[cnk:lemtag_mluv|lemmatizovaný a morfologicky označkovaný]]. Vzhledem k velké variabilitě nářečního materiálu a nedostatku trénovacích dat byl ale proces značkování a lemmatizace značně komplikovaný a s vědomím toho je také třeba k výsledku přistupovat. |
| |