Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
Poslední revize Obě strany příští revize
cnk:dialekt [2018/05/02 08:48]
Martina Waclawičová [Složení korpusu DIALEKT a sběr dat]
cnk:dialekt [2018/05/03 09:12]
Martina Waclawičová [Zpracování nářečních nahrávek]
Řádek 19: Řádek 19:
 ====== Složení korpusu DIALEKT a sběr dat ====== ====== Složení korpusu DIALEKT a sběr dat ======
  
-V korpusu **DIALEKT** jsou zastoupeny všechny nářeční oblasti České republiky, viz [[cnk:​dialekt:​mapa|Mapa nářečních oblastí České republiky]], takže se jedná o jazykový materiál teritoriálně různorodý. Nářeční promluvy z českého, moravského a slezského pohraničí se do sběru dat zatím nepodařilo zařadit. V této chvíli potřebujeme shromáždit především dostatek jazykových dat, proto korpus zatím nevyvažujeme.+V korpusu **DIALEKT** jsou zastoupeny všechny nářeční oblasti České republiky, viz [[cnk:​dialekt:​mapa|Mapa nářečí českého jazyka]], takže se jedná o jazykový materiál teritoriálně různorodý. Nářeční promluvy z českého, moravského a slezského pohraničí se do sběru dat zatím nepodařilo zařadit. V této chvíli potřebujeme shromáždit především dostatek jazykových dat, proto korpus zatím nevyvažujeme.
  
 Část starší vrstvy tvoří jazykový materiál získaný sběrem dialektologického oddělení Ústavu pro jazyk český AV ČR, v. v. i., publikovaný v //​Dodatcích Českého jazykového atlasu// (Balhar 2011), z něhož pocházejí také nahrávky pořízené na polském území. Zbývající část starší vrstvy tvoří soukromé sběry jednotlivců,​ které byly také z velké části publikovány. V nové vrstvě korpusu jsou zařazeny vlastní sběry institucí, pocházející zejména z fakult jednotlivých univerzit, soukromé sběry jednotlivců a v neposlední řadě také sběr nářečních sond Ústavu Českého národního korpusu. ​ Část starší vrstvy tvoří jazykový materiál získaný sběrem dialektologického oddělení Ústavu pro jazyk český AV ČR, v. v. i., publikovaný v //​Dodatcích Českého jazykového atlasu// (Balhar 2011), z něhož pocházejí také nahrávky pořízené na polském území. Zbývající část starší vrstvy tvoří soukromé sběry jednotlivců,​ které byly také z velké části publikovány. V nové vrstvě korpusu jsou zařazeny vlastní sběry institucí, pocházející zejména z fakult jednotlivých univerzit, soukromé sběry jednotlivců a v neposlední řadě také sběr nářečních sond Ústavu Českého národního korpusu. ​
Řádek 33: Řádek 33:
 ====== Zpracování nářečních nahrávek ====== ====== Zpracování nářečních nahrávek ======
  
-Nářeční materiál je v korpusu **DIALEKT** zpracováván tak, že má dvě úrovně přepisu – dialektologickou a ortografickou,​ viz [[cnk:​dialekt:​pravidla|transkripční zásady]]. Základní přepis je dialektologický a vychází z pravidel pro přepis vědeckých dialektologických textů. Druhou úroveň přepisu představuje ortografický přepis, blížící se bežné podobě psaných textů, jenž je srovnatelný s obecnými pravidly stanovenými pro mluvené korpusy v Českém národním korpusu (ČNK).+Nářeční materiál je v korpusu **DIALEKT** zpracováván tak, že má dvě úrovně přepisu – dialektologickou a ortografickou,​ viz [[cnk:​dialekt:​pravidla|transkripční zásady]]. Základní přepis je dialektologický a vychází z pravidel pro přepis vědeckých dialektologických textů ​(použité speciální znaky jsou uvedeny v [[cnk:​dialekt:​archivhlasek|Archivu diferenčních hlásek nářečí českého jazyka]]). Druhou úroveň přepisu představuje ortografický přepis, blížící se bežné podobě psaných textů, jenž je srovnatelný s obecnými pravidly stanovenými pro mluvené korpusy v Českém národním korpusu (ČNK).
 Korpus **DIALEKT** je podobně jako korpus **[[cnk:​oral|ORAL]]** a **[[cnk:​ortofon|ORTOFON]]** [[cnk:​lemtag_mluv|lemmatizovaný a morfologicky označkovaný]]. Vzhledem k velké variabilitě nářečního materiálu a nedostatku trénovacích dat byl ale proces značkování a lemmatizace značně komplikovaný a s vědomím toho je také třeba k výsledku přistupovat. Korpus **DIALEKT** je podobně jako korpus **[[cnk:​oral|ORAL]]** a **[[cnk:​ortofon|ORTOFON]]** [[cnk:​lemtag_mluv|lemmatizovaný a morfologicky označkovaný]]. Vzhledem k velké variabilitě nářečního materiálu a nedostatku trénovacích dat byl ale proces značkování a lemmatizace značně komplikovaný a s vědomím toho je také třeba k výsledku přistupovat.
  
-Při zadání dotazu v korpusovém rozhraní [[manualy:​kontext:​index|KonText]] se nám zobrazí buď pouze jedna vybraná rovina přepisu, nebo obě roviny současně jako paralelní korpusy stojící vedle sebe. Přitom záleží na nás, kterou rovinu (dialektologickou nebo ortografickou) si zvolíme jako primární. Na té se pak zobrazují všechny funkce korpusu – je možné si pustit po segmentech část nahrávky, nastavit zobrazení dalších informací, [[pojmy:​atributy_pozicni|pozičních]] nebo [[pojmy:​atributy_strukturni#​strukturni_atributy_mluvenych_korpusu|strukturních jednotek a atributů]] atp. Pro zájemce jsou na zvláštní stránce zpracovány ​**[[cnk:​dialekt:​prace|podrobnosti o práci s korpusem DIALEKT]]** (např. řada tipů pro lexikografickou práci nebo práci se subkorpusy).+Při zadání dotazu v korpusovém rozhraní [[manualy:​kontext:​index|KonText]] se nám zobrazí buď pouze jedna vybraná rovina přepisu, nebo obě roviny současně jako paralelní korpusy stojící vedle sebe. Přitom záleží na nás, kterou rovinu (dialektologickou nebo ortografickou) si zvolíme jako primární. Na té se pak zobrazují všechny funkce korpusu – je možné si pustit po segmentech část nahrávky, nastavit zobrazení dalších informací, [[pojmy:​atributy_pozicni|pozičních]] nebo [[pojmy:​atributy_strukturni#​strukturni_atributy_mluvenych_korpusu|strukturních jednotek a atributů]] atp. Pro zájemce jsou na zvláštní stránce zpracovány [[cnk:​dialekt:​prace|podrobnosti o práci s korpusem DIALEKT]] (např. řada tipů pro lexikografickou práci nebo práci se subkorpusy).
  
 ===== Poděkování ===== ===== Poděkování =====