Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verze | Následující verzeObě strany příští revize |
cnk:dialekt [2018/05/03 09:05] – [Složení korpusu DIALEKT a sběr dat] martinawaclawicova | cnk:dialekt [2018/05/03 09:09] – [Zpracování nářečních nahrávek] martinawaclawicova |
---|
====== Zpracování nářečních nahrávek ====== | ====== Zpracování nářečních nahrávek ====== |
| |
Nářeční materiál je v korpusu **DIALEKT** zpracováván tak, že má dvě úrovně přepisu – dialektologickou a ortografickou, viz [[cnk:dialekt:pravidla|transkripční zásady]]. Základní přepis je dialektologický a vychází z pravidel pro přepis vědeckých dialektologických textů. Druhou úroveň přepisu představuje ortografický přepis, blížící se bežné podobě psaných textů, jenž je srovnatelný s obecnými pravidly stanovenými pro mluvené korpusy v Českém národním korpusu (ČNK). | Nářeční materiál je v korpusu **DIALEKT** zpracováván tak, že má dvě úrovně přepisu – dialektologickou a ortografickou, viz [[cnk:dialekt:pravidla|transkripční zásady]]. Základní přepis je dialektologický a vychází z pravidel pro přepis vědeckých dialektologických textů (použité speciální znaky jsou uvedeny v [[cnk:dialekt:archivhlasek|Archivu diferenčních hlásek nářečí českého jazyka]]. Druhou úroveň přepisu představuje ortografický přepis, blížící se bežné podobě psaných textů, jenž je srovnatelný s obecnými pravidly stanovenými pro mluvené korpusy v Českém národním korpusu (ČNK). |
Korpus **DIALEKT** je podobně jako korpus **[[cnk:oral|ORAL]]** a **[[cnk:ortofon|ORTOFON]]** [[cnk:lemtag_mluv|lemmatizovaný a morfologicky označkovaný]]. Vzhledem k velké variabilitě nářečního materiálu a nedostatku trénovacích dat byl ale proces značkování a lemmatizace značně komplikovaný a s vědomím toho je také třeba k výsledku přistupovat. | Korpus **DIALEKT** je podobně jako korpus **[[cnk:oral|ORAL]]** a **[[cnk:ortofon|ORTOFON]]** [[cnk:lemtag_mluv|lemmatizovaný a morfologicky označkovaný]]. Vzhledem k velké variabilitě nářečního materiálu a nedostatku trénovacích dat byl ale proces značkování a lemmatizace značně komplikovaný a s vědomím toho je také třeba k výsledku přistupovat. |
| |