====== Transkripce v korpusu DIALEKT ====== Pro segmentaci a přepis nahrávek je používán transkripční program [[https://tla.mpi.nl/tools/tla-tools/elan/|ELAN]] (Wittenburg a kol., 2008). Ten umožnil zpracování dat pomocí dvouúrovňové transkripce - [[#Dialektologická rovina|dialektologické]] (v KonTextu pod názvem dialekt v1 - dial) a [[#Ortografická rovina|ortografické]] (dialekt v1 - ort). ====== Dialektologická rovina ====== Základní přepis je **dialektologický**, založený na pravidlech pro přepis dialektologických textů. Vychází se přitom především z //Pravidel pro vědecký přepis dialektických zápisů českých a slovenských// (1951) a dále z //Českých nářečních textů// (Lamprecht, A. - Michálková, V. ad. 1976) a //Dodatků Českého jazykového atlasu// (Balhar 2011). **Větná interpunkce a hranice slov** jsou zapisovány ve shodě s pravidly českého pravopisu, užívá se běžná syntaktická interpunkce a členící interpunkční znaménka. Na začátku věty či souvětí je vždy malé písmeno. Zvláštní rysy syntaktické stránky mluvených projevů (opakování slov, přiřazování vět a větných úseků apod.) jsou zachyceny zjednodušeně, většinou pouze pomocí interpunkčních znamének, zvláště čárky. **Neukončené výpovědi** se označují třemi tečkami připojenými natěsno za poslední slovo. Stejně je označen i případ, kdy je mluvčí přerušen jiným mluvčím, ale ve výpovědi později pokračuje. Třemi tečkami jsou označeny i dlouhé pauzy v rámci promluvy jednoho mluvčího. **Nedořečená slova** jsou označena hvězdičkou připojenou ke slovu bez mezery (např. //koč*, kočka do vody//). **Konsonanty i vokály** jsou zapisovány podle zásad pro přepis dialektologických textů s využitím zdrojů uvedených výše, pomocí znaků běžně užívaných v dialektologických přepisech ([[cnk:dialekt:archivhlasek|Archiv diferenčních hlásek nářečí českého jazyka]]). V přepisech není používán speciální znak //ŋ// pro velární variantu fonému //n//, znak //ɱ// pro labiodentální //m// ani znaky {{:cnk:dialekt:6vystrizek.jpg?19x19|}}, {{:cnk:dialekt:7vystrizek.jpg?19x19|}} pro //dz//, //dž//. Pro znělé //ch// se užívá znak //ɣ//. **Délka vokálů** je pokud možno zaznamenávána podle skutečné výslovnosti (např. //řikat, vubec, póle//). Polodlouhé vokály jsou označovány buď jako dlouhé, nebo jako krátké podle toho, k čemu mají nejblíže. Registruje se i odlišná kvantita daná emfází (např. //jé, nó, jéžiši//) nebo dloužení na konci slova způsobené váháním mluvčího (např. //určiťe se to povedé//). Případy, kde se v psaném jazyce užívá **grafém ě**, jsou zapisovány podle výslovnosti, tj. //ďe, ťe, ňe, mňe//, příp. podle skutečné výslovnosti //mje// nebo měkké retnice //m´e//, např. //strašňe ďekujem; mňela ňekolig ďecek//. A dále //bje, pje, vje, fje//, případně měkké retnice //p’, b’, m’, v’// (např. //dost se mu vjenovala; bježí to dobře//). Případy, kdy v psaném jazyce změkčuje **grafém i** předcházející souhlásku, jsou přepisovány jako //ďi, ďí, ťi, tí, ňi, ňí// (např. //ďíval se nevraživje; ňigdi tam pořáďňe nebil//). **Hlásky //y–i//** jsou zapisovány podle skutečné výslovnosti, a proto v přepisech nahrávek např. z východomoravské nářeční oblasti, slezské i dalších je zaznamenávána též výslovnost [y/ý] (např. //býk, výborňe//). Původní **dlouhé ú** je zapisováno podle pravidel běžných v dialektologii (např. //sú, majú, se svojú//). Pro **redukovanou výslovnost** samohlásek (tj. výrazně zkrácenou a jen naznačenou) se používá znak **//ə//** (//amərickí//). V severovýchodočeské oblasti je redukovaná samohláska pozůstatek průvodního vokálu před l, r (//kərk//). Tímto symbolem se také označuje **znělá výslovnost koncové souhlásky** (//teďə//). **Protetické //v//** je zapisováno ve shodě s reálnou výslovností (např. //von, woňi, vopravdu, vobránce//). V odpovídajících nářečních oblastech, např. východomoravské, je zaznamenávána výslovnost **měkkého //ľ//** (//aľe//) a **tvrdého //ł//** (//był//). Zachycujeme rovněž výslovnost **středního //l//**. Zachycujeme i **dlouhé slabikotvorné //ĺ//** (//sĺp//) a **//ŕ//** (//tŕn, smŕt//). **Asimilace znělosti** je zapisována na základě výslovnosti, a to jak uvnitř slova (//abyzme//), tak asimilace mezislovní (//biz bil, z maminkou//). U mezislovní asimilace mohou nastat případy, kdy není asimilace zachycena proto, že v proudu řeči následuje slovní předěl nebo pauza, vyznačená na ortografické rovině. Případy **artikulační asimilace a zjednodušování souhláskových skupin** jsou zapsány tak, jak byly vysloveny. Zachyceny jsou především ustálené výslovnostní varianty: //čtiřka–štiřka–čtirka–štirka; jdu–du; jestli–jesli–jesi–esli, ješťe–ešťe; jinší–inší; sme–zme; kdibi–dibi; kratší–kračí; kterej–kerej; kvůli–kvuli–kuli; lepší–lepčí; ňejakí–nejakí–ňákí; vlasťňe–vlasňe; fšak–šak; vždicki–dicki// ad. Všechny zkratky a zkratková slova zapisujeme ve stopě dial s malými písmeny podle toho, jak je mluvčí vyslovil (např. //jé zé dé//, ale i //j z d//). Autentickou mluvu mluvčích jsme se snažili **zachytit pokud možno přesně**, takže by měla odrážet **skutečný stav nářečních promluv ve zkoumané lokalitě**. Může se stát, že výslovnost hlásek u jednotlivých mluvčích kolísá (např. //i/y//, //ľ/l/ł//), což je dáno narušováním a rozvolňováním archaických nářečních rysů. Díky tomuto přístupu užíváme znaky pro trojí //l//: //ľ/l// a //ł//, což je sice v rozporu s jazykovým nářečním systémem, kde se původně vyskytovalo pouze //ľ/ł// stojící v opozici, a také v rozporu se současnou dialektologickou praxí, kde je pro měkké a střední //l// užívám pouze jeden znak, a to //l//. Pokud bychom však na výslovnost měkkého //l// rezignovali, ztratily by se v nářečním korpusu cenné informace.\\ Snahu o přesné zaznamenání vyslovených hlásek však komplikuje různorodá výslovnost samohlásek. Soustřeďujeme se pouze na zachycení jevů, které jsou tradičně v dialektologii zaznamenávány. Ze **širokých samohlásek** zachycujeme jen chodské výrazně široké **//ä//** (v krátké i dlouhé podobě), středomoravské široké **//e̮//** a **//o̮//**. **Zaokrouhlenost dlouhého //ḁ̀ //** evidujeme na Židlochovicku. **Úzkou výslovnost**, která může mít také regionální charakter, u samohlásek nezachycujeme. Označujeme ji pouze u **dvojhlásek //ou//** a **//ej//**, vyskytujících se na Chodsku a na Doudlebsku. V některých nářečních nahrávkách, např. ze Slezska, by asi bylo možné vystopovat zbytky nosové výslovnosti samohlásek, ale tu jsme také nezaznamenávali. Nářeční hlásky někdy není jednoduché jednoznačně zapsat, protože jsou realizovány různě a v současné době mnohdy jen ve zbytkových podobách. **Typickou výslovnost nářečních konsonantů a vokálů užívaných v češtině** si můžete poslechnout prostřednictvím zvukových ukázek nacházejících se v [[cnk:dialekt:archivhlasek|Archivu diferenčních hlásek nářečí českého jazyka]], kde je uveden jejich přepis a kde jsou hlásky zjednodušeně popsány. ====== Ortografická rovina ====== Druhou úroveň přepisu nářečních dat představuje **ortografická transkripce**, vycházející z obecných pravidel stanovených pro mluvené korpusy ČNK (srov. [[cnk:ortofon:pravidla|transkripci v korpusu ORTOFON]]). Přepis slov se blíží k běžnému ortografickému zápisu (vycházíme ze standardního pravopisu), přičemž zůstávají zachyceny některé rysy mluveného jazyka a regionální prvky. **Kvantita** hlásek je sjednocena na spisovnou (i v případě slezského systémového krácení). V původní podobě zůstávají **morfologické jevy**, např. koncovky všech typů skloňování (//synoj, perletěj//) a časování (//nosijó, musíja//). **Hláskové rozdíly** v kořenech slov kvůli potřebám značkování a lemmatizace sjednocujeme do spisovné podoby (//bili, buli, boli, beli, byłi// na dialektologické úrovni je sjednoceno pod //byli// na úrovni ortografické, //tule, tudle, tuhle// sjednoceno pod //tuhle//). Nářeční nebo regionální **lexikum** (//rulík, trávnica, ostat//) se zachovává, a pokud nemá paralelu ve spisovném jazyce, ponechává se i původní hlásková podoba (//kútky//). **Protetické //v//** je zachováváno. **Asimilace znělosti** není zaznamenávána a také nejsou registrovány odlišnosti ve výslovnosti **souhláskových skupin** – tyto případy zachycuje rovina dialektologická. **Geografické názvy** jsou kvůli možnostem vyhledávání uváděny na ortografické úrovni přepisu ve své spisovné podobě (např. tvaru //Holomúca// na dialektologické úrovni odpovídá podoba //Olomouce// na ortografické úrovni). Na rozdíl od dialektologické úrovně je používána **interpunkce pauzová**, kterou se označují pauzy a předěly. **Pauzou** rozumíme alespoň 120 ms ticha, případně neřečových zvuků, jako je nádech apod., v rámci projevu jednoho mluvčího, během nichž promluvu přeruší a následně naváže. **Předěl** nastává tehdy, kdy posluchač mezi dvěma částmi promluvy pociťuje hranici (z důvodů intonace apod.), aniž by mezi nimi reálně nastala pauza (okamžik ticha / neřečových zvuků). Pauzy jsou tedy dány objektivně, naopak značení předělů je do jisté míry subjektivní. Pauzy v mluveném projevu značíme v přepise dvěma tečkami a předěly tečkou jednou, v obou případech oddělenými mezerou z obou stran. Pauzová interpunkce nám kupříkladu umožňuje zpětně zjistit, proč není na dialektologické rovině realizována předpokládaná mezislovní asimilace znělosti. Ve shodě s dialektologickou úrovní jsou z běžné interpunkce používány jen vykřičník a otazník. Graficky se vyznačují i případy, kdy je replika jednoho mluvčího **přerušena** druhým mluvčím, současně se ale nejedná o překryv. Oba mluvčí nemluví současně, první pouze neukončí svou repliku. Takové přerušení zaznamenáváme a rozlišujeme při tom, zda první mluvčí na svou promluvu později znovu navázal nebo zda zůstala nedokončena. Přerušení repliky, po kterém mluvčí znovu **pokračuje**, se označujeme znaménkem plus (//+//) odděleným mezerou za posledním slovem, které mluvčí pronesl. Znaménko plus je pak zapsáno i před slovo, které navazuje na přerušenou repliku. V případě, že se přerušený mluvčí po replice druhého mluvčího už ve své promluvě **nepokračuje** a začne jiné téma, mlčí nebo mluví další mluvčí, označuje se přerušené místo spojovníkem (//-//) odděleným od posledního slova mezerou. ====== Pravidla společná pro obě roviny ====== Některé zásady přepisu platí pro dialektologickou i ortografickou rovinu současně. Pro zápis **neverbálních zvuků** se používají symboly či zkratky. V rámci **responzních zvuků** jde o:\\ **//hmm//** pro souhlasné přitakávací zvuky,\\ **//emm//** pro nesouhlasné odmítací zvuky,\\ **//&//** pro všechny ostatní případy.\\ Znak //&// se používá i pro citoslovce vyjádřené zvukem, který nelze snadno přepsat slovy (//přišel vítr, uďál &//). **Hezitační zvuky** označujeme podle délky trvání a oddělujeme je od dalších slov mezerou:\\ **//@//** kratší,\\ **//@@//** delší.\\ **Velká písmena** se v přepisech používají pouze u vlastních jmen. Příjmení osob v přepisech, které nebyly dříve nikde publikovány (v //Českém jazykovém atlase// ani jinde), jsou na obou úrovních přepisu kvůli **anonymizaci** kódována (výjimku tvoří příjmení známých osob, která jsou ponechána v původní podobě). Na základě svých deklinačních typů jsou převedena na některé z následujících příjmení: **//Novák, Hruška, Král, Tichý, Ševců, Nevole, Poupě//**, přičemž je věrně zachována vyslovená koncovka. Výběr příjmení vychází z hesel //Českého jazykového atlasu//, k nim pak byla podle potřeb doplněna další. Podobně byly zakódovány i přezdívky a nahrazeny podle svého deklinačního typu některou z následujících: **//Zeleňák, Mazal, Červený//**. Případy, kdy jsou jednotlivá slova nebo skupiny slov doprovázeny určitou **výraznou charakteristikou**, jako je např. smích, pláč atd., jsou označeny písmennou zkratkou podle svého druhu. Tyto údaje lze zobrazit v KonTextu po zaškrtnutí **** a **type** ve sloupci Struktury v Korpusových nastaveních (v menu pod oddílem Zobrazení). Ve vyhledaném konkordančním řádku se pak objeví takováto charakteristika:\\ // [ hmm . nevíš ] + //.\\ //// označuje začátek úseku s výraznou charakteristikou a zkratka její typ, //// pak označuje konec tohoto úseku. ^ Zkratka ^ Význam ^ | **CP** | cizojazyčný projev | | **CT** | čtený text | | **HR** | záměrné zkomolení nebo jazyková hra\\ | | **IM** | imitace, tj. napodobování verbálního projevu | | **KR** | s křikem | | **NH** | (nápadně) nahlas | | **PL** | s pláčem | | **PP** | s plnou pusou | | **PR** | přeřeknutí | | **PT** | (nápadně) potichu | | **PZ** | s povzdechem | | **RC** | recitováno | | **RL** | (nápadně) rychle | | **SB** | slabikováno | | **SM** | se smíchem | | **SP** | šeptem | | **ZP** | zpíváno | | **ZV** | se zíváním | **Špatně srozumitelná** slova jsou z obou stran vyznačena charakteristikou **** (začátek je označen výrazem //// a konec ////). V případě, kdy nebylo možné odhadnout, co bylo vysloveno, je alespoň uveden předpokládaný počet vyslovených slov. Tento údaj lze zobrazit v KonTextu po zaškrtnutí **** ve sloupci Struktury v Korpusových nastaveních (v menu pod oddílem Zobrazení). Ve vyhledaném konkordančním řádku se pak objeví takováto charakteristika:\\ //a jilópale̮ti ďeťi// (odhadnuto slovo //lópale̮//)\\ //příde1čeťňík// (odhadnut pouze počet nesrozumitelných slov: jedno)\\ **Překryvy**, tj. případy, kdy dva mluvčí mluví současně, jsou označeny charakteristikou **** (začátek je označen výrazem //// a konec ////). Ta je vyděluje z obou stran a v promluvě každého mluvčího zvlášť. Tento údaj lze zobrazit v KonTextu po zaškrtnutí **** ve sloupci Struktury v Korpusových nastaveních (v menu pod oddílem Zobrazení). Ve vyhledaném konkordančním řádku se pak objeví takováto charakteristika:\\ //[ kolikrát tři ďňi jí mam . ] + [ a co... ] + + [ tu mamráda . ]//\\ Dialog s překryvem se lépe čte, pokud si v konkordanční řádce klikneme na vyhledaný výraz. Zobrazí se nám pak vyskakovací okno a v něm část dialogu s replikami jednotlivých mluvčích uvedenými pod sebou.\\ //Sabina_193\\ ● kolikrát tři ďňi jí mam . \\ Nela_194\\ ● a co ...\\ Sabina_193\\ ● tu mam ráda .//\\ ===== Související odkazy ===== [[cnk:dialekt|DIALEKT]] • [[cnk:dialekt:prace|Práce s korpusem DIALEKT]] • [[cnk:ortofon|ORTOFON]] • [[cnk:struktura#korpusy_mluvene|Mluvené korpusy]] • [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|Strukturní atributy mluvených korpusů]]