Transkripce v korpusu DIALEKT

Pro segmentaci a přepis nahrávek je používán transkripční program ELAN (Wittenburg a kol., 2008). Ten umožnil zpracování dat pomocí dvouúrovňové transkripce - dialektologické (v KonTextu pod názvem dialekt v1 - dial) a ortografické (dialekt v1 - ort).

Dialektologická rovina

Základní přepis je dialektologický, založený na pravidlech pro přepis dialektologických textů. Vychází se přitom především z Pravidel pro vědecký přepis dialektických zápisů českých a slovenských (1951) a dále z Českých nářečních textů (Lamprecht, A. - Michálková, V. ad. 1976) a Dodatků Českého jazykového atlasu (Balhar 2011).

Větná interpunkce a hranice slov jsou zapisovány ve shodě s pravidly českého pravopisu, užívá se běžná syntaktická interpunkce a členící interpunkční znaménka. Na začátku věty či souvětí je vždy malé písmeno. Zvláštní rysy syntaktické stránky mluvených projevů (opakování slov, přiřazování vět a větných úseků apod.) jsou zachyceny zjednodušeně, většinou pouze pomocí interpunkčních znamének, zvláště čárky.

Neukončené výpovědi se označují třemi tečkami připojenými natěsno za poslední slovo. Stejně je označen i případ, kdy je mluvčí přerušen jiným mluvčím, ale ve výpovědi později pokračuje. Třemi tečkami jsou označeny i dlouhé pauzy v rámci promluvy jednoho mluvčího.

Nedořečená slova jsou označena hvězdičkou připojenou ke slovu bez mezery (např. koč*, kočka do vody).

Konsonanty i vokály jsou zapisovány podle zásad pro přepis dialektologických textů s využitím zdrojů uvedených výše, pomocí znaků běžně užívaných v dialektologických přepisech (Archiv diferenčních hlásek nářečí českého jazyka).

V přepisech není používán speciální znak ŋ pro velární variantu fonému n, znak ɱ pro labiodentální m ani znaky , pro dz, dž. Pro znělé ch se užívá znak ɣ.

Délka vokálů je pokud možno zaznamenávána podle skutečné výslovnosti (např. řikat, vubec, póle). Polodlouhé vokály jsou označovány buď jako dlouhé, nebo jako krátké podle toho, k čemu mají nejblíže. Registruje se i odlišná kvantita daná emfází (např. jé, nó, jéžiši) nebo dloužení na konci slova způsobené váháním mluvčího (např. určiťe se to povedé).

Případy, kde se v psaném jazyce užívá grafém ě, jsou zapisovány podle výslovnosti, tj. ďe, ťe, ňe, mňe, příp. podle skutečné výslovnosti mje nebo měkké retnice m´e, např. strašňe ďekujem; mňela ňekolig ďecek. A dále bje, pje, vje, fje, případně měkké retnice p’, b’, m’, v’ (např. dost se mu vjenovala; bježí to dobře).

Případy, kdy v psaném jazyce změkčuje grafém i předcházející souhlásku, jsou přepisovány jako ďi, ďí, ťi, tí, ňi, ňí (např. ďíval se nevraživje; ňigdi tam pořáďňe nebil).

Hlásky y–i jsou zapisovány podle skutečné výslovnosti, a proto v přepisech nahrávek např. z východomoravské nářeční oblasti, slezské i dalších je zaznamenávána též výslovnost [y/ý] (např. býk, výborňe).

Původní dlouhé ú je zapisováno podle pravidel běžných v dialektologii (např. sú, majú, se svojú).

Pro redukovanou výslovnost samohlásek (tj. výrazně zkrácenou a jen naznačenou) se používá znak ə (amərickí). V severovýchodočeské oblasti je redukovaná samohláska pozůstatek průvodního vokálu před l, r (kərk). Tímto symbolem se také označuje znělá výslovnost koncové souhlásky (teďə).

Protetické v je zapisováno ve shodě s reálnou výslovností (např. von, woňi, vopravdu, vobránce).

V odpovídajících nářečních oblastech, např. východomoravské, je zaznamenávána výslovnost měkkého ľ (aľe) a tvrdého ł (był). Zachycujeme rovněž výslovnost středního l.

Zachycujeme i dlouhé slabikotvorné ĺ (sĺp) a ŕ (tŕn, smŕt).

Asimilace znělosti je zapisována na základě výslovnosti, a to jak uvnitř slova (abyzme), tak asimilace mezislovní (biz bil, z maminkou). U mezislovní asimilace mohou nastat případy, kdy není asimilace zachycena proto, že v proudu řeči následuje slovní předěl nebo pauza, vyznačená na ortografické rovině.

Případy artikulační asimilace a zjednodušování souhláskových skupin jsou zapsány tak, jak byly vysloveny. Zachyceny jsou především ustálené výslovnostní varianty: čtiřka–štiřka–čtirka–štirka; jdu–du; jestli–jesli–jesi–esli, ješťe–ešťe; jinší–inší; sme–zme; kdibi–dibi; kratší–kračí; kterej–kerej; kvůli–kvuli–kuli; lepší–lepčí; ňejakí–nejakí–ňákí; vlasťňe–vlasňe; fšak–šak; vždicki–dicki ad. Všechny zkratky a zkratková slova zapisujeme ve stopě dial s malými písmeny podle toho, jak je mluvčí vyslovil (např. jé zé dé, ale i j z d).

Autentickou mluvu mluvčích jsme se snažili zachytit pokud možno přesně, takže by měla odrážet skutečný stav nářečních promluv ve zkoumané lokalitě. Může se stát, že výslovnost hlásek u jednotlivých mluvčích kolísá (např. i/y, ľ/l/ł), což je dáno narušováním a rozvolňováním archaických nářečních rysů. Díky tomuto přístupu užíváme znaky pro trojí l: ľ/l a ł, což je sice v rozporu s jazykovým nářečním systémem, kde se původně vyskytovalo pouze ľ/ł stojící v opozici, a také v rozporu se současnou dialektologickou praxí, kde je pro měkké a střední l užívám pouze jeden znak, a to l. Pokud bychom však na výslovnost měkkého l rezignovali, ztratily by se v nářečním korpusu cenné informace.
Snahu o přesné zaznamenání vyslovených hlásek však komplikuje různorodá výslovnost samohlásek. Soustřeďujeme se pouze na zachycení jevů, které jsou tradičně v dialektologii zaznamenávány. Ze širokých samohlásek zachycujeme jen chodské výrazně široké ä (v krátké i dlouhé podobě), středomoravské široké e̮ a o̮. Zaokrouhlenost dlouhého ḁ̀ evidujeme na Židlochovicku. Úzkou výslovnost, která může mít také regionální charakter, u samohlásek nezachycujeme. Označujeme ji pouze u dvojhlásek ou a ej, vyskytujících se na Chodsku a na Doudlebsku. V některých nářečních nahrávkách, např. ze Slezska, by asi bylo možné vystopovat zbytky nosové výslovnosti samohlásek, ale tu jsme také nezaznamenávali. Nářeční hlásky někdy není jednoduché jednoznačně zapsat, protože jsou realizovány různě a v současné době mnohdy jen ve zbytkových podobách.

Typickou výslovnost nářečních konsonantů a vokálů užívaných v češtině si můžete poslechnout prostřednictvím zvukových ukázek nacházejících se v Archivu diferenčních hlásek nářečí českého jazyka, kde je uveden jejich přepis a kde jsou hlásky zjednodušeně popsány.

Ortografická rovina

Druhou úroveň přepisu nářečních dat představuje ortografická transkripce, vycházející z obecných pravidel stanovených pro mluvené korpusy ČNK (srov. transkripci v korpusu ORTOFON). Přepis slov se blíží k běžnému ortografickému zápisu (vycházíme ze standardního pravopisu), přičemž zůstávají zachyceny některé rysy mluveného jazyka a regionální prvky.

Kvantita hlásek je sjednocena na spisovnou (i v případě slezského systémového krácení). V původní podobě zůstávají morfologické jevy, např. koncovky všech typů skloňování (synoj, perletěj) a časování (nosijó, musíja). Hláskové rozdíly v kořenech slov kvůli potřebám značkování a lemmatizace sjednocujeme do spisovné podoby (bili, buli, boli, beli, byłi na dialektologické úrovni je sjednoceno pod byli na úrovni ortografické, tule, tudle, tuhle sjednoceno pod tuhle). Nářeční nebo regionální lexikum (rulík, trávnica, ostat) se zachovává, a pokud nemá paralelu ve spisovném jazyce, ponechává se i původní hlásková podoba (kútky).

Protetické v je zachováváno. Asimilace znělosti není zaznamenávána a také nejsou registrovány odlišnosti ve výslovnosti souhláskových skupin – tyto případy zachycuje rovina dialektologická.

Geografické názvy jsou kvůli možnostem vyhledávání uváděny na ortografické úrovni přepisu ve své spisovné podobě (např. tvaru Holomúca na dialektologické úrovni odpovídá podoba Olomouce na ortografické úrovni).

Na rozdíl od dialektologické úrovně je používána interpunkce pauzová, kterou se označují pauzy a předěly. Pauzou rozumíme alespoň 120 ms ticha, případně neřečových zvuků, jako je nádech apod., v rámci projevu jednoho mluvčího, během nichž promluvu přeruší a následně naváže. Předěl nastává tehdy, kdy posluchač mezi dvěma částmi promluvy pociťuje hranici (z důvodů intonace apod.), aniž by mezi nimi reálně nastala pauza (okamžik ticha / neřečových zvuků). Pauzy jsou tedy dány objektivně, naopak značení předělů je do jisté míry subjektivní. Pauzy v mluveném projevu značíme v přepise dvěma tečkami a předěly tečkou jednou, v obou případech oddělenými mezerou z obou stran. Pauzová interpunkce nám kupříkladu umožňuje zpětně zjistit, proč není na dialektologické rovině realizována předpokládaná mezislovní asimilace znělosti. Ve shodě s dialektologickou úrovní jsou z běžné interpunkce používány jen vykřičník a otazník.

Graficky se vyznačují i případy, kdy je replika jednoho mluvčího přerušena druhým mluvčím, současně se ale nejedná o překryv. Oba mluvčí nemluví současně, první pouze neukončí svou repliku. Takové přerušení zaznamenáváme a rozlišujeme při tom, zda první mluvčí na svou promluvu později znovu navázal nebo zda zůstala nedokončena. Přerušení repliky, po kterém mluvčí znovu pokračuje, se označujeme znaménkem plus (+) odděleným mezerou za posledním slovem, které mluvčí pronesl. Znaménko plus je pak zapsáno i před slovo, které navazuje na přerušenou repliku.

V případě, že se přerušený mluvčí po replice druhého mluvčího už ve své promluvě nepokračuje a začne jiné téma, mlčí nebo mluví další mluvčí, označuje se přerušené místo spojovníkem (-) odděleným od posledního slova mezerou.

Pravidla společná pro obě roviny

Některé zásady přepisu platí pro dialektologickou i ortografickou rovinu současně.

Pro zápis neverbálních zvuků se používají symboly či zkratky. V rámci responzních zvuků jde o:
hmm pro souhlasné přitakávací zvuky,
emm pro nesouhlasné odmítací zvuky,
& pro všechny ostatní případy.
Znak & se používá i pro citoslovce vyjádřené zvukem, který nelze snadno přepsat slovy (přišel vítr, uďál &).

Hezitační zvuky označujeme podle délky trvání a oddělujeme je od dalších slov mezerou:
@ kratší,
@@ delší.

Velká písmena se v přepisech používají pouze u vlastních jmen. Příjmení osob v přepisech, které nebyly dříve nikde publikovány (v Českém jazykovém atlase ani jinde), jsou na obou úrovních přepisu kvůli anonymizaci kódována (výjimku tvoří příjmení známých osob, která jsou ponechána v původní podobě). Na základě svých deklinačních typů jsou převedena na některé z následujících příjmení: Novák, Hruška, Král, Tichý, Ševců, Nevole, Poupě, přičemž je věrně zachována vyslovená koncovka. Výběr příjmení vychází z hesel Českého jazykového atlasu, k nim pak byla podle potřeb doplněna další. Podobně byly zakódovány i přezdívky a nahrazeny podle svého deklinačního typu některou z následujících: Zeleňák, Mazal, Červený.

Případy, kdy jsou jednotlivá slova nebo skupiny slov doprovázeny určitou výraznou charakteristikou, jako je např. smích, pláč atd., jsou označeny písmennou zkratkou podle svého druhu. Tyto údaje lze zobrazit v KonTextu po zaškrtnutí <para> a type ve sloupci Struktury v Korpusových nastaveních (v menu pod oddílem Zobrazení). Ve vyhledaném konkordančním řádku se pak objeví takováto charakteristika:
<para type=SP> [ hmm . nevíš ] + </para>.
<para type=SP> označuje začátek úseku s výraznou charakteristikou a zkratka její typ, </para> pak označuje konec tohoto úseku.

Zkratka	Význam
CP	cizojazyčný projev
CT	čtený text
HR	záměrné zkomolení nebo jazyková hra
IM	imitace, tj. napodobování verbálního projevu
KR	s křikem
NH	(nápadně) nahlas
PL	s pláčem
PP	s plnou pusou
PR	přeřeknutí
PT	(nápadně) potichu
PZ	s povzdechem
RC	recitováno
RL	(nápadně) rychle
SB	slabikováno
SM	se smíchem
SP	šeptem
ZP	zpíváno
ZV	se zíváním

Špatně srozumitelná slova jsou z obou stran vyznačena charakteristikou <unclear> (začátek je označen výrazem <unclear> a konec </unclear>). V případě, kdy nebylo možné odhadnout, co bylo vysloveno, je alespoň uveden předpokládaný počet vyslovených slov. Tento údaj lze zobrazit v KonTextu po zaškrtnutí <unclear> ve sloupci Struktury v Korpusových nastaveních (v menu pod oddílem Zobrazení). Ve vyhledaném konkordančním řádku se pak objeví takováto charakteristika:
a ji<unclear>lópale̮</unclear>ti ďeťi (odhadnuto slovo lópale̮)
příde<unclear>1</unclear>čeťňík (odhadnut pouze počet nesrozumitelných slov: jedno)

Překryvy, tj. případy, kdy dva mluvčí mluví současně, jsou označeny charakteristikou <overlap> (začátek je označen výrazem <overlap> a konec </overlap>). Ta je vyděluje z obou stran a v promluvě každého mluvčího zvlášť. Tento údaj lze zobrazit v KonTextu po zaškrtnutí <overlap> ve sloupci Struktury v Korpusových nastaveních (v menu pod oddílem Zobrazení). Ve vyhledaném konkordančním řádku se pak objeví takováto charakteristika:
[ kolikrát tři ďňi jí mam . ] + <overlap> [ a co</overlap>… ] + <overlap> + [ tu mam</overlap>ráda . ]
Dialog s překryvem se lépe čte, pokud si v konkordanční řádce klikneme na vyhledaný výraz. Zobrazí se nám pak vyskakovací okno a v něm část dialogu s replikami jednotlivých mluvčích uvedenými pod sebou.

Sabina_193
● kolikrát tři ďňi jí mam .
Nela_194
● <overlap> a co </overlap> …
Sabina_193
● <overlap> tu mam </overlap> ráda .