AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Transkripce v korpusu DIALEKT

Pro segmentaci a přepis nahrávek je používán transkripční program ELAN (Wittenburg a kol., 2008). Ten umožnil zpracování dat pomocí dvouúrovňové transkripce - dialektologické (v KonTextu pod názvem dialekt v1 - dial) a ortografické (dialekt v1 - ort).

Dialektologická rovina

Základní přepis je dialektologický, založený na pravidlech pro přepis dialektologických textů. Vychází se přitom především z Pravidel pro vědecký přepis dialektických zápisů českých a slovenských (1951) a dále z Českých nářečních textů (Lamprecht, A. - Michálková, V. ad. 1976) a Dodatků Českého jazykového atlasu (Balhar 2011).

Větná interpunkce a hranice slov jsou zapisovány ve shodě s pravidly českého pravopisu, užívá se běžná syntaktická interpunkce a členící interpunkční znaménka. Na začátku věty či souvětí je vždy malé písmeno. Zvláštní rysy syntaktické stránky mluvených projevů (opakování slov, přiřazování vět a větných úseků apod.) jsou zachyceny zjednodušeně, většinou pouze pomocí interpunkčních znamének, zvláště čárky.

Neukončené výpovědi se označují třemi tečkami připojenými natěsno za poslední slovo. Stejně je označen i případ, kdy je mluvčí přerušen jiným mluvčím, ale ve výpovědi později pokračuje. Třemi tečkami jsou označeny i dlouhé pauzy v rámci promluvy jednoho mluvčího.

Nedořečená slova jsou označena hvězdičkou připojenou ke slovu bez mezery (např. koč* kočka do vody).

Konsonanty i vokály jsou zapisovány tak, jak byly skutečně realizovány, přičemž jsou využívány znaky běžně užívané v dialektologických přepisech (např. Dodatky Českého jazykového atlasu (Balhar 2011)).

Znak Popis hlásky Příklady územního rozšíření Doklad z korpusu DIALEKT
y, ý tvrdé y, ý ve zbytcích okrajové úseky Čech, východní Morava, Slezsko mosý ho namočyť
pozůstatek výslovnosti obouretného w severovýchodočeská nářeční oblast, Zábřezsko vo u̯šecko sem se starala
pozůstatek výslovnosti tvrdého ł Slovácko tak sem ho zebrau̯
široké e centrální podskupina středomoravských nářečí te̮ svíčke̮ me̮ sme nemňele̮
široké o centrální podskupina středomoravských nářečí bo̮chte̮ na plecho̮
ä výrazně široké krátké a Chodsko každej mu ňeco däl
ä́ výrazně široké dlouhé á Chodsko ponejvíc se pekli kolä́če
ḁ̀ výslovnost dlouhého á zaokrouhleně Židlochovicko von nḁ̀m to zebrḁ̀l
ou výslovnost dvojhlásky ou se stupněm zavřenosti Chodsko, Doudlebsko přikrití s takovou plotnou
uu výslovnost dvojhlásky ou se stupněm zavřenosti Chodsko, Doudlebsko to suu souseďí
ej výslovnost dvojhlásky ej se stupněm zavřenosti Chodsko, Doudlebsko na celej tejden
ij výslovnost dvojhlásky ej se stupněm zavřenosti Chodsko, Doudlebsko pořádnij človjek
ǝ redukovaná výslovnost samohlásky severovýchodočeská nářeční oblast;
okraje jihozápadočeské nářeční oblasti, Zábřežsko, Znojemsko
přez ďeravej hərnec
to sə možete məslit
ǝ znělá výslovnost koncové souhlásky severovýchodočeská nářeční oblast to neňí jako teďə
ǝ redukovaná výslovnost samohlásky Chodsko a bǝl tám zase
w obouretné v (většinou v intervokalické pozici) severovýchodočeská nářeční oblast woli nechťeli s chlíwa
ł tvrdé l zejména východomoravská a slezská nářeční oblast mjeła štyry młade
ľ měkké l zejména východomoravská a slezská nářeční oblast chľeba si uďelaľí
ĺ dlouhé slabikotvorné l severovýchodočeská nářeční oblast, Valašsko ohromnej vĺk
ŕ dlouhé slabikotvorné r severovýchodočeská nářeční oblast, Valašsko na tom smŕku
p’, b’, m’, v’ měkké retnice Valašsko a část slezské nářeční oblasti takovi doceła p’ekní
s’, z’, c’, dz’ výslovnost souhlásek palatalizovaně přechodová nářečí česko-polská iz’dz’ dobytko popus’c’ac’
ś, ź, ć, dź polský typ palatalizovaných sykavek přechodová nářečí česko-polská śostra šła na śano
pch, tch, kch aspirace u souhlásek p, t, k Střelínsko (český jazykový ostrov v Polsku) tᶜʰakowá heská kᶜʰupa
ɣ znělé ch zejména Čechy s ťich sirovejɣ bramburú

V přepisech není používán speciální znak ŋ pro velární variantu fonému n, znak ɱ pro labiodentální m ani znaky , pro dz, dž.

Délka vokálů je pokud možno zaznamenávána podle skutečné výslovnosti (např. řikat, vubec, póle). Polodlouhé vokály jsou označovány buď jako dlouhé, nebo jako krátké podle toho, k čemu mají nejblíže. Registruje se i odlišná kvantita daná emfází (např. jé, nó, nemóže) nebo dloužení na konci slova způsobené váháním mluvčího (např. určiťe se to povedé).

Případy, kde se v psaném jazyce užívá grafém ě, jsou zapisovány podle výslovnosti, tj. ďe, ťe, ňe, mňe, příp. podle skutečné výslovnosti mje nebo měkké retnice m´e, např. strašňe ďekujem; mňela ňekolig ďecek. A dále bje, pje, vje, fje, případně měkké retnice p’, b’, m’, v’ (např. dost se mu vjenovala; bježí to dobře).

Případy, kdy v psaném jazyce změkčuje grafém i předcházející souhlásku, jsou přepisovány jako ďi, ďí, ťi, tí, ňi, ňí (např. ďíval se nevraživje; ňigdi tam pořáďňe nebil).

Hlásky y–i jsou zapisovány podle výslovnosti, a proto v přepisech nahrávek např. z východomoravské nářeční oblasti, slezské i dalších je zaznamenávána i výslovnost [y/ý] (např. býk, výborňe).

Původní dlouhé ú je zapisováno podle pravidel běžných v dialektologii (např. sú, majú, se svojú).

Pro redukovanou výslovnost samohlásek (tj. výrazně zkrácenou a jen naznačenou) se používá znak ə.

Protetické v je zapisováno ve shodě s reálnou výslovností (např. von, vopravdu, vobránce).

V odpovídajících nářečních oblastech, např. východomoravské, je zaznamenávána výslovnost měkkého ľ a tvrdého ł.

Asimilace znělosti je zapisována na základě výslovnosti, a to jak uvnitř slova (abyzme), tak asimilace mezislovní (biz bil, z maminkou).

Případy artikulační asimilace a zjednodušování souhláskových skupin jsou zapsány tak, jak byly vysloveny. Zachyceny jsou především ustálené výslovnostní varianty: čtiřka–štiřka–čtirka–štirka; jdu–du; jestli–jesli–jesi–esli, ješťe–ešťe; jinší–inší; sme–zme; kdibi–dibi; kratší–kračí; kterej–kerej; kvůli–kvuli–kuli; lepší–lepčí; ňejakí–nejakí–ňákí; vlasťňe–vlasňe; fšak–šak; vždicki–dicki ad. Všechny zkratky a zkratková slova zapisujeme ve stopě dial s malými písmeny podle toho, jak je mluvčí vyslovil (např. jé zé dé, ale i j z d).

Ortografická rovina

Druhou úroveň přepisu nářečních dat představuje ortografická transkripce, vycházející z obecných pravidel stanovených pro mluvené korpusy ČNK (srov. transkripci v korpusu ORTOFON). Přepis slov se blíží k běžnému ortografickému zápisu (vycházíme ze standardního pravopisu), přičemž zůstávají zachyceny některé rysy mluveného jazyka a regionální prvky.

Dodržuje se spisovná kvantita (i v případě slezského systémového krácení). V původní podobě zůstávají i morfologické jevy, např. koncovky všech typů skloňování (sinoj, perletěj) a časování (nosijó, mosíja). Hláskové rozdíly v kořenech slov kvůli potřebám značkování a lemmatizace sjednocujeme do spisovné podoby (bili, buli, boli, beli, byłi na dialektologické úrovni sjednoceno pod byli na úrovni ortografické, tule, tudle, tuhle sjednoceno pod tuhle). Nářeční nebo regionální lexikum (rulík, trávňica, ostat) se zachovává, a pokud nemá paralelu ve spisovném jazyce, ponechává se i původní hlásková podoba (kútki).

Protetické v je zachováváno. Asimilace znělosti není zaznamenávána a také nejsou registrovány odlišnosti ve výslovnosti souhláskových skupin – tyto případy zachycuje rovina dialektologická.

Geografické názvy jsou na ortografické úrovni přepisu uváděny, kvůli možnostem vyhledávání, ve své spisovné podobě (např. tvaru Holomúca na dialektologické úrovni odpovídá podoba Olomouce na ortografické úrovni).

Na rozdíl od dialektologické úrovně je používána interpunkce pauzová, kterou se označují pauzy a předěly. Pauzou se rozumíme alespoň 120 ms ticha, případně neřečových zvuků jako je nádech apod., v rámci projevu jednoho mluvčího, během nichž promluvu přeruší a následně naváže. Předěl nastává tehdy, kdy posluchač mezi dvěma částmi promluvy pociťuje hranici (z důvodů intonace apod.), aniž by mezi nimi reálně nastala pauza (okamžik ticha / neřečových zvuků). Pauzy jsou tedy dány objektivně, naopak značení předělů je do jisté míry subjektivní. Pauzy v mluveném projevu značíme v přepise dvěma tečkami a předěly tečkou jednou, v obou případech oddělenými mezerou z obou stran. Pauzová interpunkce nám kupříkladu umožňuje zpětně u dialektologické roviny zjistit, proč není realizována předpokládaná mezislovní asimilace znělosti. Ve shodě s dialektologickou úrovní jsou z běžné interpunkce používány jen vykřičník a otazník.

Graficky se vyznačují i případy, kdy je replika jednoho mluvčího přerušena druhým mluvčím, současně se ale nejedná o překryv. To znamená,  že oba mluvčí nemluví současně, první pouze neukončí svou repliku. Takové přerušení zaznamenáváme a rozlišujeme při tom, zda první mluvčí na svou promluvu znovu navázal nebo zda zůstala nedokončena. Přerušení repliky, po kterém mluvčí znovu pokračuje, se označujeme znaménkem plus + (odděleným mezerou) za posledním slovem, které mluvčí pronesl. Znaménko plus je pak zapsáno i před slovo, které navazuje na přerušenou repliku.

V případě, že se přerušený mluvčí po replice druhého mluvčího už ve své promluvě nepokračuje a začne jiné téma, mlčí nebo mluví další mluvčí, označuje se přerušené místo spojovníkem (-) odděleným od posledního slova mezerou.

Pravidla společná pro obě roviny

Některé zásady přepisu platí pro dialektologickou i ortografickou rovinu současně.

Pro zápis neverbálních zvuků se používají symboly či zkratky. V rámci responzních zvuků jde o:
hmm pro souhlasné přitakávací zvuky,
emm pro nesouhlasné odmítací zvuky,
& pro všechny ostatní případy.

Hezitační zvuky označujeme podle délky trvání a oddělujeme je od dalších slov mezerou:
@ kratší,
@@ delší.

Velká písmena se v přepisech používají pouze u vlastních jmen. Příjmení osob v přepisech, které nebyly dříve nikde publikovány (v Českém jazykovém atlase ani jinde), jsou na obou úrovních přepisu kvůli anonymizaci kódována (výjimku tvoří příjmení známých osob, která jsou ponechána v původní podobě). Na základě svých deklinačních typů jsou převedena na některé z následujících příjmení: Novák, Hruška, Král, Tichý, Ševců, Nevole, Poupě, přičemž je věrně zachována vyslovená koncovka. Výběr příjmení vychází z hesel Českého jazykového atlasu, k nim pak byla podle potřeb doplněna další. Podobně byly zakódovány i přezdívky a nahrazeny podle svého deklinačního typu některou z následujících: Zeleňák, Mazal, Červený.

Případy, kdy jsou jednotlivá slova nebo skupiny slov doprovázeny určitou výraznou charakteristikou, jako je např. smích, pláč atd., jsou označeny písmennou zkratkou podle svého druhu. Tyto údaje lze zobrazit v KonTextu po zaškrtnutí <para> a type ve sloupci Struktury v Korpusových nastaveních (v menu pod oddílem Zobrazení). Ve vyhledaném konkordančním řádku se pak objeví takováto charakteristika:
<para type=SP> [ hmm . nevíš ] + </para>.
<para type=SP> označuje začátek úseku s výraznou charakteristikou a zkratka její typ. </para> pak označuje konec tohoto úseku.

Zkratka Význam
CP cizojazyčný projev
CT čtený text
HR záměrné zkomolení nebo jazyková hra
IM imitace, tj. napodobování verbálního projevu
KR s křikem
NH (nápadně) nahlas
PL s pláčem
PP s plnou pusou
PR přeřeknutí
PT (nápadně) potichu
PZ s povzdechem
RC recitováno
RL (nápadně) rychle
SB slabikováno
SM se smíchem
SP šeptem
ZP zpíváno
ZV se zíváním

Špatně srozumitelná slova jsou z obou stran vyznačena charakteristikou <unclear> (začátek je označen výrazem <unclear> a konec </unclear>). V případě, kdy nebylo možné odhadnout, co bylo vysloveno, je alespoň uveden předpokládaný počet vyslovených slov. Tento údaj lze zobrazit v KonTextu po zaškrtnutí <unclear> ve sloupci Struktury v Korpusových nastaveních (v menu pod oddílem Zobrazení). Ve vyhledaném konkordančním řádku se pak objeví takováto charakteristika:
a ji<unclear>lópale̮</unclear>ti ďeťi (odhadnuto slovo lópale̮)
příde<unclear>1</unclear>čeťňík (odhadnut pouze počet nesrozumitelných slov: jedno)

Překryvy, tj. případy, kdy dva mluvčí mluví současně, jsou označeny charakteristikou <overlap> (začátek je označen výrazem <overlap> a konec </overlap>). Ta je vyděluje z obou stran a v promluvě každého mluvčího zvlášť. Tento údaj lze zobrazit v KonTextu po zaškrtnutí <overlap> ve sloupci Struktury v Korpusových nastaveních (v menu pod oddílem Zobrazení). Ve vyhledaném konkordančním řádku se pak objeví takováto charakteristika:
[ kolikrát tři ďňi jí mam . ] + <overlap> [ a co</overlap>… ] + <overlap> + [ tu mam</overlap>ráda . ]
Dialog s překryvem se lépe čte, pokud si v konkordanční řádce klikneme na vyhledaný výraz. Zobrazí se nám pak vyskakovací okno a v něm část dialogu s replikami jednotlivých mluvčích uvedenými pod sebou.

Sabina_193
● kolikrát tři ďňi jí mam .
Nela_194
● <overlap> a co </overlap> …
Sabina_193
● <overlap> tu mam </overlap> ráda .

Související odkazy