AplikaceAplikace
Nastavení

Transkripce v korpusu ORTOFON

Pro přepis sond v korpusu ORTOFON byl použit transkripční program ELAN, jenž umožňuje propojení vícerovňového přepisu se zvukem. Hlavní transkripční zásadou bylo zachytit ve správném pořadí vše, co bylo vysloveno, tj. i nedořečená slova, falešné starty, několikanásobné opakování téhož výrazu, přeřeknutí a jeho opravu.

Pravidla zde popsaná se týkají zdrojových přepisů v programu ELAN (formát EAF), které mohou být poskytnuty na vyžádání. Pro zpřístupnění přes rozhraní KonText byly některé aspekty transkripce upraveny s ohledem na technické požadavky rozhraní a usnadnění vyhledávání. Víc viz Rozdíly anotace korpusu ORTOFON v3 ve vertikále a KonTextu.

Ortografická rovina

Zápis na ortografické rovině se snaží co nejvíce přiblížit tradičnímu zápisu slov dle pravidel pravopisu. Na rozdíl od korpusů řady ORAL se tedy v základním transkriptu nezachycuje zjednodušená či redukovaná výslovnost, pro její zaznamenání slouží fonetická rovina. Následující text shrnuje základní pravidla užívaná na ortografické rovině, podrobnější přehled a srovnání transkripčních pravidel napříč korpusy řady ORAL a ORTOFONem viz v kurzu práce s korpusem.

Jev Příklad
hranice slov převážně se respektují (viz níže):
jo jo jo, že jo
kvantita hlásek dle pravopisu:
myslím, táta
kvalita hlásek dle skutečné realizace:
mlejn, vajco, kúpit
vložená hláska nezachycuje se:
jet, osm
protetické v zachycuje se:
vokno
asimilace hlásek nezachycuje se:
shromáždění, včera
slova začínající j- dle pravopisu:
jsem 1), jméno, jestli
koncovky dle skutečné realizace:
vodjedem po šestý i s malejma dětma
zkratky studoval na ČVUT neboli na ČVUTu
zkratková slova to dývídýčko je k mání
velká písmena pouze u vlastních jmen:
Jana, České Budějovice
responzní zvuky přitakávací hmm
responzní zvuky odmítací emm

Když odpovídá jednomu ortografickému slovu několik zvukových a hranicím mezi nimi spojovníky, rozděluje se na nich ortografické slovo na zvláštní tokeny, aby se omezilo používání rovnítek = na fonetické rovině (viz dále). Spojovníky se přitom mažou, takže např. místo Rakousko-Uhersko jsou dva tokeny Rakousko Uhersko. Jako dva zvláštní tokeny bez spojovníku se uvádějí i složená adjektiva a adverbia, např. rakousko uherský. Slova odpovídající jednomu zvukovému slovu, např. e-mail, zůstávají dohromady, se spojovníkem. V ostatních případech se řídí hranice slov tokenizací podle standardu SYN2020.

V korpusu ORTOFON je použita pauzová interpunkce. Rozlišují se tři druhy pauz:

  • velmi krátká pauza, spíše intonační předěl (méně než 120 ms): voni třeba . no jasně von třeba jako . to u sebe ani nemaj . jako jo nemají to u sebe
  • slyšitelné ticho nebo neverbální zvuk (např. smích, odkašlání) (120 ms - 2 s): a teďka .. najednou to jako přijíždělo .. tak já jsem se tam jako usalašila
  • odmlčení (více než 2 s): neznačí se v ortografické rovině, ale v metajazykové jako dlouhá pauza

Následující tabulka vysvětluje užívání symbolů a značek:

Jev Symbol Popis Příklad
citoslovce bez lexikalizované podoby & oni právě jenom čumí a dělají jenom &
hezitace @ kratší hezitace @
delší hezitace @@
potom bychom pravděpodobně @ .. připravili nějaký seznam
nedořečené, neúplné slovo * na začátku nebo na konci srozumitelné části slova přizpůso* přizpůsobujou
příklonné s, spojka li, typ proň, zaň # značí se křížkem byl#s, ne#li, pro#ň
otázka ? to byl jeho syn ?
neukončené promluvy - vždy na konci repliky ale za moc nestojí ten je nějakej -
přerušení promluvy + značí se na začátku i konci přerušené promluvy mluvčí 1: a nechceš dort ? piškotovej +
mluvčí 2: nechci .. nechci opravdu ne děkuji děkuji
mluvčí 1: + jsem dělala
nesrozumitelný úsek () pokud nerozumíme, v závorce je číslice určující počet odhadovaných slov:
pokud si nejsme slovem jisti, je v závorce dané slovo:
že to bude takový (1) čtverec
a to víš že jdou nějaký slevy . (dát)

V korpusu ORTOFON jsou anonymizovány citlivé údaje stejně jako v korpusech řady ORAL. Anonymizace se netýká jmen známých osobností, názvů ve veřejném prostoru (např. restaurací a kaváren) či místních jmen, pokud si mluvčí anonymizaci výslovně nepřáli. Pro korpus ORTOFON byl seznam anonymizačních zkratek používaných v korpusech řady ORAL upraven:

Anonymizační značka Vysvětlení
NP příjmení
NJ křestní jméno
NN přezdívka
NM místní jméno
NO ostatní vlastní jména
NT poslední dvojčíslí telefonního čísla

Fonetická rovina

Fonetická rovina slouží k zaznamenání toho, co skutečně v nahrávce zaznělo, co a jak mluvčí vyslovil. Zápis využívá běžnou českou abecedu s několika speciálními znaky (viz tabulka níže) a nepředstavuje ani „přísnou“ fonetickou transkripci, ani transkripci dialektologickou. Požadavek na transkripci toho, co bylo skutečně vysloveno, se odráží jak na rovině segmentální, tak rovině suprasegmentální.

Segmentální jevy, které v přepisu zachycujeme

Popis jevu Příklady
asimilace, tj. vzájemné přizpůsobování sousedních souhlásek, a to i přes hranici slov zpěváček → spjeváček
sbírat → zbírat
štěstí → šťesťí i ščesťí
chodník → chodňík i choďňík
ten král → teŋ král

zjednodušená výslovnost souhláskových skupin, a to i přes hranici slov dycky → ždicki i dicki
zvláštní → zvlášňí i zlášňí
llitr → púllitr i pulitr
pást koně → pás koňe

kvantita samohlásek móře vjecí, prosim, jó
sdílené hlásky první slovo končí a druhé začíná stejnou hláskou, ale v realizaci mluvčího je
tato hláska vyslovena jen jednou, sdílení hlásek je naznačeno podtržítkem na konci prvního slova,
hlásku značíme na začátku slova dalšího
Karel Loprais → kare_ loprajs
městys Senohraby → mňesti_ senohrabi

Suprasegmentální jevy, které v přepisu zachycujeme

Popis jevu Příklady ort Příklady fon
přízvukové takty jsou slova, která jsou sdružena pod jedním přízvukem, tvoří na fonetické rovině jedno „zvukové slovo“.
Protože ortografická a fonetická rovina si musí odpovídat,
všechny členy přízvukového taktu sice spojíme, ale na místo jejich hranice vložíme svislici
to je
v tomhle
do háje
tə|e
f|tomle
do|áje
je-li jedno ortograficky psané slovo ve výslovnosti rozděleno do více přízvukových taktů,
jsou tyto takty odděleny rovnítkem, opět se mezi ně nevkládá mezera
paní XY
ČVUT
ČVUT
ČSSD

paňí iks=ipsilon
čé=vé=ú=té
čévéú=té
čéesez=dé

Druhou zásadou fonetického přepisu je důsledná korespondence mezi vrstvou ortografickou a fonetickou. Tedy vše, co je součástí ortografického přepisu, musí být zachováno i na fonetické úrovni – značíme shodně překryvy, pauzy, symboly pro (ne)ukončení replik, zachováváme anonymizační značky, kulaté závorky pro nesrozumitelné úseky, neverbální zvuky ve špičatých závorkách. Co naopak při fonetické transkripci nezachováváme, jsou otazník, spojovník, hvězdička, signalizující nedokončená slova, ani křížek před příklonným s či spojkou li. Požadavku na korespondenci ortografické a fonetické roviny odpovídá i členění na přízvukové takty za pomoci svislítek a rozdělování jednoho ortografického slova do více taktů za pomoci rovnítka (viz výše).

Tabulka grafémů a symbolů, které v přepisech (ne)používáme

Grafémy, které v přepise používáme Grafémy, které v přepise nepoužíváme
á, é, ó, ú ů
i, í (zcela výjimečně y, ý) y, ý
a, e, i, o, u
ě
ə
dvojhlásky au, eu, ou
p, b, m
ɱ
d, t, n
ŋ
ď, ť, ň
k, g
ch, h, ɣ
v (výjimečně w)
f
q
s, z
š, ž
c, ʒ
č, ʒʒ
ř ř̥ (kroužek pod ř značí jeho neznělý protějšek)
r
ŕ
r
l
ł
ĺ
j
x
výjimečně ś
výjimečně ź
výjimečně
výjimečně ć
výjimečně r’

Jiné znaky ve stopě fon:

Používané Nepoužívané
. .. , „“ ᾽ ;
+
-
*
( )
[ ]
#
! ?
@ @@
NP, NJ atd.
<SM> atd.
{ }

Metajazyková rovina

Tato rovina je určena pro zachycení neverbálních projevů mluvčích a doprovodných okolních zvuků. V korpusu ORTOFON byla sjednocena podoba takto zapisovaných poznámek (srov. využití pro hledání v mluvených korpusech řady ORAL), což umožňuje lepší orientaci a vyhledávání.

Jak citovat přepisovací pravidla

Benešová, L. – Komrsková, Z. – Kopřivová, M. – Lukeš, D. – Poukarová, P. – Škarpová, M.: Pravidla transkripce pro korpus ORTOFON. Ústav Českého národního korpusu FF UK, Praha 2012. Dostupné z WWW: https://wiki.korpus.cz/doku.php/cnk:ortofon:pravidla

Poděkování

Za pomoc s přípravou transkripčních pravidel chceme poděkovat především prof. Marii Krčmové z FF MU v Brně, doc. Janu Volínovi, doc. Radku Skarnitzlovi a dr. Lence Weingartové z Fonetického ústavu FF UK.

Související odkazy

1)
Všechny tvary slovesa být se zapisují s j- kromě seš, su, sú, só.