Transkripce v korpusu ORTOFON

Pro přepis sond v korpusu ORTOFON byl použit transkripční program ELAN, jenž umožňuje propojení vícerovňového přepisu se zvukem. Hlavní transkripční zásadou bylo zachytit ve správném pořadí vše, co bylo vysloveno, tj. i nedořečená slova, falešné starty, několikanásobné opakování téhož výrazu, přeřeknutí a jeho opravu.

Pravidla zde popsaná se týkají zdrojových přepisů v programu ELAN (formát EAF), které mohou být poskytnuty na vyžádání. Pro zpřístupnění přes rozhraní KonText byly některé aspekty transkripce upraveny s ohledem na technické požadavky rozhraní a usnadnění vyhledávání. Víc viz Rozdíly anotace korpusu ORTOFON v3 ve vertikále a KonTextu.

Ortografická rovina

Zápis na ortografické rovině se snaží co nejvíce přiblížit tradičnímu zápisu slov dle pravidel pravopisu. Na rozdíl od korpusů řady ORAL se tedy v základním transkriptu nezachycuje zjednodušená či redukovaná výslovnost, pro její zaznamenání slouží fonetická rovina. Následující text shrnuje základní pravidla užívaná na ortografické rovině, podrobnější přehled a srovnání transkripčních pravidel napříč korpusy řady ORAL a ORTOFONem viz v kurzu práce s korpusem.

Jev	Příklad
hranice slov	převážně se respektují (viz níže): jo jo jo, že jo
kvantita hlásek	dle pravopisu: myslím, táta
kvalita hlásek	dle skutečné realizace: mlejn, vajco, kúpit
vložená hláska	nezachycuje se: jet, osm
protetické v	zachycuje se: vokno
asimilace hlásek	nezachycuje se: shromáždění, včera
slova začínající j-	dle pravopisu: jsem ¹⁾, jméno, jestli
koncovky	dle skutečné realizace: vodjedem po šestý i s malejma dětma
zkratky	studoval na ČVUT neboli na ČVUTu
zkratková slova	to dývídýčko je k mání
velká písmena	pouze u vlastních jmen: Jana, České Budějovice
responzní zvuky přitakávací	hmm
responzní zvuky odmítací	emm

Když odpovídá jednomu ortografickému slovu několik zvukových a hranicím mezi nimi spojovníky, rozděluje se na nich ortografické slovo na zvláštní tokeny, aby se omezilo používání rovnítek = na fonetické rovině (viz dále). Spojovníky se přitom mažou, takže např. místo Rakousko-Uhersko jsou dva tokeny Rakousko Uhersko. Jako dva zvláštní tokeny bez spojovníku se uvádějí i složená adjektiva a adverbia, např. rakousko uherský. Slova odpovídající jednomu zvukovému slovu, např. e-mail, zůstávají dohromady, se spojovníkem. V ostatních případech se řídí hranice slov tokenizací podle standardu SYN2020.

V korpusu ORTOFON je použita pauzová interpunkce. Rozlišují se tři druhy pauz:

velmi krátká pauza, spíše intonační předěl (méně než 120 ms): voni třeba . no jasně von třeba jako . to u sebe ani nemaj . jako jo nemají to u sebe
slyšitelné ticho nebo neverbální zvuk (např. smích, odkašlání) (120 ms - 2 s): a teďka .. najednou to jako přijíždělo .. tak já jsem se tam jako usalašila
odmlčení (více než 2 s): neznačí se v ortografické rovině, ale v metajazykové jako dlouhá pauza

Následující tabulka vysvětluje užívání symbolů a značek:

Jev	Symbol	Popis	Příklad
citoslovce bez lexikalizované podoby	`&`		oni právě jenom čumí a dělají jenom &
hezitace	`@`	kratší hezitace `@` delší hezitace `@@`	potom bychom pravděpodobně @ .. připravili nějaký seznam
nedořečené, neúplné slovo	`*`	na začátku nebo na konci srozumitelné části slova	přizpůso přizpůsobujou*
příklonné s, spojka li, typ proň, zaň	`#`	značí se křížkem	byl#s, ne#li, pro#ň
otázka	`?`		to byl jeho syn ?
neukončené promluvy	`-`	vždy na konci repliky	ale za moc nestojí ten je nějakej -
přerušení promluvy	`+`	značí se na začátku i konci přerušené promluvy	mluvčí 1: a nechceš dort ? piškotovej + mluvčí 2: nechci .. nechci opravdu ne děkuji děkuji mluvčí 1: + jsem dělala
nesrozumitelný úsek	`()`	pokud nerozumíme, v závorce je číslice určující počet odhadovaných slov: pokud si nejsme slovem jisti, je v závorce dané slovo:	že to bude takový (1) čtverec a to víš že jdou nějaký slevy . (dát)

V korpusu ORTOFON jsou anonymizovány citlivé údaje stejně jako v korpusech řady ORAL. Anonymizace se netýká jmen známých osobností, názvů ve veřejném prostoru (např. restaurací a kaváren) či místních jmen, pokud si mluvčí anonymizaci výslovně nepřáli. Pro korpus ORTOFON byl seznam anonymizačních zkratek používaných v korpusech řady ORAL upraven:

Anonymizační značka	Vysvětlení
`NP`	příjmení
`NJ`	křestní jméno
`NN`	přezdívka
`NM`	místní jméno
`NO`	ostatní vlastní jména
`NT`	poslední dvojčíslí telefonního čísla

Fonetická rovina

Fonetická rovina slouží k zaznamenání toho, co skutečně v nahrávce zaznělo, co a jak mluvčí vyslovil. Zápis využívá běžnou českou abecedu s několika speciálními znaky (viz tabulka níže) a nepředstavuje ani „přísnou“ fonetickou transkripci, ani transkripci dialektologickou. Požadavek na transkripci toho, co bylo skutečně vysloveno, se odráží jak na rovině segmentální, tak rovině suprasegmentální.

Segmentální jevy, které v přepisu zachycujeme

Popis jevu	Příklady
asimilace, tj. vzájemné přizpůsobování sousedních souhlásek, a to i přes hranici slov	zpěváček → spjeváček sbírat → zbírat štěstí → šťesťí i ščesťí chodník → chodňík i choďňík ten král → teŋ král
zjednodušená výslovnost souhláskových skupin, a to i přes hranici slov	vždycky → ždicki i dicki zvláštní → zvlášňí i zlášňí půllitr → púllitr i pulitr pást koně → pás koňe
kvantita samohlásek	móře vjecí, prosim, jó
sdílené hlásky první slovo končí a druhé začíná stejnou hláskou, ale v realizaci mluvčího je tato hláska vyslovena jen jednou, sdílení hlásek je naznačeno podtržítkem na konci prvního slova, hlásku značíme na začátku slova dalšího	Karel Loprais → kare_ loprajs městys Senohraby → mňesti_ senohrabi

Suprasegmentální jevy, které v přepisu zachycujeme

Popis jevu	Příklady ort	Příklady fon
přízvukové takty jsou slova, která jsou sdružena pod jedním přízvukem, tvoří na fonetické rovině jedno „zvukové slovo“. Protože ortografická a fonetická rovina si musí odpovídat, všechny členy přízvukového taktu sice spojíme, ale na místo jejich hranice vložíme svislici	to je v tomhle do háje	tə\|e f\|tomle do\|áje
je-li jedno ortograficky psané slovo ve výslovnosti rozděleno do více přízvukových taktů, jsou tyto takty odděleny rovnítkem, opět se mezi ně nevkládá mezera	paní XY ČVUT ČVUT ČSSD	paňí iks=ipsilon čé=vé=ú=té čévéú=té čéesez=dé

Druhou zásadou fonetického přepisu je důsledná korespondence mezi vrstvou ortografickou a fonetickou. Tedy vše, co je součástí ortografického přepisu, musí být zachováno i na fonetické úrovni – značíme shodně překryvy, pauzy, symboly pro (ne)ukončení replik, zachováváme anonymizační značky, kulaté závorky pro nesrozumitelné úseky, neverbální zvuky ve špičatých závorkách. Co naopak při fonetické transkripci nezachováváme, jsou otazník, spojovník, hvězdička, signalizující nedokončená slova, ani křížek před příklonným s či spojkou li. Požadavku na korespondenci ortografické a fonetické roviny odpovídá i členění na přízvukové takty za pomoci svislítek a rozdělování jednoho ortografického slova do více taktů za pomoci rovnítka (viz výše).

Tabulka grafémů a symbolů, které v přepisech (ne)používáme

Grafémy, které v přepise používáme	Grafémy, které v přepise nepoužíváme
á, é, ó, ú	ů
i, í (zcela výjimečně y, ý)	y, ý
a, e, i, o, u
	ě
ə
dvojhlásky au, eu, ou
p, b, m
ɱ
d, t, n
ŋ
ď, ť, ň
k, g
ch, h, ɣ
v (výjimečně w)
f
	q
s, z
š, ž
c, ʒ
č, ʒʒ
ř	ř̥ (kroužek pod ř značí jeho neznělý protějšek)
r
ŕ
r
l
ł
ĺ
j
	x
výjimečně ś
výjimečně ź
výjimečně dź
výjimečně ć
výjimečně r’

Jiné znaky ve stopě fon:

Používané	Nepoužívané
`. ..`	, „“ ᾽ ;
`+`
`-`
	–
	*
`( )`
`[ ]`
	#
	! ?
`@ @@`
`NP, NJ` atd.
`<SM>` atd.
`{ }`

Metajazyková rovina

Tato rovina je určena pro zachycení neverbálních projevů mluvčích a doprovodných okolních zvuků. V korpusu ORTOFON byla sjednocena podoba takto zapisovaných poznámek (srov. využití pro hledání v mluvených korpusech řady ORAL), což umožňuje lepší orientaci a vyhledávání.

Jak citovat přepisovací pravidla

Benešová, L. – Komrsková, Z. – Kopřivová, M. – Lukeš, D. – Poukarová, P. – Škarpová, M.: Pravidla transkripce pro korpus ORTOFON. Ústav Českého národního korpusu FF UK, Praha 2012. Dostupné z WWW: https://wiki.korpus.cz/doku.php/cnk:ortofon:pravidla

Poděkování

Za pomoc s přípravou transkripčních pravidel chceme poděkovat především prof. Marii Krčmové z FF MU v Brně, doc. Janu Volínovi, doc. Radku Skarnitzlovi a dr. Lence Weingartové z Fonetického ústavu FF UK.