Obsah
Transkripce v korpusu ORTOFON
Pro přepis sond v korpusu ORTOFON byl použit transkripční program ELAN, jenž umožňuje propojení vícerovňového přepisu se zvukem. Hlavní transkripční zásadou bylo zachytit ve správném pořadí vše, co bylo vysloveno, tj. i nedořečená slova, falešné starty, několikanásobné opakování téhož výrazu, přeřeknutí a jeho opravu.
Pravidla zde popsaná se týkají zdrojových přepisů v programu ELAN (formát EAF), které mohou být poskytnuty na vyžádání. Pro zpřístupnění přes rozhraní KonText byly některé aspekty transkripce upraveny s ohledem na technické požadavky rozhraní a usnadnění vyhledávání. Víc viz Rozdíly anotace korpusu ORTOFON v3 ve vertikále a KonTextu.
Ortografická rovina
Zápis na ortografické rovině se snaží co nejvíce přiblížit tradičnímu zápisu slov dle pravidel pravopisu. Na rozdíl od korpusů řady ORAL se tedy v základním transkriptu nezachycuje zjednodušená či redukovaná výslovnost, pro její zaznamenání slouží fonetická rovina. Následující text shrnuje základní pravidla užívaná na ortografické rovině, podrobnější přehled a srovnání transkripčních pravidel napříč korpusy řady ORAL a ORTOFONem viz v kurzu práce s korpusem.
Jev | Příklad |
---|---|
hranice slov | převážně se respektují (viz níže): jo jo jo, že jo |
kvantita hlásek | dle pravopisu: myslím, táta |
kvalita hlásek | dle skutečné realizace: mlejn, vajco, kúpit |
vložená hláska | nezachycuje se: jet, osm |
protetické v | zachycuje se: vokno |
asimilace hlásek | nezachycuje se: shromáždění, včera |
slova začínající j- | dle pravopisu: jsem 1), jméno, jestli |
koncovky | dle skutečné realizace: vodjedem po šestý i s malejma dětma |
zkratky | studoval na ČVUT neboli na ČVUTu |
zkratková slova | to dývídýčko je k mání |
velká písmena | pouze u vlastních jmen: Jana, České Budějovice |
responzní zvuky přitakávací | hmm |
responzní zvuky odmítací | emm |
Když odpovídá jednomu ortografickému slovu několik zvukových a hranicím mezi nimi spojovníky, rozděluje se na nich ortografické slovo na zvláštní tokeny, aby se omezilo používání rovnítek =
na fonetické rovině (viz dále). Spojovníky se přitom mažou, takže např. místo Rakousko-Uhersko jsou dva tokeny Rakousko Uhersko. Jako dva zvláštní tokeny bez spojovníku se uvádějí i složená adjektiva a adverbia, např. rakousko uherský. Slova odpovídající jednomu zvukovému slovu, např. e-mail, zůstávají dohromady, se spojovníkem. V ostatních případech se řídí hranice slov tokenizací podle standardu SYN2020.
V korpusu ORTOFON je použita pauzová interpunkce. Rozlišují se tři druhy pauz:
- velmi krátká pauza, spíše intonační předěl (méně než 120 ms): voni třeba . no jasně von třeba jako . to u sebe ani nemaj . jako jo nemají to u sebe
- slyšitelné ticho nebo neverbální zvuk (např. smích, odkašlání) (120 ms - 2 s): a teďka .. najednou to jako přijíždělo .. tak já jsem se tam jako usalašila
- odmlčení (více než 2 s): neznačí se v ortografické rovině, ale v metajazykové jako dlouhá pauza
Následující tabulka vysvětluje užívání symbolů a značek:
Jev | Symbol | Popis | Příklad |
---|---|---|---|
citoslovce bez lexikalizované podoby | & | oni právě jenom čumí a dělají jenom & | |
hezitace | @ | kratší hezitace @ delší hezitace @@ | potom bychom pravděpodobně @ .. připravili nějaký seznam |
nedořečené, neúplné slovo | * | na začátku nebo na konci srozumitelné části slova | přizpůso* přizpůsobujou |
příklonné s, spojka li, typ proň, zaň | # | značí se křížkem | byl#s, ne#li, pro#ň |
otázka | ? | to byl jeho syn ? | |
neukončené promluvy | - | vždy na konci repliky | ale za moc nestojí ten je nějakej - |
přerušení promluvy | + | značí se na začátku i konci přerušené promluvy | mluvčí 1: a nechceš dort ? piškotovej + mluvčí 2: nechci .. nechci opravdu ne děkuji děkuji mluvčí 1: + jsem dělala |
nesrozumitelný úsek | () | pokud nerozumíme, v závorce je číslice určující počet odhadovaných slov: pokud si nejsme slovem jisti, je v závorce dané slovo: | že to bude takový (1) čtverec a to víš že jdou nějaký slevy . (dát) |
V korpusu ORTOFON jsou anonymizovány citlivé údaje stejně jako v korpusech řady ORAL. Anonymizace se netýká jmen známých osobností, názvů ve veřejném prostoru (např. restaurací a kaváren) či místních jmen, pokud si mluvčí anonymizaci výslovně nepřáli. Pro korpus ORTOFON byl seznam anonymizačních zkratek používaných v korpusech řady ORAL upraven:
Anonymizační značka | Vysvětlení |
---|---|
NP | příjmení |
NJ | křestní jméno |
NN | přezdívka |
NM | místní jméno |
NO | ostatní vlastní jména |
NT | poslední dvojčíslí telefonního čísla |
Fonetická rovina
Fonetická rovina slouží k zaznamenání toho, co skutečně v nahrávce zaznělo, co a jak mluvčí vyslovil. Zápis využívá běžnou českou abecedu s několika speciálními znaky (viz tabulka níže) a nepředstavuje ani „přísnou“ fonetickou transkripci, ani transkripci dialektologickou. Požadavek na transkripci toho, co bylo skutečně vysloveno, se odráží jak na rovině segmentální, tak rovině suprasegmentální.
Segmentální jevy, které v přepisu zachycujeme
Popis jevu | Příklady |
---|---|
asimilace, tj. vzájemné přizpůsobování sousedních souhlásek, a to i přes hranici slov | zpěváček → spjeváček sbírat → zbírat štěstí → šťesťí i ščesťí chodník → chodňík i choďňík ten král → teŋ král |
zjednodušená výslovnost souhláskových skupin, a to i přes hranici slov | vždycky → ždicki i dicki zvláštní → zvlášňí i zlášňí půllitr → púllitr i pulitr pást koně → pás koňe |
kvantita samohlásek | móře vjecí, prosim, jó |
sdílené hlásky první slovo končí a druhé začíná stejnou hláskou, ale v realizaci mluvčího je tato hláska vyslovena jen jednou, sdílení hlásek je naznačeno podtržítkem na konci prvního slova, hlásku značíme na začátku slova dalšího | Karel Loprais → kare_ loprajs městys Senohraby → mňesti_ senohrabi |
Suprasegmentální jevy, které v přepisu zachycujeme
Popis jevu | Příklady ort | Příklady fon |
---|---|---|
přízvukové takty jsou slova, která jsou sdružena pod jedním přízvukem, tvoří na fonetické rovině jedno „zvukové slovo“. Protože ortografická a fonetická rovina si musí odpovídat, všechny členy přízvukového taktu sice spojíme, ale na místo jejich hranice vložíme svislici | to je v tomhle do háje | tə|e f|tomle do|áje |
je-li jedno ortograficky psané slovo ve výslovnosti rozděleno do více přízvukových taktů, jsou tyto takty odděleny rovnítkem, opět se mezi ně nevkládá mezera | paní XY ČVUT ČVUT ČSSD | paňí iks=ipsilon čé=vé=ú=té čévéú=té čéesez=dé |
Druhou zásadou fonetického přepisu je důsledná korespondence mezi vrstvou ortografickou a fonetickou. Tedy vše, co je součástí ortografického přepisu, musí být zachováno i na fonetické úrovni – značíme shodně překryvy, pauzy, symboly pro (ne)ukončení replik, zachováváme anonymizační značky, kulaté závorky pro nesrozumitelné úseky, neverbální zvuky ve špičatých závorkách. Co naopak při fonetické transkripci nezachováváme, jsou otazník, spojovník, hvězdička, signalizující nedokončená slova, ani křížek před příklonným s či spojkou li. Požadavku na korespondenci ortografické a fonetické roviny odpovídá i členění na přízvukové takty za pomoci svislítek a rozdělování jednoho ortografického slova do více taktů za pomoci rovnítka (viz výše).
Tabulka grafémů a symbolů, které v přepisech (ne)používáme
Grafémy, které v přepise používáme | Grafémy, které v přepise nepoužíváme |
---|---|
á, é, ó, ú | ů |
i, í (zcela výjimečně y, ý) | y, ý |
a, e, i, o, u | |
ě | |
ə | |
dvojhlásky au, eu, ou | |
p, b, m | |
ɱ | |
d, t, n | |
ŋ | |
ď, ť, ň | |
k, g | |
ch, h, ɣ | |
v (výjimečně w) | |
f | |
q | |
s, z | |
š, ž | |
c, ʒ | |
č, ʒʒ | |
ř | ř̥ (kroužek pod ř značí jeho neznělý protějšek) |
r | |
ŕ | |
r | |
l | |
ł | |
ĺ | |
j | |
x | |
výjimečně ś | |
výjimečně ź | |
výjimečně dź | |
výjimečně ć | |
výjimečně r’ |
Jiné znaky ve stopě fon:
Používané | Nepoužívané |
---|---|
. .. | , „“ ᾽ ; |
+ | |
- | |
– | |
* | |
( ) | |
[ ] | |
# | |
! ? | |
@ @@ | |
NP, NJ atd. | |
<SM> atd. | |
{ } |
Metajazyková rovina
Tato rovina je určena pro zachycení neverbálních projevů mluvčích a doprovodných okolních zvuků. V korpusu ORTOFON byla sjednocena podoba takto zapisovaných poznámek (srov. využití pro hledání v mluvených korpusech řady ORAL), což umožňuje lepší orientaci a vyhledávání.
Jak citovat přepisovací pravidla
Benešová, L. – Komrsková, Z. – Kopřivová, M. – Lukeš, D. – Poukarová, P. – Škarpová, M.: Pravidla transkripce pro korpus ORTOFON. Ústav Českého národního korpusu FF UK, Praha 2012. Dostupné z WWW: https://wiki.korpus.cz/doku.php/cnk:ortofon:pravidla
Poděkování
Za pomoc s přípravou transkripčních pravidel chceme poděkovat především prof. Marii Krčmové z FF MU v Brně, doc. Janu Volínovi, doc. Radku Skarnitzlovi a dr. Lence Weingartové z Fonetického ústavu FF UK.