====== Transkripce v korpusu ORTOFON ======
Pro přepis sond v korpusu [[cnk:ortofon|ORTOFON]] byl použit transkripční program [[https://tla.mpi.nl/tools/tla-tools/elan/|ELAN]], jenž umožňuje propojení vícerovňového přepisu se zvukem.
Hlavní transkripční zásadou bylo zachytit ve správném pořadí vše, co bylo vysloveno, tj. i nedořečená slova, falešné starty, několikanásobné opakování téhož výrazu, přeřeknutí a jeho opravu.
Pravidla zde popsaná se týkají zdrojových přepisů v programu ELAN (formát EAF), které mohou být poskytnuty na vyžádání. Pro zpřístupnění přes rozhraní [[https://kontext.korpus.cz|KonText]] byly některé aspekty transkripce upraveny s ohledem na technické požadavky rozhraní a usnadnění vyhledávání. Víc viz [[cnk:ortofon:rozdily_v_kontextu|Rozdíly anotace korpusu ORTOFON v3 ve vertikále a KonTextu]].
==== Ortografická rovina ====
Zápis na ortografické rovině se snaží co nejvíce přiblížit tradičnímu zápisu slov dle pravidel pravopisu. Na rozdíl od korpusů řady [[cnk:oral|ORAL]] se tedy v základním transkriptu nezachycuje zjednodušená či redukovaná výslovnost, pro její zaznamenání slouží fonetická rovina. Následující text shrnuje základní pravidla užívaná na ortografické rovině, podrobnější přehled a srovnání transkripčních pravidel napříč korpusy řady ORAL a ORTOFONem viz v [[kurz:hledani_v_mluvenych_korpusech|kurzu práce s korpusem]].
^ Jev ^ Příklad ^
| **hranice slov** | převážně se respektují (viz níže):\\ //jo jo jo, že jo// |
| **kvantita hlásek** | dle pravopisu:\\ //myslím, táta// |
| **kvalita hlásek** | dle skutečné realizace:\\ //mlejn, vajco, kúpit// |
| **vložená hláska** | nezachycuje se:\\ //jet, osm// |
| **protetické v** | zachycuje se:\\ //vokno// |
| **asimilace hlásek** | nezachycuje se:\\ //shromáždění, včera// |
| **slova začínající j-** | dle pravopisu:\\ //jsem ((Všechny tvary slovesa //být// se zapisují s j- kromě //seš, su, sú, só//.)), jméno, jestli// |
| **koncovky** | dle skutečné realizace:\\ //vodjedem po šestý i s malejma dětma// |
| **zkratky**| //studoval na ČVUT neboli na ČVUTu// |
| **zkratková slova** | //to dývídýčko je k mání// |
| **velká písmena** | pouze u vlastních jmen:\\ //Jana, České Budějovice// |
| **responzní zvuky přitakávací** | //hmm// |
| **responzní zvuky odmítací** | //emm// |
Když odpovídá jednomu ortografickému slovu několik zvukových a hranicím mezi nimi spojovníky, rozděluje se na nich ortografické slovo na zvláštní tokeny, aby se omezilo používání rovnítek ''='' na fonetické rovině (viz dále). Spojovníky se přitom mažou, takže např. místo //Rakousko-Uhersko// jsou dva tokeny //Rakousko Uhersko//. Jako dva zvláštní tokeny bez spojovníku se uvádějí i složená adjektiva a adverbia, např. //rakousko uherský//. Slova odpovídající jednomu zvukovému slovu, např. //e-mail//, zůstávají dohromady, se spojovníkem. V ostatních případech se řídí hranice slov tokenizací podle standardu [[cnk:syn2020|SYN2020]].
V korpusu ORTOFON je použita **pauzová interpunkce**. Rozlišují se tři druhy pauz:
* velmi krátká pauza, spíše intonační **předěl** (méně než 120 ms): //voni třeba **.** no jasně von třeba jako **.** to u sebe ani nemaj **.** jako jo nemají to u sebe//
* slyšitelné **ticho** nebo **neverbální zvuk** (např. smích, odkašlání) (120 ms - 2 s): //a teďka **..** najednou to jako přijíždělo **..** tak já jsem se tam jako usalašila//
* **odmlčení** (více než 2 s): neznačí se v ortografické rovině, ale v metajazykové jako **dlouhá pauza**
Následující tabulka vysvětluje užívání **symbolů a značek**:
^ Jev ^ Symbol ^ Popis ^ Příklad ^
| **citoslovce bez lexikalizované podoby** | ''&'' | | //oni právě jenom čumí a dělají jenom &// |
| **hezitace** | ''@'' | kratší hezitace ''@''\\ delší hezitace ''@@'' | //potom bychom pravděpodobně @ .. připravili nějaký seznam// |
| **nedořečené, neúplné slovo** | ''*'' | na začátku nebo na konci srozumitelné části slova | //přizpůso* přizpůsobujou// |
| **příklonné s**, **spojka li**, **typ proň, zaň** | ''#'' | značí se křížkem | //byl#s, ne#li, pro#ň// |
| **otázka** | ''?'' | | //to byl jeho syn ?// |
| **neukončené promluvy** | ''-'' | vždy na konci repliky | //ale za moc nestojí ten je nějakej -// |
| **přerušení promluvy** | ''+'' | značí se na začátku i konci přerušené promluvy | mluvčí 1: //a nechceš dort ? piškotovej +//\\ mluvčí 2: //nechci .. nechci opravdu ne děkuji děkuji//\\ mluvčí 1: //+ jsem dělala// |
| **nesrozumitelný úsek** | ''()'' | pokud nerozumíme, v závorce je **číslice** určující počet odhadovaných slov:\\ pokud si nejsme slovem jisti, je v závorce **dané slovo**: | //že to bude takový (1) čtverec//\\ //a to víš že jdou nějaký slevy . (dát)// |
V korpusu ORTOFON jsou **anonymizovány** citlivé údaje stejně jako v korpusech řady ORAL. Anonymizace se netýká jmen známých osobností, názvů ve veřejném prostoru (např. restaurací a kaváren) či místních jmen, pokud si mluvčí anonymizaci výslovně nepřáli. Pro korpus ORTOFON byl [[kurz:hledani_v_mluvenych_korpusech#anonymizacni_znacky|seznam anonymizačních zkratek]] používaných v korpusech řady ORAL upraven:
^ Anonymizační značka ^ Vysvětlení ^
| ''NP'' | příjmení |
| ''NJ'' | křestní jméno |
| ''NN'' | přezdívka |
| ''NM'' | místní jméno |
| ''NO'' | ostatní vlastní jména |
| ''NT'' | poslední dvojčíslí telefonního čísla |
==== Fonetická rovina ====
Fonetická rovina slouží k zaznamenání toho, co skutečně v nahrávce zaznělo, co a jak mluvčí vyslovil. Zápis využívá běžnou českou abecedu s několika speciálními znaky (viz tabulka níže) a nepředstavuje ani „přísnou“ fonetickou transkripci, ani transkripci dialektologickou.
Požadavek na transkripci toho, co bylo skutečně vysloveno, se odráží jak na rovině segmentální, tak rovině suprasegmentální.
===Segmentální jevy, které v přepisu zachycujeme===
^ Popis jevu ^ Příklady ^
|**asimilace**, tj. vzájemné přizpůsobování sousedních souhlásek, a to i přes hranici slov | //**zp**ěváček → **sp**jeváček\\ **sb**írat → **zb**írat\\ **št**ěstí → šťesťí i **šč**esťí\\ cho**dn**ík → chodňík i cho**ďň**ík\\ te**n k**rál → te**ŋ k**rál//\\ |
|**zjednodušená výslovnost souhláskových skupin**, a to i přes hranici slov | //**vž**dycky → **ž**dicki i **d**icki\\ zvlá**štn**í → zvlá**šň**í i **z**lášňí\\ pů**ll**itr → púllitr i pu**l**itr\\ pás**t** koně → pá**s** koňe//\\ |
|**kvantita samohlásek** | //m**ó**ře vjecí, pros**i**m, j**ó**// |
|**sdílené hlásky** první slovo končí a druhé začíná stejnou hláskou, ale v realizaci mluvčího je\\ tato hláska vyslovena jen jednou, sdílení hlásek je naznačeno podtržítkem na konci prvního slova,\\ hlásku značíme na začátku slova dalšího | //Karel Loprais → kare_ loprajs\\ městys Senohraby → mňesti_ senohrabi//\\ |
===Suprasegmentální jevy, které v přepisu zachycujeme===
^ Popis jevu ^ Příklady ort ^ Příklady fon ^
|**přízvukové takty** jsou slova, která jsou sdružena pod jedním přízvukem, tvoří na fonetické rovině jedno „zvukové slovo“. \\ Protože ortografická a fonetická rovina si musí odpovídat,\\ všechny členy přízvukového taktu sice spojíme, ale na místo jejich hranice vložíme svislici | //to je\\ v tomhle\\ do háje// | //tə%%|%%e\\ f%%|%%tomle\\ do%%|%%áje// |
|je-li jedno ortograficky psané slovo ve výslovnosti rozděleno **do více přízvukových taktů**,\\ jsou tyto takty odděleny rovnítkem, opět se mezi ně nevkládá mezera | //paní XY\\ ČVUT\\ ČVUT\\ ČSSD//\\ | //paňí iks=ipsilon\\ čé=vé=ú=té\\ čévéú=té\\ čéesez=dé//\\ |
Druhou zásadou fonetického přepisu je důsledná **korespondence mezi vrstvou ortografickou a fonetickou**. Tedy vše, co je součástí ortografického přepisu, musí být zachováno i na fonetické úrovni – značíme shodně **překryvy**, **pauzy**, **symboly pro (ne)ukončení replik**, zachováváme **anonymizační značky**, **kulaté závorky** pro nesrozumitelné úseky, neverbální zvuky ve **špičatých závorkách**. Co naopak při fonetické transkripci **nezachováváme**, jsou **otazník**, **spojovník**, **hvězdička**, signalizující nedokončená slova, ani **křížek** před příklonným s či spojkou li.
Požadavku na korespondenci ortografické a fonetické roviny odpovídá i členění na přízvukové takty za pomoci svislítek a rozdělování jednoho ortografického slova do více taktů za pomoci rovnítka (viz výše).
===Tabulka grafémů a symbolů, které v přepisech (ne)používáme===
^ Grafémy, které v přepise používáme ^ Grafémy, které v přepise nepoužíváme ^
| **á, é, ó, ú** | **ů** |
| **i, í **(zcela výjimečně** y, ý**) | **y, ý** |
| **a, e, i, o, u** | ** ** |
| ** ** | **ě** |
| **ə** | ** ** |
| dvojhlásky** au, eu, ou** | ** ** |
| **p, b, m** | ** ** |
| **ɱ ** | ** ** |
| **d, t, n** | ** ** |
| **ŋ** | ** ** |
| **ď, ť, ň** | ** ** |
| **k, g** | ** ** |
| **ch, h, ɣ** | ** ** |
| **v **(výjimečně** w**) | ** ** |
| **f** | ** ** |
| ** ** | **q** |
| **s, z** | ** ** |
| **š, ž** | ** ** |
| **c, ʒ** | ** ** |
| **č, ʒʒ** | ** ** |
| **ř** | **ř̥** (kroužek pod **ř** značí jeho neznělý protějšek) |
| **r** | ** ** |
| **ŕ** | ** ** |
| **r** | ** ** |
| **l** | ** ** |
| **ł** | ** ** |
| **ĺ** | ** ** |
| **j** | ** ** |
| ** ** | **x** |
| výjimečně** ś** | |
| výjimečně** ź** | |
| výjimečně** dź** | |
| výjimečně** ć** | |
| výjimečně** r’** | |
Jiné znaky ve stopě **fon**:
^ Používané ^ Nepoužívané ^
| ''. ..'' | **, „“ ᾽ ;** |
| ''+'' | |
| ''-'' | |
| ** ** | **–** |
| ** ** | * |
| ''( )'' | |
| ''[ ]'' | \\ |
| ** ** | **#** |
| ** ** | **! ?** |
| ''@ @@'' | |
| ''NP, NJ'' atd. | |
| '' ''atd. | |
| ''{ }'' | |
==== Metajazyková rovina ====
Tato rovina je určena pro zachycení neverbálních projevů mluvčích a doprovodných okolních zvuků. V korpusu ORTOFON byla sjednocena podoba takto zapisovaných poznámek (srov. využití pro hledání [[kurz:hledani_v_mluvenych_korpusech|v mluvených korpusech řady ORAL]]), což umožňuje lepší orientaci a [[kurz:hledani_ortofon|vyhledávání]].
==== Jak citovat přepisovací pravidla ====
Benešová, L. – Komrsková, Z. – Kopřivová, M. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //Pravidla transkripce pro korpus ORTOFON//. Ústav Českého národního korpusu FF UK, Praha 2012. Dostupné z WWW: https://wiki.korpus.cz/doku.php/cnk:ortofon:pravidla
==== Poděkování ====
Za pomoc s přípravou transkripčních pravidel chceme poděkovat především prof. Marii Krčmové z FF MU v Brně, doc. Janu Volínovi, doc. Radku Skarnitzlovi a dr. Lence Weingartové z Fonetického ústavu FF UK.
===== Související odkazy =====
[[cnk:ortofon|ORTOFON]] • [[cnk:oral|ORAL]] • [[cnk:oral2006|ORAL2006]] • [[cnk:oral2008|ORAL2008]] • [[cnk:oral2013|ORAL2013]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]] • [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]] • [[kurz:hledani_ORTOFON|Hledání v korpusu ORTOFON]]