====== Transkripce v korpusu ORTOFON  ======

Pro přepis sond v korpusu [[cnk:ortofon|ORTOFON]] byl použit transkripční program [[https://tla.mpi.nl/tools/tla-tools/elan/|ELAN]], jenž umožňuje propojení vícerovňového přepisu se zvukem.
Hlavní transkripční zásadou bylo zachytit ve správném pořadí vše, co bylo vysloveno, tj. i nedořečená slova, falešné starty, několikanásobné opakování téhož výrazu, přeřeknutí a jeho opravu. 

<WRAP center round important 60%>
Pravidla zde popsaná se týkají zdrojových přepisů v programu ELAN (formát EAF), které mohou být poskytnuty na vyžádání. Pro zpřístupnění přes rozhraní [[https://kontext.korpus.cz|KonText]] byly některé aspekty transkripce upraveny s ohledem na technické požadavky rozhraní a usnadnění vyhledávání. Víc viz [[cnk:ortofon:rozdily_v_kontextu|Rozdíly anotace korpusu ORTOFON v3 ve vertikále a KonTextu]].
</WRAP>


==== Ortografická rovina ====
Zápis na ortografické rovině se snaží co nejvíce přiblížit tradičnímu zápisu slov dle pravidel pravopisu. Na rozdíl od korpusů řady [[cnk:oral|ORAL]] se tedy v základním transkriptu nezachycuje zjednodušená či redukovaná výslovnost, pro její zaznamenání slouží fonetická rovina. Následující text shrnuje základní pravidla užívaná na ortografické rovině, podrobnější přehled a srovnání transkripčních pravidel napříč korpusy řady ORAL a ORTOFONem viz v [[kurz:hledani_v_mluvenych_korpusech|kurzu práce s korpusem]].

^  Jev  ^  Příklad  ^  
| **hranice slov** |  převážně se respektují (viz níže):\\ //jo jo jo, že jo//  |
| **kvantita hlásek** |  dle pravopisu:\\ //myslím, táta//  |
| **kvalita hlásek** |  dle skutečné realizace:\\ //mlejn, vajco, kúpit//  |
| **vložená hláska** |  nezachycuje se:\\ //jet, osm//  |
| **protetické v** |  zachycuje se:\\ //vokno//  |
| **asimilace hlásek** |  nezachycuje se:\\ //shromáždění, včera//  |
| **slova začínající j-** |  dle pravopisu:\\ //jsem ((Všechny tvary slovesa //být// se zapisují s j- kromě //seš, su, sú, só//.)), jméno, jestli//  |
| **koncovky** |  dle skutečné realizace:\\ //vodjedem po šestý i s malejma dětma//  |
| **zkratky**|  //studoval na ČVUT neboli na ČVUTu//  |
| **zkratková slova** |  //to dývídýčko je k mání//  |
| **velká písmena** |  pouze u vlastních jmen:\\ //Jana, České Budějovice//  |
| **responzní zvuky přitakávací** |  //hmm//  |
| **responzní zvuky odmítací** |  //emm//  |

Když odpovídá jednomu ortografickému slovu několik zvukových a hranicím mezi nimi spojovníky, rozděluje se na nich ortografické slovo na zvláštní tokeny, aby se omezilo používání rovnítek ''='' na fonetické rovině (viz dále). Spojovníky se přitom mažou, takže např. místo //Rakousko-Uhersko// jsou dva tokeny //Rakousko Uhersko//. Jako dva zvláštní tokeny bez spojovníku se uvádějí i složená adjektiva a adverbia, např. //rakousko uherský//. Slova odpovídající jednomu zvukovému slovu, např. //e-mail//, zůstávají dohromady, se spojovníkem. V ostatních případech se řídí hranice slov tokenizací podle standardu [[cnk:syn2020|SYN2020]].

V korpusu ORTOFON je použita **pauzová interpunkce**. Rozlišují se tři druhy pauz:
  * velmi krátká pauza, spíše intonační **předěl** (méně než 120 ms): //voni třeba **.** no jasně von třeba jako **.** to u sebe ani nemaj **.** jako jo nemají to u sebe//
  * slyšitelné **ticho** nebo **neverbální zvuk** (např. smích, odkašlání) (120 ms - 2 s): //a teďka **..** najednou to jako přijíždělo **..** tak já jsem se tam jako usalašila//
  * **odmlčení** (více než 2 s): neznačí se v ortografické rovině, ale v metajazykové jako **dlouhá pauza**

Následující tabulka vysvětluje užívání **symbolů a značek**:

^  Jev  ^  Symbol  ^  Popis  ^  Příklad  ^ 
| **citoslovce bez lexikalizované podoby**  |  ''&''  |    |   //oni právě jenom čumí a dělají jenom &//  |
| **hezitace**  |  ''@''  |  kratší hezitace ''@''\\ delší hezitace ''@@''  |  //potom bychom pravděpodobně @ .. připravili nějaký seznam//  |
| **nedořečené, neúplné slovo** |  ''*''  |  na začátku nebo na konci srozumitelné části slova   |  //přizpůso* přizpůsobujou//  |
| **příklonné s**, **spojka li**, **typ proň, zaň** |  ''#''  |  značí se křížkem   |  //byl#s, ne#li, pro#ň//  |
| **otázka** |  ''?''  |    |  //to byl jeho syn ?//  |
| **neukončené promluvy** |  ''-''  |  vždy na konci repliky  |  //ale za moc nestojí ten je nějakej -//  |
| **přerušení promluvy** |  ''+''  |  značí se na začátku i konci přerušené promluvy  |  mluvčí 1: //a nechceš dort ? piškotovej +//\\ mluvčí 2: //nechci .. nechci opravdu ne děkuji děkuji//\\ mluvčí 1: //+ jsem dělala//  |
| **nesrozumitelný úsek** |  ''()''  |  pokud nerozumíme, v závorce je **číslice** určující počet odhadovaných slov:\\  pokud si nejsme slovem jisti, je v závorce **dané slovo**:  |  //že to bude takový (1) čtverec//\\ //a to víš že jdou nějaký slevy . (dát)//  | 

V korpusu ORTOFON jsou **anonymizovány** citlivé údaje stejně jako v korpusech řady ORAL. Anonymizace se netýká jmen známých osobností, názvů ve veřejném prostoru (např. restaurací a kaváren) či místních jmen, pokud si mluvčí anonymizaci výslovně nepřáli. Pro korpus ORTOFON byl [[kurz:hledani_v_mluvenych_korpusech#anonymizacni_znacky|seznam anonymizačních zkratek]] používaných v korpusech řady ORAL upraven:

^ Anonymizační značka ^  Vysvětlení  ^
| ''NP'' | příjmení |
| ''NJ'' | křestní jméno |
| ''NN'' | přezdívka |
| ''NM'' | místní jméno |
| ''NO'' | ostatní vlastní jména |
| ''NT'' | poslední dvojčíslí telefonního čísla |

==== Fonetická rovina ====
Fonetická rovina slouží k zaznamenání toho, co skutečně v nahrávce zaznělo, co a jak mluvčí vyslovil. Zápis využívá běžnou českou abecedu s několika speciálními znaky (viz tabulka níže) a nepředstavuje ani „přísnou“ fonetickou transkripci, ani transkripci dialektologickou. 
Požadavek na transkripci toho, co bylo skutečně vysloveno, se odráží jak na rovině segmentální, tak rovině suprasegmentální. 

===Segmentální jevy, které v přepisu zachycujeme===
^  Popis jevu  ^  Příklady  ^
|**asimilace**, tj. vzájemné přizpůsobování sousedních souhlásek, a to i přes hranici slov | //**zp**ěváček → **sp**jeváček\\ **sb**írat → **zb**írat\\ **št**ěstí → šťesťí i **šč**esťí\\ cho**dn**ík → chodňík i cho**ďň**ík\\ te**n k**rál → te**ŋ k**rál//\\ |
|**zjednodušená výslovnost souhláskových skupin**, a to i přes hranici slov | //**vž**dycky → **ž**dicki i **d**icki\\ zvlá**štn**í → zvlá**šň**í i **z**lášňí\\ pů**ll**itr → púllitr i pu**l**itr\\ pás**t** koně → pá**s** koňe//\\ |
|**kvantita samohlásek** | //m**ó**ře vjecí, pros**i**m,  j**ó**// |
|**sdílené hlásky** první slovo končí a druhé začíná stejnou hláskou, ale v realizaci mluvčího je\\ tato hláska vyslovena jen jednou, sdílení hlásek je naznačeno podtržítkem na konci prvního slova,\\ hlásku značíme na začátku slova dalšího | //Karel Loprais → kare_ loprajs\\ městys Senohraby → mňesti_ senohrabi//\\ |

===Suprasegmentální jevy, které v přepisu zachycujeme===
^  Popis jevu  ^  Příklady ort  ^  Příklady fon  ^
|**přízvukové takty** jsou slova, která jsou sdružena pod jedním přízvukem, tvoří na fonetické rovině jedno „zvukové slovo“. \\ Protože ortografická a fonetická rovina si musí odpovídat,\\ všechny členy přízvukového taktu sice spojíme, ale na místo jejich hranice vložíme svislici | //to je\\ v tomhle\\ do háje// | //tə%%|%%e\\ f%%|%%tomle\\ do%%|%%áje// |
|je-li jedno ortograficky psané slovo ve výslovnosti rozděleno **do více přízvukových taktů**,\\ jsou tyto takty odděleny rovnítkem, opět se mezi ně nevkládá mezera | //paní XY\\ ČVUT\\ ČVUT\\ ČSSD//\\ | //paňí iks=ipsilon\\ čé=vé=ú=té\\ čévéú=té\\ čéesez=dé//\\ |

Druhou zásadou fonetického přepisu je důsledná **korespondence mezi vrstvou ortografickou a fonetickou**. Tedy vše, co je součástí ortografického přepisu, musí být zachováno i na fonetické úrovni – značíme shodně **překryvy**, **pauzy**, **symboly pro (ne)ukončení replik**, zachováváme **anonymizační značky**, **kulaté závorky** pro nesrozumitelné úseky, neverbální zvuky ve **špičatých závorkách**. Co naopak při fonetické transkripci **nezachováváme**, jsou **otazník**, **spojovník**, **hvězdička**, signalizující nedokončená slova, ani **křížek** před příklonným s či spojkou li.  
Požadavku na korespondenci ortografické a fonetické roviny odpovídá i členění na přízvukové takty za pomoci svislítek a rozdělování jednoho ortografického slova do více taktů za pomoci rovnítka (viz výše).

===Tabulka grafémů a symbolů, které v přepisech (ne)používáme===
^  Grafémy, které v přepise používáme  ^  Grafémy, které v přepise nepoužíváme  ^
| **á, é, ó, ú** | **ů** |
| **i, í **(zcela výjimečně** y, ý**) | **y, ý** |
| **a, e, i, o, u** | ** ** |
| ** ** | **ě** |
| **ə** | ** ** |
| dvojhlásky** au, eu, ou** | ** ** |
| **p, b, m** | ** ** |
| **ɱ ** | ** ** |
| **d, t, n** | ** ** |
| **ŋ** | ** ** |
| **ď, ť, ň** | ** ** |
| **k, g** | ** ** |
| **ch, h, ɣ** | ** ** |
| **v **(výjimečně** w**) | ** ** |
| **f** | ** ** |
| ** ** | **q** |
| **s, z** | ** ** |
| **š, ž** | ** ** |
| **c, ʒ** | ** ** |
| **č, ʒʒ** | ** ** |
| **ř** | **ř̥** (kroužek pod **ř** značí jeho neznělý protějšek) |
| **r** | ** ** |
| **ŕ** | ** ** |
| **r** | ** ** |
| **l** | ** ** |
| **ł** | ** ** |
| **ĺ** | ** ** |
| **j** | ** ** |
| ** ** | **x** |
| výjimečně** ś** | |
| výjimečně** ź** | |
| výjimečně** dź** | |
| výjimečně** ć** | |
| výjimečně** r’** | |

Jiné znaky ve stopě **fon**: 
^  Používané  ^  Nepoužívané  ^
| ''.     ..'' | **,     „“     ᾽     ;** |
| ''+'' | |
| ''-'' | |
| ** ** | **–** |
| ** ** | * |
| ''( )'' | |
| ''[ ]'' | \\ |
| ** ** | **#** |
| ** ** | **!      ?** |
| ''@   @@'' | |
| ''NP, NJ'' atd. | |
| ''<SM> ''atd. | |
| ''{ }'' | |

==== Metajazyková rovina ====
Tato rovina je určena pro zachycení neverbálních projevů mluvčích a doprovodných okolních zvuků. V korpusu ORTOFON byla sjednocena podoba takto zapisovaných poznámek (srov. využití pro hledání [[kurz:hledani_v_mluvenych_korpusech|v mluvených korpusech řady ORAL]]), což umožňuje lepší orientaci a [[kurz:hledani_ortofon|vyhledávání]].

==== Jak citovat přepisovací pravidla ====

Benešová, L. – Komrsková, Z. – Kopřivová, M. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //Pravidla transkripce pro korpus ORTOFON//. Ústav Českého národního korpusu FF UK, Praha 2012. Dostupné z WWW: https://wiki.korpus.cz/doku.php/cnk:ortofon:pravidla

==== Poděkování ====

Za pomoc s přípravou transkripčních pravidel chceme poděkovat především prof. Marii Krčmové z FF MU v Brně, doc. Janu Volínovi, doc. Radku Skarnitzlovi a dr. Lence Weingartové z Fonetického ústavu FF UK.

===== Související odkazy =====

<WRAP round box 72%>
[[cnk:ortofon|ORTOFON]] • [[cnk:oral|ORAL]] • [[cnk:oral2006|ORAL2006]] • [[cnk:oral2008|ORAL2008]] • [[cnk:oral2013|ORAL2013]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]] • [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]] • [[kurz:hledani_ORTOFON|Hledání v korpusu ORTOFON]]
 </WRAP>