====== Transkripce v korpusu ORTOFON ====== Pro přepis sond v korpusu [[cnk:ortofon|ORTOFON]] byl použit transkripční program [[https://tla.mpi.nl/tools/tla-tools/elan/|ELAN]], jenž umožňuje propojení vícerovňového přepisu se zvukem. Hlavní transkripční zásadou bylo zachytit ve správném pořadí vše, co bylo vysloveno, tj. i nedořečená slova, falešné starty, několikanásobné opakování téhož výrazu, přeřeknutí a jeho opravu. Pravidla zde popsaná se týkají zdrojových přepisů v programu ELAN (formát EAF), které mohou být poskytnuty na vyžádání. Pro zpřístupnění přes rozhraní [[https://kontext.korpus.cz|KonText]] byly některé aspekty transkripce upraveny s ohledem na technické požadavky rozhraní a usnadnění vyhledávání. Víc viz [[cnk:ortofon:rozdily_v_kontextu|Rozdíly anotace korpusu ORTOFON v3 ve vertikále a KonTextu]]. ==== Ortografická rovina ==== Zápis na ortografické rovině se snaží co nejvíce přiblížit tradičnímu zápisu slov dle pravidel pravopisu. Na rozdíl od korpusů řady [[cnk:oral|ORAL]] se tedy v základním transkriptu nezachycuje zjednodušená či redukovaná výslovnost, pro její zaznamenání slouží fonetická rovina. Následující text shrnuje základní pravidla užívaná na ortografické rovině, podrobnější přehled a srovnání transkripčních pravidel napříč korpusy řady ORAL a ORTOFONem viz v [[kurz:hledani_v_mluvenych_korpusech|kurzu práce s korpusem]]. ^ Jev ^ Příklad ^ | **hranice slov** | převážně se respektují (viz níže):\\ //jo jo jo, že jo// | | **kvantita hlásek** | dle pravopisu:\\ //myslím, táta// | | **kvalita hlásek** | dle skutečné realizace:\\ //mlejn, vajco, kúpit// | | **vložená hláska** | nezachycuje se:\\ //jet, osm// | | **protetické v** | zachycuje se:\\ //vokno// | | **asimilace hlásek** | nezachycuje se:\\ //shromáždění, včera// | | **slova začínající j-** | dle pravopisu:\\ //jsem ((Všechny tvary slovesa //být// se zapisují s j- kromě //seš, su, sú, só//.)), jméno, jestli// | | **koncovky** | dle skutečné realizace:\\ //vodjedem po šestý i s malejma dětma// | | **zkratky**| //studoval na ČVUT neboli na ČVUTu// | | **zkratková slova** | //to dývídýčko je k mání// | | **velká písmena** | pouze u vlastních jmen:\\ //Jana, České Budějovice// | | **responzní zvuky přitakávací** | //hmm// | | **responzní zvuky odmítací** | //emm// | Když odpovídá jednomu ortografickému slovu několik zvukových a hranicím mezi nimi spojovníky, rozděluje se na nich ortografické slovo na zvláštní tokeny, aby se omezilo používání rovnítek ''='' na fonetické rovině (viz dále). Spojovníky se přitom mažou, takže např. místo //Rakousko-Uhersko// jsou dva tokeny //Rakousko Uhersko//. Jako dva zvláštní tokeny bez spojovníku se uvádějí i složená adjektiva a adverbia, např. //rakousko uherský//. Slova odpovídající jednomu zvukovému slovu, např. //e-mail//, zůstávají dohromady, se spojovníkem. V ostatních případech se řídí hranice slov tokenizací podle standardu [[cnk:syn2020|SYN2020]]. V korpusu ORTOFON je použita **pauzová interpunkce**. Rozlišují se tři druhy pauz: * velmi krátká pauza, spíše intonační **předěl** (méně než 120 ms): //voni třeba **.** no jasně von třeba jako **.** to u sebe ani nemaj **.** jako jo nemají to u sebe// * slyšitelné **ticho** nebo **neverbální zvuk** (např. smích, odkašlání) (120 ms - 2 s): //a teďka **..** najednou to jako přijíždělo **..** tak já jsem se tam jako usalašila// * **odmlčení** (více než 2 s): neznačí se v ortografické rovině, ale v metajazykové jako **dlouhá pauza** Následující tabulka vysvětluje užívání **symbolů a značek**: ^ Jev ^ Symbol ^ Popis ^ Příklad ^ | **citoslovce bez lexikalizované podoby** | ''&'' | | //oni právě jenom čumí a dělají jenom &// | | **hezitace** | ''@'' | kratší hezitace ''@''\\ delší hezitace ''@@'' | //potom bychom pravděpodobně @ .. připravili nějaký seznam// | | **nedořečené, neúplné slovo** | ''*'' | na začátku nebo na konci srozumitelné části slova | //přizpůso* přizpůsobujou// | | **příklonné s**, **spojka li**, **typ proň, zaň** | ''#'' | značí se křížkem | //byl#s, ne#li, pro#ň// | | **otázka** | ''?'' | | //to byl jeho syn ?// | | **neukončené promluvy** | ''-'' | vždy na konci repliky | //ale za moc nestojí ten je nějakej -// | | **přerušení promluvy** | ''+'' | značí se na začátku i konci přerušené promluvy | mluvčí 1: //a nechceš dort ? piškotovej +//\\ mluvčí 2: //nechci .. nechci opravdu ne děkuji děkuji//\\ mluvčí 1: //+ jsem dělala// | | **nesrozumitelný úsek** | ''()'' | pokud nerozumíme, v závorce je **číslice** určující počet odhadovaných slov:\\ pokud si nejsme slovem jisti, je v závorce **dané slovo**: | //že to bude takový (1) čtverec//\\ //a to víš že jdou nějaký slevy . (dát)// | V korpusu ORTOFON jsou **anonymizovány** citlivé údaje stejně jako v korpusech řady ORAL. Anonymizace se netýká jmen známých osobností, názvů ve veřejném prostoru (např. restaurací a kaváren) či místních jmen, pokud si mluvčí anonymizaci výslovně nepřáli. Pro korpus ORTOFON byl [[kurz:hledani_v_mluvenych_korpusech#anonymizacni_znacky|seznam anonymizačních zkratek]] používaných v korpusech řady ORAL upraven: ^ Anonymizační značka ^ Vysvětlení ^ | ''NP'' | příjmení | | ''NJ'' | křestní jméno | | ''NN'' | přezdívka | | ''NM'' | místní jméno | | ''NO'' | ostatní vlastní jména | | ''NT'' | poslední dvojčíslí telefonního čísla | ==== Fonetická rovina ==== Fonetická rovina slouží k zaznamenání toho, co skutečně v nahrávce zaznělo, co a jak mluvčí vyslovil. Zápis využívá běžnou českou abecedu s několika speciálními znaky (viz tabulka níže) a nepředstavuje ani „přísnou“ fonetickou transkripci, ani transkripci dialektologickou. Požadavek na transkripci toho, co bylo skutečně vysloveno, se odráží jak na rovině segmentální, tak rovině suprasegmentální. ===Segmentální jevy, které v přepisu zachycujeme=== ^ Popis jevu ^ Příklady ^ |**asimilace**, tj. vzájemné přizpůsobování sousedních souhlásek, a to i přes hranici slov | //**zp**ěváček → **sp**jeváček\\ **sb**írat → **zb**írat\\ **št**ěstí → šťesťí i **šč**esťí\\ cho**dn**ík → chodňík i cho**ďň**ík\\ te**n k**rál → te**ŋ k**rál//\\ | |**zjednodušená výslovnost souhláskových skupin**, a to i přes hranici slov | //**vž**dycky → **ž**dicki i **d**icki\\ zvlá**štn**í → zvlá**šň**í i **z**lášňí\\ pů**ll**itr → púllitr i pu**l**itr\\ pás**t** koně → pá**s** koňe//\\ | |**kvantita samohlásek** | //m**ó**ře vjecí, pros**i**m, j**ó**// | |**sdílené hlásky** první slovo končí a druhé začíná stejnou hláskou, ale v realizaci mluvčího je\\ tato hláska vyslovena jen jednou, sdílení hlásek je naznačeno podtržítkem na konci prvního slova,\\ hlásku značíme na začátku slova dalšího | //Karel Loprais → kare_ loprajs\\ městys Senohraby → mňesti_ senohrabi//\\ | ===Suprasegmentální jevy, které v přepisu zachycujeme=== ^ Popis jevu ^ Příklady ort ^ Příklady fon ^ |**přízvukové takty** jsou slova, která jsou sdružena pod jedním přízvukem, tvoří na fonetické rovině jedno „zvukové slovo“. \\ Protože ortografická a fonetická rovina si musí odpovídat,\\ všechny členy přízvukového taktu sice spojíme, ale na místo jejich hranice vložíme svislici | //to je\\ v tomhle\\ do háje// | //tə%%|%%e\\ f%%|%%tomle\\ do%%|%%áje// | |je-li jedno ortograficky psané slovo ve výslovnosti rozděleno **do více přízvukových taktů**,\\ jsou tyto takty odděleny rovnítkem, opět se mezi ně nevkládá mezera | //paní XY\\ ČVUT\\ ČVUT\\ ČSSD//\\ | //paňí iks=ipsilon\\ čé=vé=ú=té\\ čévéú=té\\ čéesez=dé//\\ | Druhou zásadou fonetického přepisu je důsledná **korespondence mezi vrstvou ortografickou a fonetickou**. Tedy vše, co je součástí ortografického přepisu, musí být zachováno i na fonetické úrovni – značíme shodně **překryvy**, **pauzy**, **symboly pro (ne)ukončení replik**, zachováváme **anonymizační značky**, **kulaté závorky** pro nesrozumitelné úseky, neverbální zvuky ve **špičatých závorkách**. Co naopak při fonetické transkripci **nezachováváme**, jsou **otazník**, **spojovník**, **hvězdička**, signalizující nedokončená slova, ani **křížek** před příklonným s či spojkou li. Požadavku na korespondenci ortografické a fonetické roviny odpovídá i členění na přízvukové takty za pomoci svislítek a rozdělování jednoho ortografického slova do více taktů za pomoci rovnítka (viz výše). ===Tabulka grafémů a symbolů, které v přepisech (ne)používáme=== ^ Grafémy, které v přepise používáme ^ Grafémy, které v přepise nepoužíváme ^ | **á, é, ó, ú** | **ů** | | **i, í **(zcela výjimečně** y, ý**) | **y, ý** | | **a, e, i, o, u** | ** ** | | ** ** | **ě** | | **ə** | ** ** | | dvojhlásky** au, eu, ou** | ** ** | | **p, b, m** | ** ** | | **ɱ ** | ** ** | | **d, t, n** | ** ** | | **ŋ** | ** ** | | **ď, ť, ň** | ** ** | | **k, g** | ** ** | | **ch, h, ɣ** | ** ** | | **v **(výjimečně** w**) | ** ** | | **f** | ** ** | | ** ** | **q** | | **s, z** | ** ** | | **š, ž** | ** ** | | **c, ʒ** | ** ** | | **č, ʒʒ** | ** ** | | **ř** | **ř̥** (kroužek pod **ř** značí jeho neznělý protějšek) | | **r** | ** ** | | **ŕ** | ** ** | | **r** | ** ** | | **l** | ** ** | | **ł** | ** ** | | **ĺ** | ** ** | | **j** | ** ** | | ** ** | **x** | | výjimečně** ś** | | | výjimečně** ź** | | | výjimečně** dź** | | | výjimečně** ć** | | | výjimečně** r’** | | Jiné znaky ve stopě **fon**: ^ Používané ^ Nepoužívané ^ | ''. ..'' | **, „“ ᾽ ;** | | ''+'' | | | ''-'' | | | ** ** | **–** | | ** ** | * | | ''( )'' | | | ''[ ]'' | \\ | | ** ** | **#** | | ** ** | **! ?** | | ''@ @@'' | | | ''NP, NJ'' atd. | | | '' ''atd. | | | ''{ }'' | | ==== Metajazyková rovina ==== Tato rovina je určena pro zachycení neverbálních projevů mluvčích a doprovodných okolních zvuků. V korpusu ORTOFON byla sjednocena podoba takto zapisovaných poznámek (srov. využití pro hledání [[kurz:hledani_v_mluvenych_korpusech|v mluvených korpusech řady ORAL]]), což umožňuje lepší orientaci a [[kurz:hledani_ortofon|vyhledávání]]. ==== Jak citovat přepisovací pravidla ==== Benešová, L. – Komrsková, Z. – Kopřivová, M. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //Pravidla transkripce pro korpus ORTOFON//. Ústav Českého národního korpusu FF UK, Praha 2012. Dostupné z WWW: https://wiki.korpus.cz/doku.php/cnk:ortofon:pravidla ==== Poděkování ==== Za pomoc s přípravou transkripčních pravidel chceme poděkovat především prof. Marii Krčmové z FF MU v Brně, doc. Janu Volínovi, doc. Radku Skarnitzlovi a dr. Lence Weingartové z Fonetického ústavu FF UK. ===== Související odkazy ===== [[cnk:ortofon|ORTOFON]] • [[cnk:oral|ORAL]] • [[cnk:oral2006|ORAL2006]] • [[cnk:oral2008|ORAL2008]] • [[cnk:oral2013|ORAL2013]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]] • [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]] • [[kurz:hledani_ORTOFON|Hledání v korpusu ORTOFON]]