Zásady přepisu pro korpus ORAL2008
Přepisovací pravidla pro korpus ORAL2008 byla sestavena na základě zásad pro korpus ORAL2006, které připravil PhDr. Pavel Jančák, CSc. s ohledem na pravidla užívaná v PMK. Uvedené tři korpusy mluvené češtiny jsou tedy díky tomu vzájemně srovnatelné.
Přepis slov se blíží co nejvíce tradičnímu zápisu, tedy ne fonetické transkripci. Avšak v těch případech, kdy se svými ustálenými podobami běžná mluva pravidelně odlišuje od výslovnosti spisovné, není respektován tradiční zápis a je zaznamenána tato odlišná výslovnost. Zapisuje se tedy např. sem (= jsem), štyři/štyry (= čtyři), pudu (= půjdu), já si to vemu (= vezmu). Zachycují se příznakové rysy běžné mluvy, a to včetně rysů regionálních (např. zrouna, Horažďojce, strejdoj). Zaznamenávají se i případy, kdy se může různě realizovat spodoba znělosti (s máslem/z máslem). Naopak tradiční zápis se volí u takových souhláskových skupin, u kterých i spisovná výslovnost předpokládá výslovnost zjednodušenou (kamennej, každodenní). Do spisovné podoby je sjednocován i zápis těch souhláskových skupin, jejichž konkrétní zvuková realizace závisí na míře pečlivosti při vyslovování, na tempu apod. (vzpomenu si, i když se vyslovuje jako spomenu si). Neregistruje se ani splývavá artikulaci koncových souhlásek na mezislovních předělech (pod čepicí, i když bylo vysloveno počepicí). V těch pravidelných jevech, kde se i tradiční forma psaná od formy mluvené (ať spisovné, či nespisovné) vždy odlišuje, se zapisuje touto tradiční formou zápisu (rozdíl i–y; dě, tě, ně; bě, pě, mě; spodoba znělosti atd.). V přepisech se vyskytují dublety, přičemž někdy jde o varianty regionální (počta – pošta).
Odlišná kvantita se registruje, a to jak kvantita fonologická (regionální podoby rohlik, klucí, pánove, pět kluku), tak emfatická (bóže, bylo to dlóuhý). Neoznačuje se však prodlužování slabik na konci kóla a prodlužování dané váháním (v případech jako já sem tam přišél, no a voni tam už byli).
Nedořečené slovo je vyznačeno hvězdičkou za slovem a čárkou (to bylo vče*, převčírem), případně před slovem (*ková hrubá nekázeň). Pokud za nedořečeným slovem následuje totéž slovo, ale už dořečené, oddělují se jen mezerou (nedo* nedořečené, i v případě, kdy jde o přeřeknutí jako neda* nedořečené). Různé parazitní zvukové projevy doprovázející mluvený projev jsou zaznamenány seskupením vždy tří písmen, a to většinou hmm pro zvuky spíše souhláskové a eee pro zvuky spíše vokalické. Cizí vlastní jména (osobní i zeměpisná) se píší původním pravopisem, např. New York, podobně i firmy (Oriflame), výrobky (discman) a jiné (hardware). Zkratky jsou zapsány tak, jak byly vysloveny, tedy ne DVD, ale dé vé dé nebo dý ví dý, případně dývídýčko. Zápisu se řídí podle toho, zda byla zkratka vyslovena dohromady jako jedno slovo (aids), pomocí pojmenování hlásek (ú es á) nebo byly jednotlivé hlásky vysloveny zvlášť (v š e). Pouze zkratky, která se vyslovují pravidelně tak, jak se píší, ponecháváme v tradiční podobě (NATO). Neznámá „x“ se přepisuje jako iks (prvních iks let života).
Hranice vět se vyznačují jen interpunkcí, na začátku věty je vždy malé písmeno. Větné interpunkce se užívá tak, jak je to obvyklé v textech psaných, tj. nezachycuje se přerušování věty pauzami, naopak pravopisně náležitá čárka ve větách a v souvětích je zapsána, i když se větné předěly pauzou nerealizují. Zvláštní rysy syntaktické stránky mluvených projevů (přeřeknutí, přerušování a změny větné perspektivy, přiřazování vět a větných úseků apod.) jsou zachyceny zjednodušeně, většinou pouze pomocí čárky. Pokud se slova opakují, jsou oddělena čárkou. Neukončené věty se označují třemi tečkami s dvojtečkou odsazenými mezerou, tedy …: Případ, kdy je mluvčí přerušen jiným mluvčím, ale ve výpovědi později pokračuje, se v dialogu značí třemi tečkami na konci přerušené výpovědi i na začátku její navazující části. Pokud je nutné zapsat do textu poznámku nebo vysvětlivku k nějaké mimořádné situaci, užívají se k odlišení takového textu kulaté závorky. Také přerušení promluvy smíchem se zachycuje poznámkou v kulatých závorkách (smích). Úseky, které se nepodařilo při přepisu rozluštit, se vyznačují třemi krátkými pomlčkami. Přímá řeč se zaznamenává někdy běžně, tj. uvozovkami, avšak v častých případech, kdy není jasné, kde jsou hranice přímé řeči, je oddělena pouze čárkami bez uvozovek.
Kvůli anonymitě jsou příjmení a přezdívky kódovány, tzn. jsou vždy nahrazeny zkratkami NP
za příjmení a NN
za přezdívku. Na přání mluvčích mohou být kódována i křestní jména (NJ
), místní názvy (NM
) a další vlastní jména, např. názvy firem (NO
).
Seznam použitého označování:
Značka | Vysvětlení |
---|---|
…: | označení neukončené věty |
… | označení přerušené výpovědi |
— | úsek, který se nepodařilo rozluštit |
* | nedořečené slovo |
hmm | označení souhláskových zvuků |
eee | označení samohláskových zvuků |
(mluví ke kočce), (smích) | komentář k situaci, přerušení promluvy smíchem |
NP | příjmení |
NN | přezdívka |
NJ | křestní jméno |
NM | název místa |
NO | ostatní vlastní jména |
– Martina Waclawičová