AplikaceAplikace
Nastavení

Transkripce v korpusu ORAL

Korpus ORAL sdružuje tři již publikované korpusy (ORAL2006, ORAL2008, ORAL2013) a k nim přibyvší data označená jako ORAL-Z. Pravidla pro transkripci se postupem času měnila, bylo proto nutné data sjednotit a upravit. Tato stránka shrnuje proměny transkripce napříč všemi třemi korpusy řady ORAL a sjednoceným korpusem ORAL.

Transkripce jazykových jevů

Pojmenování jevu ORAL2006 ORAL2008 ORAL2013 ORAL
ustálená zjednodušená výslovnost pudu, vemu, výde, pocem, dyž, neska, ňák, ďáli, štyry/štyři/čtyry/čtyři, pošta/počta, myslím/myslim/mysim1)
zápis bez ohledu na výslovnost zdvojené hlásky, předpona roz-, souhláskové skupiny:
každodenní, rozsvítit, rozzlobit, pražští, hřbitov
slova začínající j- dle výslovnosti:
(j)sem, (j)méno, (j)estli
protetické v dle výslovnosti:
vokno, von
předpona vz- a souhláskové skupiny dle pravopisu:
vzbudit, vzpomenu
dle výslovnosti:
vzbudit/zbudit, vzpomenu/spomenu
zápis zůstává stejný jako v jednotlivých korpusech:
vzbudit i zbudit, vzpomenu i spomenu
nářeční varianty dle výslovnosti:
kameň, perkýnko, strejdoj, zme, zrouna, vo našom, nélepší
souhlásková skupina šť dle výslovnosti:
ještě/ešče
asimilace znělosti pravidelné jevy bez variant se zapisují dle pravopisu:
dub, sbírat
- před R L M N Ň J dle pravopisu:
s máslem
dle výslovnosti:
s máslem/z máslem, kupme/kubme
dle výslovnosti:
s máslem/z máslem, kupme/kubme, kvůli/gvůli
zápis zůstává stejný jako v jednotlivých korpusech:
s máslem i z máslem, kupme i kubme
- skupina sh- dle pravopisu:
shoda
dle výslovnosti:
schoda/zhoda
zápis zůstává stejný jako v jednotlivých korpusech:
schoda i zhoda
asimilace místa tvoření dle pravopisu:
rozčesat, sčítat
dle výslovnosti:
roščesat2), ščítat
zápis zůstává stejný jako v jednotlivých korpusech:
rozčesat i roščesat
hranice slov respektují se:
pod čepicí (NE počepicí), to jo, no no
kvantita zachycuje se krácení v koncovkách i základech slov:
rohlik, vim, žensky (=ženský)
zachycuje se dloužení v koncovkách i základech slov, vč. emfatického dloužení:
klucí, volál, sebú, bóže
komparativ a superlativ dle pravopisu:
novější, pěknější, vlasatější
moravské realizace s dlouhým ě zapisujeme jako kombinaci j + é:
novjéši, pěkňéši, vlasaťéši
zápis zůstává stejný jako v jednotlivých korpusech:
novější i novjéši, pěknější i pěkňéši
zkratky dle výslovnosti: pokud jako jedno slovo, píše se jako jedno slovo; pokud zvlášť, píše se zvlášť:
dé vé dé/dý ví dý/dývídýčko, aids, ú es á
byla-li zkratka zapsána odděleně (ú es á), bylo z ní vytvořeno jedno slovo (úesá)
neznámá X zápis iks:
po iks letech
velká písmena u vlastních jmen dle pravopisu
cizí slova dle pravopisu:
software
hezitace zvuky spíše souhláskové se zapisují:
hmm3)
zvuky spíše souhláskové se zapisují:
mmm
hlásková povaha hezitačních zvuků
se nerozlišuje, původní způsob zápisu
nahrazen symbolem @
zvuky spíše samohláskové se zapisují:
eee
responzní zvuky viz hezitace spíše přitakávací zvuky:
hmm
viz hezitace spíše nesouhlasné, odporovací zvuky:
emm
verbalizovaný smích zápis dle slyšeného:
haha/ha ha, chichi/chi chi

Znaky a symboly

Jev ORAL2006 ORAL2008 ORAL2013 ORAL
nedořečené, neúplné slovo značí se hvězdičkou *:
koč* *ková nekázeň
pokud za nedořečeným slovem následuje jiné slovo, oddělují se čárkou:
přijde zít*, pozítří
neoddělují se:
přijde zít* pozítří
příklonné s neznačí se značí se *s:
dělala *s
značí se #s:
dělala #s
spojovací výraz -li psáno se spojovníkem -li a odsazeno od předchozího slova:
dělala -li
psáno s křížkem #li a odsazeno od předchozího slova:
dělala #li
typ proň, naň zapisuje se jako jedno slovo:
proň, naň
na slovním švu se vyděluje za pomoci křížku # předložka a redukovaná forma zájmena:
pro #ň, za #ň
nesrozumitelný úsek značí se --- značí se kulatými závorkami, nesrozumitelné úseky zapisovány jako komentář:
(nesrozumitelné)
neukončené promluvy značí se …:
mysim že budu mít co dělat abych …:
značí se pomocí minus -:
mysim že budu mít co dělat abych -
přerušení promluvy značí se … na začátku i konci přerušené promluvy:
mluvčí 1: sjedeš z toho kopce přejedeš …
mluvčí 2: no
mluvčí 1: … přejedeš řeku
značí se pomocí plus + na začátku i konci přerušené promluvy:
mluvčí 1: sjedeš z toho kopce přejedeš +
mluvčí 2: no
mluvčí 1: + přejedeš řeku
poznámka, vysvětlivka v přepisu zapisuje se do kulatých závorek ():
(smích) (cizojazyčný projev) (citoslovce) (odmlčení)
4)

Interpunkční značky

ORAL2006 ORAL2008 ORAL2013 ORAL
ORAL2006 ORAL2008 ORAL2013 + Z-ORAL
typ interpunkce větná5) pauzová6) čárka se užívá v místě předpokládaného konce věty (místo tečky) pauzová
tečka (.) označuje konec promluvy tečka (.) značí kratší pauzu:
sem mu řek že . nevim
neužívá se tečka (.) značí kratší pauzu:
sem mu řek že . nevim
dvě tečky (..) neužívá se značí střední pauzu:
no jo .. a co je eště novýho
neužívá se značí střední pauzu:
no jo .. a co je eště novýho
čárka (,) dle psaného jazyka:
vona byla ještě svobodná , když tam byla , nebo už vdaná ?
neužívá se užívá se v místě předpokládaného konce věty neužívá se
pokud za nedořečeným slovem následuje jiné slovo:
přijde zít*, pozítří
neužívá se
neužívá se u přerušení, změn větné perspektivy:
támhleto vem* , vem* , támhleto vemte
neužívá se
neužívá se při opakování stejných slov:
to já nevim , nevim
neužívá se
otazník (?) v otázkách a v případě tázací intonace:
to je kdo ?
vykřičník (!) v případě zvolací intonace:
jéžiš , já sem blbej !
spojovník (-) zápis dle pravopisu (natěsno, bez mezer):
e-mail, au-pair, byl-li
zápis dle pravopisu, s výjimkou spojky -li:
e-mail, au-pair
přímá řeč ("") neužívá se značí se "…":
řekl sem : " prosim ? "
neužívá se

Anonymizační značky

Kvůli anonymitě byly v přepisech kódovány všechny citlivé údaje (zejména příjmení). Toto pravidlo se netýká jmen známých osob (herců, politiků, sportovců apod.). V případech, kdy si přepisující nebo nahrávaní nepřáli zveřejnit další údaje (např. místní jméno, křestní jméno, název firmy, telefonní číslo), byly kódovány i tyto údaje.

Následující tabulka uvádí seznam anonymizačních zkratek s jejich vysvětlením:

Anonymizační značka Vysvětlení
NP příjmení
NJ křestní jméno
NN přezdívka
NM místní jméno
NO ostatní vlastní jména
NX jiný citlivý údaj

Související odkazy

1)
Toto není ani zdaleka vyčerpávající výčet; zejména pokud hledáte frekventovaná/výplňková slova (protože, vlastně atp.), důrazně doporučujeme nahlédnout do pravidel pro přepis korpusů ORAL2006, ORAL2008 a ORAL2013, zda se v nich nepočítá s různými variantami.
2)
S výjimkou asimilace místa tvoření zachováváme předponu roz-, viz výše.
3)
Vždy pouze 3 písmena.
4)
Tj. výrazně dlouhá pauza.
5)
Dle psaného jazyka.
6)
Je nezávislá na psaném jazyce, značí se v ní realizované pauzy.