Toto je starší verze dokumentu!
Obsah
Transkripce v korpusu ORAL
Korpus ORAL sdružuje tři již publikované korpusy (ORAL2006, ORAL2008, ORAL2013) a k nim přibyvší data označená jako ORAL-Z. Pravidla pro transkripci se postupem času měnila, bylo proto nutné data sjednotit a upravit.
Transkripce jazykových jevů v korpusu ORAL (ve srovnání s předchozími korpusy řady ORAL)
Pojmenování jevu | ORAL2006 | ORAL2008 | ORAL2013 | ORAL |
---|---|---|---|---|
ustálená zjednodušená výslovnost | pudu, vemu, výde, pocem, dyž, neska, ňák, ďáli, štyry/štyři/čtyry/čtyři, pošta/počta, myslím/myslim/mysim1) | |||
zápis bez ohledu na výslovnost | zdvojené hlásky, předpona roz-, souhláskové skupiny: každodenní, rozsvítit, rozzlobit, pražští, hřbitov |
|||
slova začínající j- | dle výslovnosti: (j)sem, (j)méno, (j)estli |
|||
protetické v | dle výslovnosti: vokno, von |
|||
předpona vz- a souhláskové skupiny | dle pravopisu: vzbudit, vzpomenu | dle výslovnosti: vzbudit/zbudit, vzpomenu/spomenu | zápis zůstává stejný jako v jednotlivých korpusech: vzbudit i zbudit, vzpomenu i spomenu |
|
nářeční varianty | dle výslovnosti: kameň, perkýnko, strejdoj, zme, zrouna, vo našom, nélepší |
|||
souhlásková skupina šť | dle výslovnosti: ještě/ešče |
|||
asimilace znělosti | pravidelné jevy bez variant se zapisují dle pravopisu: dub, sbírat |
|||
- před R L M N Ň J | dle pravopisu: s máslem | dle výslovnosti: s máslem/z máslem, kupme/kubme | dle výslovnosti: s máslem/z máslem, kupme/kubme, kvůli/gvůli | zápis zůstává stejný jako v jednotlivých korpusech: s máslem i z máslem, kupme i kubme |
- skupina sh- | dle pravopisu: shoda | dle výslovnosti: schoda/zhoda | zápis zůstává stejný jako v jednotlivých korpusech: schoda i zhoda |
|
asimilace místa tvoření | dle pravopisu: rozčesat, sčítat | dle výslovnosti: roščesat2), ščítat | zápis zůstává stejný jako v jednotlivých korpusech: rozčesat i roščesat |
|
hranice slov | respektují se: pod čepicí (NE počepicí), to jo, no no |
|||
kvantita | zachycuje se krácení v koncovkách i základech slov: rohlik, vim, žensky (=ženský) |
|||
zachycuje se dloužení v koncovkách i základech slov, vč. emfatického dloužení: klucí, volál, sebú, bóže |
||||
komparativ a superlativ | dle pravopisu: novější, pěknější, vlasatější | moravské realizace s dlouhým ě zapisujeme jako kombinaci j + é: novjéši, pěkňéši, vlasaťéši | zápis zůstává stejný jako v jednotlivých korpusech: novější i novjéši, pěknější i pěkňéši |
|
zkratky | dle výslovnosti: pokud jako jedno slovo, píše se jako jedno slovo; pokud zvlášť, píše se zvlášť: dé vé dé/dý ví dý/dývídýčko, aids, ú es á | byla-li zkratka zapsána odděleně (ú es á), bylo z ní vytvořeno jedno slovo (úesá) | ||
neznámá X | zápis iks: po iks letech |
|||
velká písmena | u vlastních jmen dle pravopisu | |||
cizí slova | dle pravopisu: software |
|||
hezitace | zvuky spíše souhláskové se zapisují: hmm3) | zvuky spíše souhláskové se zapisují: mmm | hlásková povaha hezitačních zvuků se nerozlišuje, původní způsob zápisu nahrazen symbolem @ |
|
zvuky spíše samohláskové se zapisují: eee |
||||
responzní zvuky | viz hezitace | spíše přitakávací zvuky: hmm |
||
viz hezitace | spíše nesouhlasné, odporovací zvuky: emm |
|||
verbalizovaný smích | zápis dle slyšeného: haha/ha ha, chichi/chi chi |
Znaky a symboly použité v korpusu ORAL (ve srovnání s předchozími korpusy řady ORAL)
Jev | ORAL2006 | ORAL2008 | ORAL2013 | ORAL |
---|---|---|---|---|
nedořečené, neúplné slovo | značí se hvězdičkou * :koč* *ková nekázeň |
|||
pokud za nedořečeným slovem následuje jiné slovo, oddělují se čárkou: přijde zít*, pozítří | neoddělují se: přijde zít* pozítří |
|||
příklonné s | neznačí se | značí se *s :dělala *s | značí se #s :dělala #s |
|
spojovací výraz -li | psáno se spojovníkem -li a odsazeno od předchozího slova: dělala -li | psáno s křížkem #li a odsazeno od předchozího slova:dělala #li |
||
typ proň, naň | zapisuje se jako jedno slovo: proň, naň | na slovním švu se vyděluje za pomoci křížku # předložka a redukovaná forma zájmena:pro #ň, za #ň |
||
nesrozumitelný úsek | značí se --- | značí se kulatými závorkami, nesrozumitelné úseky zapisovány jako komentář:(nesrozumitelné) |
||
neukončené promluvy | značí se …: mysim že budu mít co dělat abych …: | značí se pomocí minus - :mysim že budu mít co dělat abych - |
||
přerušení promluvy | značí se … na začátku i konci přerušené promluvy: mluvčí 1: sjedeš z toho kopce přejedeš … mluvčí 2: no mluvčí 1: … přejedeš řeku | značí se pomocí + na začátku i konci přerušené promluvy: mluvčí 1: sjedeš z toho kopce přejedeš + mluvčí 2: no mluvčí 1: + přejedeš řeku |
||
poznámka, vysvětlivka v přepisu | zapisuje se do kulatých závorek () :(smích) (cizojazyčný projev) (citoslovce) (odmlčení)4) |
Interpunkční značky v korpusu ORAL (ve srovnání s předchozími korpusy řady ORAL)
ORAL2006 | ORAL2008 | ORAL2013 | ORAL | |||
---|---|---|---|---|---|---|
ORAL2006 | ORAL2008 | ORAL2013 + Z-ORAL | ||||
typ interpunkce | větná5) | pauzová6) | čárka se užívá v místě předpokládaného konce věty (místo tečky) | pauzová | ||
tečka (.) | označuje konec promluvy | tečka (.) značí kratší pauzu: sem mu řek že . nevim | neužívá se | tečka (.) značí kratší pauzu: sem mu řek že . nevim |
||
dvě tečky (..) | neužívá se | značí střední pauzu: no jo .. a co je eště novýho | neužívá se | značí střední pauzu: no jo .. a co je eště novýho |
||
čárka (,) | dle psaného jazyka: vona byla ještě svobodná , když tam byla , nebo už vdaná ? | neužívá se | užívá se v místě předpokládaného konce věty | neužívá se | ||
pokud za nedořečeným slovem následuje jiné slovo: přijde zít*, pozítří | neužívá se | |||||
neužívá se | u přerušení, změn větné perspektivy: támhleto vem* , vem* , támhleto vemte | neužívá se | ||||
neužívá se | při opakování stejných slov: to já nevim , nevim | neužívá se | ||||
otazník (?) | v otázkách a v případě tázací intonace: to je kdo ? |
|||||
vykřičník (!) | v případě zvolací intonace: jéžiš , já sem blbej ! |
|||||
spojovník (-) | zápis dle pravopisu (natěsno, bez mezer): e-mail, au-pair, byl-li | zápis dle pravopisu, s výjimkou spojky -li: e-mail, au-pair |
||||
přímá řeč ("") | neužívá se | značí se "…": řekl sem : " prosim ? " | neužívá se |
Anonymizační značky
Kvůli anonymitě byly v přepisech kódovány všechny citlivé údaje (zejména příjmení). Toto pravidlo se netýká jmen známých osob (herců, politiků, sportovců apod.). V případech, kdy si přepisující nebo nahrávaní nepřáli zveřejnit další údaje (např. místní jméno, křestní jméno, název firmy, telefonní číslo), byly kódovány i tyto údaje.
Následující tabulka uvádí seznam anonymizačních zkratek s jejich vysvětlením:
Anonymizační značka | Vysvětlení |
---|---|
NP | příjmení |
NJ | křestní jméno |
NN | přezdívka |
NM | místní jméno |
NO | ostatní vlastní jména |
NX | jiný citlivý údaj |