Toto je starší verze dokumentu!
Obsah
Transkripce v korpusu ORAL
Korpus ORAL sdružuje tři již publikované korpusy (ORAL2006, ORAL2008, ORAL2013) a k nim přibyvší data označená jako ORAL-Z. Pravidla pro transkripci se postupem času měnila, bylo proto nutné data sjednotit a upravit. Tato stránka shrnuje proměny transkripce napříč všemi třemi korpusy řady ORAL a sjednoceným korpusem ORAL.
Transkripce jazykových jevů
| Pojmenování jevu | ORAL2006 | ORAL2008 | ORAL2013 | ORAL |
|---|---|---|---|---|
| ustálená zjednodušená výslovnost | pudu, vemu, výde, pocem, dyž, neska, ňák, ďáli, štyry/štyři/čtyry/čtyři, pošta/počta, myslím/myslim/mysim1) | |||
| zápis bez ohledu na výslovnost | zdvojené hlásky, předpona roz-, souhláskové skupiny: každodenní, rozsvítit, rozzlobit, pražští, hřbitov |
|||
| slova začínající j- | dle výslovnosti: (j)sem, (j)méno, (j)estli |
|||
| protetické v | dle výslovnosti: vokno, von |
|||
| předpona vz- a souhláskové skupiny | dle pravopisu: vzbudit, vzpomenu | dle výslovnosti: vzbudit/zbudit, vzpomenu/spomenu | zápis zůstává stejný jako v jednotlivých korpusech: vzbudit i zbudit, vzpomenu i spomenu |
|
| nářeční varianty | dle výslovnosti: kameň, perkýnko, strejdoj, zme, zrouna, vo našom, nélepší |
|||
| souhlásková skupina šť | dle výslovnosti: ještě/ešče |
|||
| asimilace znělosti | pravidelné jevy bez variant se zapisují dle pravopisu: dub, sbírat |
|||
| - před R L M N Ň J | dle pravopisu: s máslem | dle výslovnosti: s máslem/z máslem, kupme/kubme | dle výslovnosti: s máslem/z máslem, kupme/kubme, kvůli/gvůli | zápis zůstává stejný jako v jednotlivých korpusech: s máslem i z máslem, kupme i kubme |
| - skupina sh- | dle pravopisu: shoda | dle výslovnosti: schoda/zhoda | zápis zůstává stejný jako v jednotlivých korpusech: schoda i zhoda |
|
| asimilace místa tvoření | dle pravopisu: rozčesat, sčítat | dle výslovnosti: roščesat2), ščítat | zápis zůstává stejný jako v jednotlivých korpusech: rozčesat i roščesat |
|
| hranice slov | respektují se: pod čepicí (NE počepicí), to jo, no no |
|||
| kvantita | zachycuje se krácení v koncovkách i základech slov: rohlik, vim, žensky (=ženský) |
|||
| zachycuje se dloužení v koncovkách i základech slov, vč. emfatického dloužení: klucí, volál, sebú, bóže |
||||
| komparativ a superlativ | dle pravopisu: novější, pěknější, vlasatější | moravské realizace s dlouhým ě zapisujeme jako kombinaci j + é: novjéši, pěkňéši, vlasaťéši | zápis zůstává stejný jako v jednotlivých korpusech: novější i novjéši, pěknější i pěkňéši |
|
| zkratky | dle výslovnosti: pokud jako jedno slovo, píše se jako jedno slovo; pokud zvlášť, píše se zvlášť: dé vé dé/dý ví dý/dývídýčko, aids, ú es á | byla-li zkratka zapsána odděleně (ú es á), bylo z ní vytvořeno jedno slovo (úesá) | ||
| neznámá X | zápis iks: po iks letech |
|||
| velká písmena | u vlastních jmen dle pravopisu | |||
| cizí slova | dle pravopisu: software |
|||
| hezitace | zvuky spíše souhláskové se zapisují: hmm3) | zvuky spíše souhláskové se zapisují: mmm | hlásková povaha hezitačních zvuků se nerozlišuje, původní způsob zápisu nahrazen symbolem @ |
|
| zvuky spíše samohláskové se zapisují: eee |
||||
| responzní zvuky | viz hezitace | spíše přitakávací zvuky: hmm |
||
| viz hezitace | spíše nesouhlasné, odporovací zvuky: emm |
|||
| verbalizovaný smích | zápis dle slyšeného: haha/ha ha, chichi/chi chi |
|||
Znaky a symboly
| Jev | ORAL2006 | ORAL2008 | ORAL2013 | ORAL |
|---|---|---|---|---|
| nedořečené, neúplné slovo | značí se hvězdičkou *:koč* *ková nekázeň |
|||
| pokud za nedořečeným slovem následuje jiné slovo, oddělují se čárkou: přijde zít*, pozítří | neoddělují se: přijde zít* pozítří |
|||
| příklonné s | neznačí se | značí se *s:dělala *s | značí se #s:dělala #s |
|
| spojovací výraz -li | psáno se spojovníkem -li a odsazeno od předchozího slova: dělala -li | psáno s křížkem #li a odsazeno od předchozího slova:dělala #li |
||
| typ proň, naň | zapisuje se jako jedno slovo: proň, naň | na slovním švu se vyděluje za pomoci křížku # předložka a redukovaná forma zájmena:pro #ň, za #ň |
||
| nesrozumitelný úsek | značí se --- | značí se kulatými závorkami, nesrozumitelné úseky zapisovány jako komentář:(nesrozumitelné) |
||
| neukončené promluvy | značí se …:mysim že budu mít co dělat abych …: | značí se pomocí minus -:mysim že budu mít co dělat abych - |
||
| přerušení promluvy | značí se … na začátku i konci přerušené promluvy: mluvčí 1: sjedeš z toho kopce přejedeš … mluvčí 2: no mluvčí 1: … přejedeš řeku | značí se pomocí + na začátku i konci přerušené promluvy:mluvčí 1: sjedeš z toho kopce přejedeš + mluvčí 2: no mluvčí 1: + přejedeš řeku |
||
| poznámka, vysvětlivka v přepisu | zapisuje se do kulatých závorek ():(smích) (cizojazyčný projev) (citoslovce) (odmlčení)4) |
|||
Interpunkční značky
| ORAL2006 | ORAL2008 | ORAL2013 | ORAL | |||
|---|---|---|---|---|---|---|
| ORAL2006 | ORAL2008 | ORAL2013 + Z-ORAL | ||||
| typ interpunkce | větná5) | pauzová6) | čárka se užívá v místě předpokládaného konce věty (místo tečky) | pauzová | ||
| tečka (.) | označuje konec promluvy | tečka (.) značí kratší pauzu: sem mu řek že . nevim | neužívá se | tečka (.) značí kratší pauzu: sem mu řek že . nevim |
||
| dvě tečky (..) | neužívá se | značí střední pauzu: no jo .. a co je eště novýho | neužívá se | značí střední pauzu: no jo .. a co je eště novýho |
||
| čárka (,) | dle psaného jazyka: vona byla ještě svobodná , když tam byla , nebo už vdaná ? | neužívá se | užívá se v místě předpokládaného konce věty | neužívá se | ||
| pokud za nedořečeným slovem následuje jiné slovo: přijde zít*, pozítří | neužívá se | |||||
| neužívá se | u přerušení, změn větné perspektivy: támhleto vem* , vem* , támhleto vemte | neužívá se | ||||
| neužívá se | při opakování stejných slov: to já nevim , nevim | neužívá se | ||||
| otazník (?) | v otázkách a v případě tázací intonace: to je kdo ? |
|||||
| vykřičník (!) | v případě zvolací intonace: jéžiš , já sem blbej ! |
|||||
| spojovník (-) | zápis dle pravopisu (natěsno, bez mezer): e-mail, au-pair, byl-li | zápis dle pravopisu, s výjimkou spojky -li: e-mail, au-pair |
||||
| přímá řeč ("") | neužívá se | značí se "…": řekl sem : " prosim ? " | neužívá se | |||
Anonymizační značky
Kvůli anonymitě byly v přepisech kódovány všechny citlivé údaje (zejména příjmení). Toto pravidlo se netýká jmen známých osob (herců, politiků, sportovců apod.). V případech, kdy si přepisující nebo nahrávaní nepřáli zveřejnit další údaje (např. místní jméno, křestní jméno, název firmy, telefonní číslo), byly kódovány i tyto údaje.
Následující tabulka uvádí seznam anonymizačních zkratek s jejich vysvětlením:
| Anonymizační značka | Vysvětlení |
|---|---|
| NP | příjmení |
| NJ | křestní jméno |
| NN | přezdívka |
| NM | místní jméno |
| NO | ostatní vlastní jména |
| NX | jiný citlivý údaj |