====== Transkripce v korpusu ORAL ====== Korpus [[cnk:oral|ORAL]] sdružuje tři již publikované korpusy ([[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]], [[cnk:oral2013|ORAL2013]]) a k nim přibyvší data označená jako ORAL-Z. Pravidla pro transkripci se postupem času měnila, bylo proto nutné data sjednotit a [[cnk:oral#vytvoreni_korpusu_oral|upravit]]. Tato stránka shrnuje proměny transkripce napříč všemi třemi korpusy řady ORAL a sjednoceným korpusem ORAL. ===== Transkripce jazykových jevů ===== ^ Pojmenování jevu ^ ORAL2006 ^ ORAL2008 ^ ORAL2013 ^ ORAL ^ | **ustálená zjednodušená výslovnost** | //pudu, vemu, výde, pocem, dyž, neska, ňák, ďáli, štyry/štyři/čtyry/čtyři, pošta/počta, myslím/myslim/mysim//((Toto není ani zdaleka vyčerpávající výčet; zejména pokud hledáte frekventovaná/výplňková slova (//protože//, //vlastně// atp.), důrazně doporučujeme nahlédnout do pravidel pro přepis korpusů [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]] a {{:cnk:prepisovaci_pravidla_oral2013.pdf|ORAL2013}}, zda se v nich nepočítá s různými variantami.)) |||| | **zápis bez ohledu na výslovnost** | zdvojené hlásky, předpona **roz-**, souhláskové skupiny:\\ //každodenní, rozsvítit, rozzlobit, pražští, hřbitov// |||| | **slova začínající j-** | dle výslovnosti:\\ //(j)sem, (j)méno, (j)estli// |||| | **protetické v** | dle výslovnosti:\\ //vokno, von// |||| | **předpona vz- a souhláskové skupiny** | dle pravopisu:\\ //vzbudit, vzpomenu// || dle výslovnosti:\\ //vzbudit/zbudit, vzpomenu/spomenu// | zápis zůstává stejný jako v jednotlivých korpusech: \\ //vzbudit// i //zbudit//, //vzpomenu// i //spomenu// | | **nářeční varianty** | dle výslovnosti:\\ //kameň, perkýnko, strejdoj, zme, zrouna, vo našom, nélepší// |||| | **souhlásková skupina šť** | dle výslovnosti:\\ //ještě/ešče// |||| | **asimilace znělosti** | pravidelné jevy bez variant se zapisují dle pravopisu:\\ //dub, sbírat// |||| | - **před R L M N Ň J** | dle pravopisu:\\ //s máslem// | dle výslovnosti:\\ //s máslem/z máslem, kupme/kubme// | dle výslovnosti:\\ //s máslem/z máslem, kupme/kubme, kvůli/gvůli// | zápis zůstává stejný jako v jednotlivých korpusech:\\ //s máslem// i //z máslem//, //kupme// i //kubme// | | - **skupina sh-** | dle pravopisu:\\ //shoda// | dle výslovnosti:\\ //schoda/zhoda// || zápis zůstává stejný jako v jednotlivých korpusech:\\ //schoda// i //zhoda// | | **asimilace místa tvoření** | dle pravopisu:\\ //rozčesat, sčítat// || dle výslovnosti:\\ //roščesat//((S výjimkou asimilace místa tvoření zachováváme předponu roz-, viz výše.)), //ščítat// | zápis zůstává stejný jako v jednotlivých korpusech:\\ //rozčesat// i //roščesat// | | **hranice slov** | respektují se:\\ //pod čepicí// (**NE** //počepicí//), //to jo, no no// |||| | **kvantita** | zachycuje se **krácení** v koncovkách i základech slov:\\ //rohlik, vim, žensky (=ženský)// |||| | ::: | zachycuje se **dloužení** v koncovkách i základech slov, vč. emfatického dloužení:\\ //klucí, volál, sebú, bóže// |||| | **komparativ a superlativ** | dle pravopisu:\\ //novější, pěknější, vlasatější// || moravské realizace s dlouhým **ě** zapisujeme jako kombinaci **j** + **é**:\\ //novjéši, pěkňéši, vlasaťéši// | zápis zůstává stejný jako v jednotlivých korpusech:\\ //novější// i //novjéši//, //pěknější// i //pěkňéši// | | **zkratky** | dle výslovnosti: pokud jako jedno slovo, píše se jako jedno slovo; pokud zvlášť, píše se zvlášť:\\ //dé vé dé/dý ví dý/dývídýčko, aids, ú es á// ||| byla-li zkratka zapsána odděleně (//ú es á//), bylo z ní vytvořeno jedno slovo (//úesá//) | | **neznámá X** | zápis //iks//:\\ //po iks letech// |||| | **velká písmena** | u vlastních jmen dle pravopisu |||| | **cizí slova** | dle pravopisu:\\ //software// |||| | **hezitace** | zvuky spíše souhláskové se zapisují:\\ //hmm//((Vždy pouze 3 písmena.)) || zvuky spíše souhláskové se zapisují:\\ //mmm// | hlásková povaha hezitačních zvuků\\ se nerozlišuje, původní způsob zápisu\\ nahrazen symbolem //@// | | ::: | zvuky spíše samohláskové se zapisují:\\ //eee// ||| ::: | | **responzní zvuky** | viz **hezitace** || spíše přitakávací zvuky:\\ //hmm// || | ::: | viz **hezitace** || spíše nesouhlasné, odporovací zvuky:\\ //emm// || | **verbalizovaný smích** | zápis dle slyšeného:\\ //haha/ha ha, chichi/chi chi// |||| ===== Znaky a symboly ===== ^ Jev ^ ORAL2006 ^ ORAL2008 ^ ORAL2013 ^ ORAL ^ | **nedořečené, neúplné slovo** | značí se hvězdičkou ''*'':\\ //koč* *ková nekázeň// |||| | | pokud za nedořečeným slovem následuje jiné slovo, **oddělují** se čárkou:\\ //přijde zít*, pozítří// || **neoddělují** se:\\ //přijde zít* pozítří// || | **příklonné s** | neznačí se || značí se ''*s'':\\ //dělala *s// | značí se ''#s'':\\ //dělala #s// | | **spojovací výraz -li** | psáno se spojovníkem ''-li'' a odsazeno od předchozího slova: \\ //dělala -li// ||| psáno s křížkem ''#li'' a odsazeno od předchozího slova:\\ //dělala #li// | | **typ //proň, naň//** | zapisuje se jako jedno slovo:\\ //proň//, //naň// ||| na slovním švu se vyděluje za pomoci **křížku** ''#'' předložka a redukovaná forma zájmena:\\ //pro #ň//, //za #ň// | | **nesrozumitelný úsek** | značí se %%---%% ||| značí se **kulatými závorkami**, nesrozumitelné úseky zapisovány jako komentář:\\ ''(nesrozumitelné)'' | | **neukončené promluvy** | značí se ''...:''\\ //mysim že budu mít co dělat abych ...:// ||| značí se pomocí **minus** ''-'':\\ //mysim že budu mít co dělat abych -// | | **přerušení promluvy** | značí se ... na začátku i konci přerušené promluvy:\\ mluvčí 1: //sjedeš z toho kopce přejedeš ...//\\ mluvčí 2: //no//\\ mluvčí 1: //... přejedeš řeku// ||| značí se pomocí **plus** ''+'' na začátku i konci přerušené promluvy:\\ mluvčí 1: //sjedeš z toho kopce přejedeš +//\\ mluvčí 2: //no//\\ mluvčí 1: //+ přejedeš řeku// | | **poznámka, vysvětlivka v přepisu** | zapisuje se do kulatých závorek ''()'':\\ //(smích) (cizojazyčný projev) (citoslovce) (odmlčení)//((Tj. výrazně dlouhá pauza.)) |||| ===== Interpunkční značky ===== | ^ ORAL2006 ^ ORAL2008 ^ ORAL2013 ^ ORAL ||| | | | | ^ ORAL2006 ^ ORAL2008 ^ ORAL2013 + Z-ORAL | | **typ interpunkce** | větná((Dle psaného jazyka.)) || pauzová((Je nezávislá na psaném jazyce, značí se v ní realizované pauzy.)) | čárka se užívá v místě předpokládaného konce věty (místo tečky) || pauzová | | **tečka (.)** | označuje konec promluvy || tečka (.) značí **kratší** pauzu:\\ //sem mu řek že . nevim// | neužívá se || tečka (.) značí **kratší** pauzu:\\ //sem mu řek že . nevim// | | **dvě tečky (..)** | neužívá se || značí **střední pauzu**:\\ //no jo .. a co je eště novýho// | neužívá se || značí **střední pauzu**:\\ //no jo .. a co je eště novýho// | | **čárka (,)** | dle psaného jazyka:\\ //vona byla ještě svobodná , když tam byla , nebo už vdaná ?// || neužívá se | užívá se v místě předpokládaného konce věty || neužívá se | | | pokud za nedořečeným slovem následuje jiné slovo:\\ //přijde zít*, pozítří// || neužívá se |||| | | neužívá se | u přerušení, změn větné perspektivy:\\ //támhleto vem* , vem* , támhleto vemte// | neužívá se |||| | | neužívá se | při opakování stejných slov:\\ //to já nevim , nevim// | neužívá se |||| | **otazník (?)** | v otázkách a v případě tázací intonace:\\ //to je kdo ?// |||||| | **vykřičník (!)** | v případě zvolací intonace:\\ //jéžiš// , //já sem blbej !// |||||| | **spojovník (-)** | zápis dle pravopisu (natěsno, bez mezer):\\ //e-mail, au-pair, byl-li// ||| zápis dle pravopisu, s výjimkou spojky -li:\\ //e-mail//, //au-pair// ||| | **přímá řeč (%%""%%)** | neužívá se | značí se %%"%%...%%"%%:\\ //řekl sem : %%"%% prosim ? %%"%%// | neužívá se |||| ===== Anonymizační značky ===== Kvůli anonymitě byly v přepisech kódovány všechny citlivé údaje (zejména příjmení). Toto pravidlo se netýká jmen známých osob (herců, politiků, sportovců apod.). V případech, kdy si přepisující nebo nahrávaní nepřáli zveřejnit další údaje (např. místní jméno, křestní jméno, název firmy, telefonní číslo), byly kódovány i tyto údaje. Následující tabulka uvádí seznam anonymizačních zkratek s jejich vysvětlením: ^ Anonymizační značka ^ Vysvětlení ^ | NP | příjmení | | NJ | křestní jméno | | NN | přezdívka | | NM | místní jméno | | NO | ostatní vlastní jména | | NX | jiný citlivý údaj | ===== Související odkazy ===== [[cnk:oral|ORAL]] • [[cnk:oral2006|ORAL2006]] • [[cnk:oral2008|ORAL2008]] • [[cnk:oral2013|ORAL2013]] • [[cnk:pmk|PMK]] • [[cnk:bmk|BMK]] • [[cnk:schola2010|SCHOLA2010]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]] • [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]] • [[kurz:hledani_ORTOFON|Hledání v korpusu ORTOFON]]