Obsah
Zásady pro přepis korpusu SKRIPT2012
Přepis je koncipován tak, aby v přepsaném textu zůstalo zachováno maximum informací obsažených v původním rukopisu, zpracovatelé tedy v žádném případě text neopravovali ani neupravovali. Přepsán byl pouze text žáka a případné učitelem zadané úseky textu, sloužící žákovi jako vodítko (např. začátek práce, osnova atp.). Nebyly přepisovány komentáře a poznámky učitele, ani jeho opravy.
Pouze v případě určitých úseků, zvláště u problematických částí textu (např. nečitelný text ap.), je přepis doprovázen smluvenými znaky a kódy.
Pro identifikaci vybraných jevů se používají následující kódy:
<dt> část textu zadaná učitelem;
<dt cp osn> celý text osnovy (zadané učitelem);
<li> přepis odrážek v textu žáka;
<img> obrázek v textu žáka;
<priv> osobní údaje (např. adresa, mail, telefonní číslo).
Tzv. chybové kódy:
<ni > interpretace nečitelného textu zpracovatelem;
<co> komentář zpracovatele textu k jednomu konkrétnímu slovu;
<co para> komentář zpracovatele textu k příslušnému odstavci;
<co doc> komentář zpracovatele textu k celému dokumentu/k práci;
<.> ; <?> chybějící interpunkční znaménko v textu žáka.
Zásady transkripce
- Při přepisu bylo nutné brát v potaz celý text a respektovat způsob psaní autora.
- Pokud se v původním textu objevilo „i“ a „j“ bez tečky, byla tečka v přepisu doplněna.
- Když se v textu psaném na PC objevily typografické chyby (např. po tečce na konci věty nebo za čárkami nebyly mezery), zpracovatel textu je opravil podle typografických pravidel.
- V ojedinělých případech se může stát, že v celém textu nejsou rozeznatelné hranice mezi větami (pisatel například neužívá interpunkci); takový text je zachován v původní podobě, tedy bez interpunkce.
- Pokud v textu pisatel zapomněl napsat tečku za větou a mezi větami je zřetelný předěl (mezera, velké písmeno na začátku nové věty), bylo to zaznamenáno pomocí kódu <.> . V případě, že předěl není znát, je tento úsek přepsán tak, jak je zapsán v původním textu, tj. bez kódu <.>.
- Pokud text obsahuje tečky (autor tím dává najevo, že přemýšlí o tématu, či jde o nedokončenou větu; může se vyskytovat i větší počet teček), jsou v přepisu vždy tři tečky.
- Dělení slov na konci řádku se nezaznamenává.
- Odrážky ve všech grafických podobách se přepisují kódem <li> . Kód se píše vždy na začátek věty, každá odrážka s textem má pak podobu odstavce a odděluje se jedním prázdným řádkem.
- Předtištěný text je přepsán pomocí kódu <dt> (žák navazuje na předtištěný text zadaný učitelem). Předtištěný text se nachází ve složených závorkách a hned za něj bez mezery je připsán kód <dt>.
Např.: {Ahoj Jakube}<dt>.
Pokud byl předtištěný text členěn do odstavců, zpracovatel textu ho přepsal do jednoho odstavce. - Obsahuje-li text osnovu psanou žákem (jím vymyšlenou), není kódována a je přepsána podle pravidel pro přepis.
- Pokud se v některých textech objeví osnova, která byla zadána učitelem (tj. žák ji sám nevymyslel), je kódována pomocí kódu <dt cp osn> a je celý text osnovy vložen do složených závorek, které jsou bezprostředně před kódem <dt cp osn> bez mezery.
- Varianty vzniklé v důsledku nejednoznačnosti rukopisného záznamu byly původně zpracovatelem textu přepsány jako příjde|u. V korpusu se nacházejí obě varianty vedle sebe, tedy příjde příjdu.
Sporné a problémové jevy
Pro sporné a problémové jevy se používají následující znaky: < >; { }; XXX.
Závorky
- Špičaté závorky – jsou vyhrazeny pro kódy (různé jevy), chybové kódy nebo chybějící interpunkci.
- Složené závorky – jsou vyhrazeny pro text, osnovu nebo komentář přepisovače, popřípadě pro komentář k tomu, že byl v korpusu nějaký znak nebo vzorec nahrazen.
Nečitelné či přeškrtané řetězce (znak XXX, kód <ni>)
- Přeškrtané či začmárané řetězce v textu pisatele nejsou přepsány ani jinak vyznačeny.
- Zcela nečitelná slova jsou zapsána jako XXX.
Např.: Pracuju jako XXX. - Byl-li zpracovatel textu schopen identifikovat počet nečitelných slov, uvedl XXX v příslušném počtu.
Např.: Pracuju jako XXX XXX. - Znak XXX je jeden celek, který se užívá jak pro písmeno či skupinu písmen, tak pro slovo; jen X se v těchto případech nikdy nepíše.
- Znak XXX se používá pouze pro slova či slovní spojení, která do textu patří, ale zpracovatelé textu je nedokázali identifikovat.
- Pokud bylo slovo nečitelné, ale zpracovatel textu byl schopen na základě kontextu nebo jiných skutečností interpretovat nějakou možnost čtení, mohl ji zapsat, a to pomocí kódu <ni>:
Např.: Pracuje jako {dělník}<ni>.
Komentář přepisovače
- Potřeboval-li zpracovatel textu k nějakému jevu přidat komentář/popis atp., použil kód <co>.
- Text komentáře je vždy ve složených závorkách a komentář se vždy vztahuje jen k jednomu slovu.
Obrázky v textu (kód <img>)
- Vyskytne-li se v textu obrázek (vlepený, kreslený, emotikon ap.), uvede se na příslušném místě kód se stručným (i víceslovným) popisem obrázku.
Např.: šel tam pes <img pes>;
mám ráda chlupaté knedlíky <img chlupaté knedlíky> . - Není-li obrázek přímo v textu, kód je umístěn za nejbližší odstavec nebo na konec textu.
- Emotikony se přepisují obvyklým způsobem; v korpusu jsou zastoupeny typy:
<img :)> <img :-)> <img :(> <img :o)>. - Stejný kód platí pro i vlepený text, např. novinový článek, na který žáci píší reakci. Do závorky je pak připsáno „text o“ a stručně je text popsán.
Např.: <img text o legalizaci lehkých drog>.
Kódování jmen a osobních údajů
- Kvůli anonymitě bylo nutné nahrazovat v textu osobní jména (rodná i příjmení), která se týkala pisatele textu, jeho rodiny ap.
- Rodné jméno a příjmení jsou nahrazeny pouze rodnými jmény, a to následujícím způsobem: mužské jméno (rodné a příjmení): Adam; ženské jméno (rodné a příjmení): Eva; jméno, u něhož není možné identifikovat rod: Sin.
- Ostatní jména (určená v zadání slohové práce, jednoznačně fiktivní, jména zvířat, přezdívky) jsou přepsána podle původního textu.
- Pokud se v textu objevila dvě jména stejného rodu (např. jméno otce a bratra), která bylo nutno zakódovat, bylo použito zástupné jméno (bez jakéhokoliv číslování či jiného odlišování), tedy např. Adam a Adam.
- Zdrobnělá jména, která bylo nutno zakódovat, se také kódují jako Adam, Eva, Sin (nezdrobňujeme na Evka, Adámek apod.).
- V textu se také mohou vyskytovat jména pisatelů textu, která ale nejsou součástí textu (jde o klasický podpis slohové práce), tyto případy se nepřepisují. Přepisují se pouze tehdy, jestliže jsou součástí textu (podpis u dopisu, životopisu, …), a tehdy se samozřejmě kódují.
- Z příslušné školní práce jsou vymazány všechny údaje v záhlaví, např. jméno žáka, datum, pořadí práce, žánr práce (mohlo tam zůstat pouze téma práce a nadpis). V samotném textu jsou kódována všechna jména, která souvisí s pisatelem (jeho jméno, jména rodičů, kamarádů, učitelů ap.).
- Pokud se v textu vyskytují osobní údaje, které prozrazují identitu pisatele, jsou zaznamenány pomocí kódu <priv> (adresa, datum narození, mail, telefonní číslo atd.).
Např.: {adresa}<priv>, {datum narození}<priv>. - Jména měst, obcí nebo jejich částí a ulic se zaznamenávají také s použitím kódu <priv>.
Např.: {město}<priv>, {obec}<priv>, {ulice}<priv>.