AplikaceAplikace
Nastavení

Zásady pro přepis korpusu SKRIPT2012

Přepis je koncipován tak, aby v přepsaném textu zůstalo zachováno maximum informací obsažených v původním rukopisu, zpracovatelé tedy v žádném případě text neopravovali ani neupravovali. Přepsán byl pouze text žáka a případné učitelem zadané úseky textu, sloužící žákovi jako vodítko (např. začátek práce, osnova atp.). Nebyly přepisovány komentáře a poznámky učitele, ani jeho opravy.

Pouze v případě určitých úseků, zvláště u problematických částí textu (např. nečitelný text ap.), je přepis doprovázen smluvenými znaky a kódy.

Pro identifikaci vybraných jevů se používají následující kódy:

<dt> část textu zadaná učitelem;
<dt cp osn> celý text osnovy (zadané učitelem);
<li> přepis odrážek v textu žáka;
<img> obrázek v textu žáka;
<priv> osobní údaje (např. adresa, mail, telefonní číslo).

Tzv. chybové kódy:

<ni > interpretace nečitelného textu zpracovatelem;
<co>  komentář zpracovatele textu k jednomu konkrétnímu slovu;
<co para> komentář zpracovatele textu k příslušnému odstavci;
<co doc> komentář zpracovatele textu k celému dokumentu/k práci;
<.> ; <?> chybějící interpunkční znaménko v textu žáka.

Zásady transkripce

  • Přepsána je reálná podoba textu (výjimky jsou uvedeny níže).
    Např.:

    V přepisu textu se vyskytuje „tři linki: zelený, žlytý a“.
  • Při přepisu bylo nutné brát v potaz celý text a respektovat způsob psaní autora.
  • Zpracovatelé textu dodržovali psaní velkých a malých písmen přesně podle originálu, a to včetně všech chyb. Výjimku tvoří pouze grafické odchylky, které by bylo možno hodnotit jako nahodilé.
    Např.:

    Je přepsáno jako „Město, kde se dobře“, nikoli jako „Město, Kde s dobŘe“.
  • Pokud se v původním textu objevilo „i“ a „j“ bez tečky, byla tečka v přepisu doplněna.
  • Když se v textu psaném na PC objevily typografické chyby (např. po tečce na konci věty nebo za čárkami nebyly mezery), zpracovatel textu je opravil podle typografických pravidel.
  • V ojedinělých případech se může stát, že v celém textu nejsou rozeznatelné hranice mezi větami (pisatel například neužívá interpunkci); takový text je zachován v původní podobě, tedy bez interpunkce.
  • Pokud v textu pisatel zapomněl napsat tečku za větou a mezi větami je zřetelný předěl (mezera, velké písmeno na začátku nové věty), bylo to zaznamenáno pomocí kódu <.> . V případě, že předěl není znát, je tento úsek přepsán tak, jak je zapsán v původním textu, tj. bez kódu <.>.
  • Pokud text obsahuje tečky (autor tím dává najevo, že přemýšlí o tématu, či jde o nedokončenou větu; může se vyskytovat i větší počet teček), jsou v přepisu vždy tři tečky. 
  • Dělení slov na konci řádku se nezaznamenává.
  • Odrážky ve všech grafických podobách se přepisují kódem <li> . Kód se píše vždy na začátek věty, každá odrážka s textem má pak podobu odstavce a odděluje se jedním prázdným řádkem.
  • Předtištěný text je přepsán pomocí kódu <dt> (žák navazuje na předtištěný text zadaný učitelem). Předtištěný text se nachází ve složených závorkách a hned za něj bez mezery je připsán kód <dt>.
    Např.: {Ahoj Jakube}<dt>. 
    Pokud byl předtištěný text členěn do odstavců, zpracovatel textu ho přepsal do jednoho odstavce.
  • Obsahuje-li text osnovu psanou žákem (jím vymyšlenou), není kódována a je přepsána podle pravidel pro přepis.
  • Pokud se v některých textech objeví osnova, která byla zadána učitelem (tj. žák ji sám nevymyslel), je kódována pomocí kódu <dt cp osn> a je celý text osnovy vložen do složených závorek, které jsou bezprostředně před kódem <dt cp osn> bez mezery.
  • Varianty vzniklé v důsledku nejednoznačnosti rukopisného záznamu byly původně zpracovatelem textu přepsány jako příjde|u. V korpusu se nacházejí obě varianty vedle sebe, tedy příjde příjdu.

Sporné a problémové jevy

Pro sporné a problémové jevy se používají následující znaky: < >; { }; XXX.

Závorky

  • Špičaté závorky – jsou vyhrazeny pro kódy (různé jevy), chybové kódy nebo chybějící interpunkci.
  • Složené závorky – jsou vyhrazeny pro text, osnovu nebo komentář přepisovače, popřípadě pro komentář k tomu, že byl v korpusu nějaký znak nebo vzorec nahrazen.

Nečitelné či přeškrtané řetězce (znak XXX, kód <ni>)

  • Přeškrtané či začmárané řetězce v textu pisatele nejsou přepsány ani jinak vyznačeny.
  • Zcela nečitelná slova jsou zapsána jako XXX.
    Např.: Pracuju jako XXX.
  • Byl-li zpracovatel textu schopen identifikovat počet nečitelných slov, uvedl XXX v příslušném počtu.
    Např.: Pracuju jako XXX XXX.
  • Znak XXX je jeden celek, který se užívá jak pro písmeno či skupinu písmen, tak pro slovo; jen X se v těchto případech nikdy nepíše.
  • Znak XXX se používá pouze pro slova či slovní spojení, která do textu patří, ale zpracovatelé textu je nedokázali identifikovat.
  • Pokud bylo slovo nečitelné, ale zpracovatel textu byl schopen na základě kontextu nebo jiných skutečností interpretovat nějakou možnost čtení, mohl ji zapsat, a to pomocí kódu <ni>:
    Např.: Pracuje jako {dělník}<ni>.

Komentář přepisovače

  • Potřeboval-li zpracovatel textu k nějakému jevu přidat komentář/popis atp., použil kód <co>.
  • Text komentáře je vždy ve složených závorkách a komentář se vždy vztahuje jen k jednomu slovu.

Obrázky v textu (kód <img>)

  • Vyskytne-li se v textu obrázek (vlepený, kreslený, emotikon ap.), uvede se na příslušném místě kód se stručným (i víceslovným) popisem obrázku.
    Např.: šel tam pes <img pes>;
    mám ráda chlupaté knedlíky <img chlupaté knedlíky>
    .
  • Není-li obrázek přímo v textu, kód je umístěn za nejbližší odstavec nebo na konec textu.
  • Emotikony se přepisují obvyklým způsobem; v korpusu jsou zastoupeny typy:
    <img :)>    <img :-)>    <img :(>    <img :o)>.  
  • Stejný kód platí pro i vlepený text, např. novinový článek, na který žáci píší reakci. Do závorky je pak připsáno „text o“ a stručně je text popsán.
    Např.: <img text o legalizaci lehkých drog>.

Kódování jmen a osobních údajů

  • Kvůli anonymitě bylo nutné nahrazovat v textu osobní jména (rodná i příjmení), která se týkala pisatele textu, jeho rodiny ap.
  • Rodné jméno a příjmení jsou nahrazeny pouze rodnými jmény, a to následujícím způsobem: mužské jméno (rodné a příjmení): Adam; ženské jméno (rodné a příjmení): Eva; jméno, u něhož není možné identifikovat rod: Sin.
  • Ostatní jména (určená v zadání slohové práce, jednoznačně fiktivní, jména zvířat, přezdívky) jsou přepsána podle původního textu.
  • Pokud se v textu objevila dvě jména stejného rodu (např. jméno otce a bratra), která bylo nutno zakódovat, bylo použito zástupné jméno (bez jakéhokoliv číslování či jiného odlišování), tedy např. Adam a Adam.
  • Zdrobnělá jména, která bylo nutno zakódovat, se také kódují jako Adam, Eva, Sin (nezdrobňujeme na Evka, Adámek apod.).
  • V textu se také mohou vyskytovat jména pisatelů textu, která ale nejsou součástí textu (jde o klasický podpis slohové práce), tyto případy se nepřepisují. Přepisují se pouze tehdy, jestliže jsou součástí textu (podpis u dopisu, životopisu, …), a tehdy se samozřejmě kódují.
  • Z příslušné školní práce jsou vymazány všechny údaje v záhlaví, např. jméno žáka, datum, pořadí práce, žánr práce (mohlo tam zůstat pouze téma práce a nadpis). V samotném textu jsou kódována všechna jména, která souvisí s pisatelem (jeho jméno, jména rodičů, kamarádů, učitelů ap.).
  • Pokud se v textu vyskytují osobní údaje, které prozrazují identitu pisatele, jsou zaznamenány pomocí kódu <priv> (adresa, datum narození, mail, telefonní číslo atd.).
    Např.: {adresa}<priv>, {datum narození}<priv>.
  • Jména měst, obcí nebo jejich částí a ulic se zaznamenávají také s použitím kódu <priv>.
    Např.: {město}<priv>, {obec}<priv>, {ulice}<priv>.