Sběr a přepis dopisů
Sběr soukromé korespondence pro korpus KSK-dopisy probíhal v ÚČJ FF MU od konce 90. let 20. století. V současné době archiv shromážděných textů obsahuje zhruba 3000 elektronických přepisů ručně psaných dopisů, 1500 e-mailů a cca 2500 SMS.
Legislativní (i morální) problém se zveřejněním soukromé korespondence byl po konzultaci s právním poradcem řešen tím, že dopisy byly získávány přímo od adresátů, tedy se svolením alespoň jednoho účastníka komunikace. (Svolení pisatelů by při tak velkém množství textů nebylo možné zajistit.) Dárci korespondence souhlasili s jejím zveřejněním a užitím pro nekomerční studijní účely. Navíc z odevzdávaných textů vyškrtali všechny identifikační údaje. Pokud to neudělali důsledně, byly tyto informace eliminovány ve fázi přepisu a archivace dopisu.
Dárci korespondence dále vypisovali na evidenční kartičky přiložené ke každému jednotlivému textu standardizovaná charakterizační data o pisateli a adresátovi.
Evidenční kartička
Evidenční číslo: | … |
Rok napsání dopisu: | … |
Vztah pisatele a adresáta: | R K M Z |
Dlouhodobý pobyt pisatele: | … |
Pisatel: | F M 1 2 3 4 B A B/A |
Adresát: | F M 1 2 3 4 B A B/A |
Poznámka: | … |
Vysvětlivky k evidenční kartičce:
- Vztah pisatele a adresáta: Písmeno R označuje rodinné příslušníky, písmeno K kamarády, písmeno M milence/partnery, písmeno Z známé.
- Dlouhodobý pobyt pisatele: Místo (místa), které mělo největšího vliv na idiolekt pisatele dopisu (nemusí se shodovat s pobytem v okamžiku psaní dopisu či e-mailu). Připojována byla také informace o místě případného pisatelova studia a informace o tom, zda pisatel v době psaní dopisu nepobýval dlouhodobě v cizině.
- Pisatel a adresát: Písmena F/M označují pohlaví, číslice 1–4 označují věk pisatele a adresáta následujícím způsobem: 1 do 15 let, 2 od 15 do 30 let, 3 od 30 do 50 let, 4 nad 50 let; písmeno B označuje středoškolské, příp. nižší vzdělání, písmeno A ukončené vysokoškolské vzdělání, písmena B/A označují studenta VŠ.
Pravidla pro přepis dopisů
Při přepisu do elektronické podoby byla striktně dodržována původní podoba textů (včetně pravopisných chyb, překlepů apod.). Pouze identifikační údaje (příjmení, adresy, telefonní čísla apod.) byly nahrazovány sjednocujícím znakem @
a složenou závorkou s obecnou charakteristiku. Např.: {následuje telefonní číslo} @
.
Text byl přepisován kontinuálně, pouze začátek a konec dopisu byl označován znakem ##
a začátek odstavce znakem #
(v KSK pak bylo nahrazeno strukturními značkami doc
, p
). Jako odstavec byly značeny i samostatné řádky v nadpisových a ukončovacích částech dopisu; začátek jednotlivých stránek se označoval jako odstavec, pokud tomu odpovídalo obsahové členění textu. Interpunkční znaménka se oddělovala mezerami po obou stranách (kromě případů řetězení interpunkčních znaků, které se od sebe neoddělovaly), pouze tečky za zkratkami byly ponechány bez mezer. Nečitelný text byl nahrazován třemi pomlčkami ---
a do složených závorek se uvedl počet nečitelných slov. Např.: {následují 4 nečitelná slova} ---
. Do složených závorek se zapisovaly také jiné komentáře přepisovatele, např. upozornění na typ písma (v přepisu nebyly typy písma rozlišovány), na připojený obrázek apod. Např.: {následující tři slova psána kurzivou}
.
Složenými závorkami byly označeny také citátové pasáže v rozsahu věty a více. Jsou v KSK sice odhalitelné, ale nepodléhají běžnému vyhledávání ani statistickým analýzám, aby nezkreslovaly autentický obraz jazyka soukromé korespondence. Podobně jsou v KSK zachyceny také cizojazyčné pasáže v rozsahu věty a více. Se všemi texty v složených závorkách korpusový manažer pracuje pod značkami note
a note text
(viz menu Zobrazení > Struktury.)