AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus Diakorp

Korpus Diakorp reprezentuje diachronní složku ČNK. Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus [pojmy:referencni|nereferenční]], první verze (přibližně 700 000 slovních tvarů) byla zpřístupněna veřejnosti v září roku 2005 a je nadále průběžně rozšiřována (textová základna korpusu narůstá tempem přibližně 250 000 slovních tvarů ročně).

Diakorp vzhledem ke svému časovému záběru necílí na to, aby byl korpusem reprezentativním a vyváženým. V rámci diachronních projektů ČNK se profiluje především jako jedna z fází zpracovávání a zveřejňování textů:

  1. Diakon - pracovní korpus přístupný přes webovou aplikaci SyD, největší rozsah, obsahuje i dosud nezkorigované texty;
  2. Diakorp - korpus menšího rozsahu než Diakon, obsahuje ručně zkorigované texty přístupné v rozhraní KonText;
  3. Dia - připravovaný korpus zaměřený na pokrývání jednotlivých století (počínaje 19. st.) širokým spektrem textových typů, bude obsahovat ručně zkorigované a lemmatizované texty.

Složení Diakorpu verze 6 (zveřejněna 2015) v % pozic na časové období

Změny oproti starší verzi

Vedle přírůstku dat (z 1,95 mil. na 3,5 mil. slovních tvarů) přibyla i klasifikace textů podle textových typů. Dále byl sjednocen formát datace a zavedeny toleranční intervaly (v případě nejasného roku vzniku je namísto slovního popisu číselná hodnota, např. „1390±10“ místo „konec 14. století“).

Změnil se charakter značek vnášených do textů editory tak, aby nebyly započítávány do celkového počtu pozic. Nový způsob, jak tyto značky použít při zadávání dotazu, popisují Specifika vyhledávání v diachronním korpusu.

Soubory s kompletním výčtem textů obsažených v Diakorpu a jejich délkou ve slovech jsou k dispozici v příslušné sekci seznamů.

Způsob zpracování textů

Do diachronního korpusu vstupují texty původně zapsané či vytištěné různými pravopisnými systémy (pozůstatky tzv. jednoduchého pravopisu, spřežkovým a diakritickým pravopisem) a jejich kombinacemi. Takto heterogenní materiál si nevyhnutelně vynucuje poněkud jiné zpracování, než je obvyklé jak v edicích starších písemných památek (jejichž zásady jsou zpravidla výrazně přizpůsobeny specifickým jazykovým a pravopisným charakteristikám určitého období, popřípadě i charakteristikám jednoho autora nebo díla), tak v synchronních korpusech (jejichž zásady se orientují na současný jazykový stav a do značné míry se opírají o živé jazykové povědomí uživatelů korpusu).

Základním cílem zpracování textů pro diachronní korpus je zajistit – přes zmíněnou různorodost - jednotné, co nejsnazší a nejvšestrannější prohledávání textů z celého sedmisetletého historického vývoje češtiny a současně zachovat co nejvíce relevantních lingvistických informací, které jsou v těchto textech obsaženy. K realizaci těchto dvou cílů jsou v diachronním korpusu aplikovány následující dva principy:

  1. Texty jsou transkribovány, nikoli transliterovány. Tato zásada umožňuje vyhledávat v diachronním korpusu výskyty konkrétních tvarů a podob jednotlivých slov stejným způsobem jako v korpusu synchronním.
  2. Texty jsou značkovány. Vedle různých informací o jednotlivých textech a jejich strukturaci umožňuje tato zásada zachovat i podstatnou část lingvistických informací, k jejichž ztrátě obvykle dochází při transkripci.

V budoucnu se možnosti prohledávání diachronního korpusu výrazně rozšíří lemmatizací využívající tzv. hyperlemmat, která uživateli korpusu umožní vyhledat všechny výskyty konkrétního lexému bez ohledu na různost jeho dobových aj. podob a tvarů (například: při vyhledávání pomocí hyperlemmatu kůň bude možno najít i starší české podoby kóň a kuoň).

Transkripce

Starší české texty jsou v diachronním korpusu transkribovány v zásadě podle běžných zvyklostí,1) avšak s některými omezeními (zejména užívání zvláštních znamének a znaků, např. znaků pro staročeské měkké retnice); tato omezení vyplývají ze současných možností elektronického kódování textů, s nímž pracuje korpusový manažer.

Typografické vlastnosti textu

Každý text je přepsán jedním typem a jedním řezem písma (tučné písmo, kurzíva či proložení znaků nejsou zachovány). Zvláštnosti uspořádání textu na stránce a hranice svébytných úseků textu (nadpisů, poznámek pod čarou apod.) signalizují speciální kódy (viz níže).

Pravopis

Starší pravopisný systém je při transkripci nahrazen systémem dnešním:

To wʃʃe ʃe ʃtalo ne gegj, ale cyzý winau. > To vše se stalo ne její, ale cizí vinou.

Pokud je grafická podoba slova neočekávaná nebo nejednoznačná, je normalizována a původní zápis slova je uložen tak, aby jej bylo možno zobrazit spolu s daným slovem (viz níže). Tímto způsobem je nahrazen tradiční výčet zásahů editora uváděný v ediční poznámce. Obvyklost určitého zápisu je ověřována ve slovnících.2)

  • Interpunkci originálu nahrazujeme členěním podle dnešních pravidel (ponechána je v případě, že dnešním pravidlům neodporuje nebo nemění smysl textového úseku).
  • Zkratky jsou řešeny různě, obvyklé staročeské typy vzniklé kontrakcí nebo nadepsáním písmena (gt, geu) jsou rozepsány bez poznámky (jest, jemu), formy zkrácené tečkou zůstávají obvykle nerozepsány.
  • Hranice slov upravujeme podle dnešního stavu (týká se to zvláště příklonek -li, by či předložek psaných dohromady se jménem), výjimkou jsou příslovečné, spojkové a zájmenné spřežky, které ponecháváme ve znění originálu (zdali nebo zda-li, u vnitř nebo uvnitř, kdo koli nebo kdokoli, tak zvaný nebo takzvaný).
  • Psaní velkých písmen přizpůsobujeme dnešním pravidlům pravopisu.

Fonologické aspekty

Obecnou zásadou je zachovávat bez úpravy ty jevy, které v daném kontextu s jistou pravděpodobností svědčí o dobové výslovnosti (jsou doloženy v jazykových příručkách).

Pokud je originální text zapsán/vytištěn tak, že neumožňuje jednoznačnou fonologickou interpretaci (např. proto, že v něm - tak jako ve velké části staročeských textů - není označována kvantita, popř. že text byl přejat z kritické edice), a jeho transkripce tedy zahrnuje i celkovou rekonstrukci některých jeho fonologických rysů vyplývající nikoli z textu samého, ale především z dnešního stupně poznání staršího stavu jazyka, je vedle pracovního identifikačního názvu díla (id), který se objeví po kliknutí na referenční údaj v pravé části konkordančního řádku, uvedena značka (R). Tato značka uživatele korpusu upozorňuje, že transkribovaná podoba příslušného textu je do značné míry rekonstruovaná („normalizovaná“), a není tedy po fonologické stránce autentická.

Pokud v rámci určitého textu a určitého slova kvantita samohlásek kolísá a přitom je délka i krátkost dobově obvyklá, nesjednocujeme podobu slova podle převažující varianty, ale ponecháváme obě podoby.

Morfologie

Při transkripci respektujeme původní morfologické rysy textu (např. v českém museum, se dvěma křídlama, mezi obyvately, cizá idea). Úpravu znění volíme pouze v případě, že jde o zjevný omyl, který by působil problémy při morfologické analýze textu (např. v krásném stavením > v krásném stavení / stavením).

Značkování

Primárním účelem značkování je:

  1. připojit ke korpusovému textu podstatné vnější metainformace (údaje o době vzniku textu, o jeho autorovi a názvu a o stránkování/foliaci); tyto údaje se objeví v dolním okně obrazovky, klikneme-li na referenční údaj konkordančního řádku;
  2. zachovat lingvisticky relevantní informace; původní grafická podoba slova se v případě provedení úpravy ukládá do pozičního atributu „e“ (emendace) daného slova, speciálně se zachycuje i (částečná) absence či doplnění textu;
  3. naznačit strukturu korpusového textu a označit jeho zvláštní součásti, aby byla minimalizována ztráta těchto údajů při transkripci. V diachronním korpusu jsou k tomuto cíli aplikovány značky (konkrétně strukturní atributy) uvedené v následující tabulce.

Kódy a zvláštní znaky obsažené v textu (zobrazí se po volbě příslušných značek v Zobrazení):

Kód/Zkratka Popis
<f> </f> naznačují začátek a konec formátovaného textu, tj. graficky členěného textu, tabulky, grafické poezie, textu jako součásti vyobrazení ap.; nejazykové prvky takového textu (grafické symboly, obrázky ap.) se přitom bez poznámky vypouštějí.
<k> </k> naznačují začátek a konec titulku, podtitulku, mezititulku, záhlaví, textu doplňující titul, název ap. Například: <k>Kapitola 5</k>; <k>U hrobu rekova. Z polštiny přeložil Alois Bydžovský. (Dokončení)</k>
<n> </n> naznačují začátek a konec poznámky (pod čarou aj.). Text poznámky se přitom v korpusovém textu vkládá přímo na místo, odkud se na poznámku odkazuje.
<o> </o> naznačují citátové (gramaticky nezačleněné) cizí prvky, pasáže v cizím jazyce ap. Není-li mezi kódy přepsán skutečný cizojazyčný text (např. proto, že je psán abecedou, s níž korpusový manažer nepracuje), uvádí se mezi kódy alespoň jazyk nepřepsaného textu, a to v závorkách, tedy např. <o>(řečtina)</o>.
<v> </v> naznačují začátek a konec veršovaného textu.
<x> </x> naznačují části textu, které byly dodatečně přeškrtnuty (je-li pravděpodobné, že jde o škrt autorův, popř. písařův).
<m> </m> naznačují začátek a konec marginálie; text marginálie se přitom umisťuje před začátek odstavce nebo věty (tj. na místo v textu, kam podle smyslu patří); např.: Příklady toho některé vizme. <m>Příklad na Adamovi v ráji</m> První člověk Adam rady u sebe nevěda, začal ji krom sebe hledati…

Informace uložená v pozičním atributu „e“ (emendace)

Atribut „e“ informuje o grafické podobě slova (obvykle slova zapsaného nebo vytištěného způsobem, který je v dané době nestandardní, zjevně chybný, nejednoznačný, nezřetelný nebo nečitelný). Původní zápis se uvádí v transliterované podobě (bez speciálních znaků, jako je tzv. dlouhé s), tj. např. ušima / vssijma. Další případy:

Kód/Zkratka Popis
e informuje o zjevných tiskových nebo písařských chybách (např. duha / dnha),
- o dobově neobvyklém nebo rozkolísaném způsobu psaní, u nějž se kloníme k názoru, že neobráží variantní výslovnost (tj. jinou výslovnost, než odpovídá dobově obvyklému způsobu zápisu), např. set / seth, maso / masso, Kristus / Krystus ap.,
- o případech, v nichž grafický záznam sice může odrážet více či méně odlišnou výslovnost než standardní zápis, avšak příslušný tisk či písemný záznam je jako celek natolik nedokonalý nebo nedůsledný, že je sporné, zda nestandardní grafika odlišnou výslovnost skutečně odráží; například: nějaký / negaký, jináč / ginač,
- o nejednoznačném písemném záznamu, který by mohl být interpretován/transkribován více než jedním způsobem; například: ústa / vsta (zápis je možno číst i jako usta), město / miesto (zápis by v daném kontextu bylo možno číst i jako miesto) ap.,
- o částečně nezřetelném, poškozeném ap. textu, který však bylo při transkripci možno na základě kontextu doplnit (původní záznam je uveden v pozičním atributu „e“), přičemž nezřetelná, nečitelná nebo chybějící místa jsou označena pomocí [...]; například: námi / ná[…], uslyšán / vsl[…]ssan),
- o užívání římských číslic (čísla zapsaná římskými číslicemi jsou v korpusu přepsána číslicemi arabskými, např. 123 / cxxiii; do léta 1560ho / M.D.L.Xo.).

Značky mající povahu textových pozic

Na rozdíl od všech výše uvedených atributů, které nejsou součástí vlastního textu díla a nevstupují do výpočtů, je naznačení chybějícího či doplněného textu stejnou textovou pozicí jako slovní tvary či interpunkce.

Kód/Zkratka Popis
[ ] naznačují, že znak (značka, symbol ap.), který nemá ekvivalent ve znakové sadě Windows, s níž pracuje korpusový manažer, byl přepsán dnešním ekvivalentem (značkou, zkratkou ap.) nebo rozepsán slovy, aby byl zachován smysl věty (např. náhrada astrologického znaku pro Slunce v zápisu Myslí, že jemu samému [Slunce] svítí.).
[...] naznačuje vynechaný, porušený nebo nečitelný text, např. A protož múdrý lékař najprv [...].

Anotace textových typů

V Diakorpu verze 6 byla zavedena dvouúrovňová klasifikace textů. Označení úrovní je stejné jako v korpusech řady SYN (1. txtype_group, textová skupina; 2. txtype, textový typ), avšak vymezení jednotlivých skupin a typů (tj. hodnoty strukturních atributů txtype_group a txtype) se liší.

Klasifikace textů v korpusu Diakorp verze 6

V závorkách jsou uvedeny typy textů, které zatím buď nejsou v korpusu zastoupeny, nebo nejsou určeny (X).

txtype_group txtype ekvivalenty
próza povídka, román, cestopis… beletrie
verše písně duchovní… beletrie
drama tragédie, komedie ve verších… beletrie
odborná teoretická chemie, historie… odborná
odborná praktická zvěrolékařství, zemědělství… odborná
periodikum časopis, noviny publicistika
každodenní dopis… (zápisky, paměti apod.) jiné
řeč modlitby, bohoslužba… (slavnostní řeč apod.) jiné
názory X (polemika, agitace, návrh apod.) publicistika/odborná
reflexe X (esej, rozjímání apod.) odborná/beletrie
mix X jiné

Cílem klasifikace je pomoci uživateli zorientovat se v datech. Voleny proto byly takové textové třídy, které jsou pokud možno obecně srozumitelné, a to i za cenu jisté nesystematičnosti v třídění. Na úrovni textové skupiny i textového typu jsou využita různá kritéria (literární druhy, registry, témata…), aby při daném rozsahu korpusu nenarůstala složitost metadat. Třídění vychází z textů, které jsou obsaženy v současné verzi korpusu. Konflikty, které se v budoucnu očekávají, budou řešeny pragmaticky (např. odborný časopis bude zařazen do skupiny „odborná teoretická“ nebo „odborná praktická“, neboť je to z hlediska předpokládaného lingvistického výzkumu podstatnější než periodicita vydávání; analogicky nyní spadá „časopis pro zábavu a poučení“ pod skupinu „periodikum“ a nikoli „mix“, protože označení formy má větší výpovědní hodnotu atd.).

Textová skupina (txtype_group) představuje vyšší úroveň obecnosti a měla by pokrýt většinu textů, které budou do korpusu přibývat.

próza

Textová skupina představují vyšší úroveň obecnosti a

vystihnout na textech to podstatné

Názvy textových tříd mají být pokud možno obecně srozumitelné, a to i za cenu jisté nesystematičnosti v třídění. Na úrovni textové skupiny i textového typu jsou využita různá kritéria, podle nichž lze texty klasifikovat (žánry, literární druhy, registry, tematické kategorie).

Jak citovat DIAKORP

Kučera, K. – Stluka, M.: DIAKORP: Diachronní korpus, verze 5 z 21. 2. 2011. Ústav Českého národního korpusu FF UK, Praha 2011. Dostupný z WWW: http://www.korpus.cz

Kučera, K. – Řehořková, A. – Stluka, M.: DIAKORP: Diachronní korpus, verze 6 z 18. 12. 2015. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz

Karel Kučera, Martin Stluka, Anna Řehořková (Zitová)

Související odkazy

1)
viz např. transkripční zásady v publikaci Staročeský slovník. Úvodní stati, soupis pramenů a zkratek. Praha, Academia 1968; J. Vintr: Zásady transkripce českých textů z barokní doby. Listy filologické, CXXI, 1998, 3-4, s. 341-346
2)
Příruční slovník jazyka českého. V Praze: Státní nakladatelství, 1935-1957; databáze lexikálního archivu dostupná z WWW: http://bara.ujc.cas.cz/psjc/; Slownjk česko-německý Josefa Jungmanna. W Praze: Pomocj Českého Museum, 1835-1839; Gebauer, Jan. Slovník staročeský. V Praze: Česká grafická akciová společnost Unie, 1903, 1916; Staročeský slovník. Praha: Academia, 1968- ad.