~~NOTOC~~ ====== Korpus Diakorp ====== Korpus Diakorp reprezentuje [[pojmy:diachronni|diachronní]] složku ČNK. Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus [[pojmy:referencni|referenční]], průběžně rostoucí ve verzích. První verze (přibližně 700 000 slovních tvarů) byla zpřístupněna veřejnosti v září roku 2005 a je nadále průběžně rozšiřována (textová základna korpusu narůstá tempem přibližně 250 000 slovních tvarů ročně). V současné době obsahuje Diakorp ve verzi 6 přes 3,4 mil. slov. ^ Název ^^ DIAKORP ^ ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 4 128 874 | ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 3 450 142 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 282 799 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] | 116 | ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE | ^ ::: ^ Aktuální verze | 6 | ^ ::: ^ Rok zveřejnění | 2015 | Diakorp vzhledem ke svému časovému záběru necílí na to, aby byl korpusem [[pojmy:reprezentativnost|reprezentativním]] a vyváženým. V rámci diachronních projektů ČNK se profiluje především jako jedna z fází zpracovávání a zveřejňování textů: - //Diakon// - pracovní korpus přístupný přes webovou aplikaci [[manualy:syd|SyD]], největší rozsah, obsahuje i dosud nezkorigované texty; - //Diakorp// - korpus menšího rozsahu než Diakon, obsahuje ručně zkorigované texty přístupné v rozhraní [[manualy:kontext|KonText]]; - //Dia// - připravovaný korpus zaměřený na pokrývání jednotlivých století (počínaje 19. st.) širokým spektrem textových typů, bude obsahovat ručně zkorigované a [[pojmy:lemma|lemmatizované]] texty. **Složení Diakorpu verze 6 (zveřejněna 2015) v % [[pojmy:pozice|pozic]] na časové období** {{:cnk:nove_slozeni_diakorpu.png?direct |}} === Změny oproti starší verzi === Vedle přírůstku dat (z 1,95 mil. na 3,4 mil. slovních tvarů) přibyla i klasifikace textů podle [[cnk:diakorp#anotace_textovych_typu|textových typů]]. Dále byl sjednocen formát datace a zavedeny toleranční intervaly (v případě nejasného roku vzniku byl slovní popis nahrazen číselnou hodnotou, např. "1390±10" místo "konec 14. století"). Změnil se charakter [[cnk:diakorp#znackovani|značek]] vnášených do textů editory tak, aby nebyly započítávány do celkového počtu pozic. Nový způsob, jak tyto značky použít při zadávání dotazu, popisují [[kurz:hledani_v_diachronnim_korpusu|Specifika vyhledávání v diachronním korpusu]]. Soubory s kompletním výčtem textů obsažených v Diakorpu a jejich délkou ve slovech jsou k dispozici v příslušné sekci [[seznamy:index#zdrojove_texty_diachronnich_korpusu|seznamů]]. ===== Způsob zpracování textů ===== Do diachronního korpusu vstupují texty původně zapsané či vytištěné různými pravopisnými systémy (pozůstatky tzv. jednoduchého pravopisu, spřežkovým a diakritickým pravopisem) a jejich kombinacemi. Takto heterogenní materiál si nevyhnutelně vynucuje poněkud jiné zpracování, než je obvyklé jak v edicích starších písemných památek (jejichž zásady jsou zpravidla výrazně přizpůsobeny specifickým jazykovým a pravopisným charakteristikám určitého období, popřípadě i charakteristikám jednoho autora nebo díla), tak v synchronních korpusech (jejichž zásady se orientují na současný jazykový stav a do značné míry se opírají o živé jazykové povědomí uživatelů korpusu). Základním cílem zpracování textů pro diachronní korpus je zajistit – přes zmíněnou různorodost - jednotné, co nejsnazší a nejvšestrannější prohledávání textů z celého sedmisetletého historického vývoje češtiny a současně zachovat co nejvíce relevantních lingvistických informací, které jsou v těchto textech obsaženy. K realizaci těchto dvou cílů jsou v diachronním korpusu aplikovány následující dva principy: - Texty jsou **transkribovány**, nikoli transliterovány. Tato zásada umožňuje vyhledávat v diachronním korpusu výskyty konkrétních tvarů a podob jednotlivých slov stejným způsobem jako v korpusu synchronním. - Texty jsou **značkovány**. Vedle různých [[pojmy:metadata|informací]] o jednotlivých textech a jejich [[pojmy:atributy_strukturni|strukturaci]] umožňuje tato zásada zachovat i podstatnou část lingvistických informací, k jejichž ztrátě obvykle dochází při transkripci. V budoucnu se možnosti prohledávání diachronního korpusu výrazně rozšíří [[pojmy:lemma|lemmatizací]] využívající tzv. hyperlemmat, která uživateli korpusu umožní vyhledat všechny výskyty konkrétního lexému bez ohledu na různost jeho dobových aj. podob a tvarů (například: při vyhledávání pomocí hyperlemmatu //kůň// bude možno najít i starší české podoby //kóň// a //kuoň//). ==== Transkripce ==== Starší české texty jsou v diachronním korpusu transkribovány v zásadě podle běžných zvyklostí,((viz např. transkripční zásady v publikaci Staročeský slovník. Úvodní stati, soupis pramenů a zkratek. Praha, Academia 1968; J. Vintr: Zásady transkripce českých textů z barokní doby. Listy filologické, CXXI, 1998, 3-4, s. 341-346)) avšak s některými omezeními (zejména užívání zvláštních znamének a znaků, např. znaků pro staročeské měkké retnice); tato omezení vyplývají ze současných možností elektronického kódování textů, s nímž pracuje [[pojmy:korpusovy_manazer|korpusový manažer]]. === Typografické vlastnosti textu === Každý text je přepsán jedním typem a jedním řezem písma (tučné písmo, kurzíva či proložení znaků nejsou zachovány). Zvláštnosti uspořádání textu na stránce a hranice svébytných úseků textu (nadpisů, poznámek pod čarou apod.) signalizují speciální kódy (viz níže). === Pravopis === Starší pravopisný systém je při transkripci nahrazen systémem dnešním: //To wʃʃe ʃe ʃtalo ne gegj, ale cyzý winau.// > To vše se stalo ne její, ale cizí vinou. Pokud je grafická podoba slova neočekávaná nebo nejednoznačná, je normalizována a původní zápis slova je uložen tak, aby jej bylo možno zobrazit spolu s daným slovem (viz níže). Tímto způsobem je nahrazen tradiční výčet zásahů editora uváděný v ediční poznámce. Obvyklost určitého zápisu je ověřována ve slovnících.((**Příruční slovník jazyka českého**. V Praze: Státní nakladatelství, 1935-1957; databáze lexikálního archivu dostupná z WWW: http://bara.ujc.cas.cz/psjc/; **Slownjk česko-německý Josefa Jungmanna**. W Praze: Pomocj Českého Museum, 1835-1839; Gebauer, Jan. **Slovník staročeský**. V Praze: Česká grafická akciová společnost Unie, 1903, 1916; **Staročeský slovník**. Praha: Academia, 1968- ad.)) * Interpunkci originálu nahrazujeme členěním podle dnešních pravidel (ponechána je v případě, že dnešním pravidlům neodporuje nebo nemění smysl textového úseku). * Zkratky jsou řešeny různě, obvyklé staročeské typy vzniklé kontrakcí nebo nadepsáním písmena (//gt//, //geu//) jsou rozepsány bez poznámky (//jest//, //jemu//), formy zkrácené tečkou zůstávají obvykle nerozepsány. * Hranice slov upravujeme podle dnešního stavu (týká se to zvláště příklonek //-li//, //by// či předložek psaných dohromady se jménem), výjimkou jsou příslovečné, spojkové a zájmenné spřežky, které ponecháváme ve znění originálu (//zdali// nebo //zda-li//, //u vnitř// nebo //uvnitř//, //kdo koli// nebo //kdokoli//, //tak zvaný// nebo //takzvaný//). * Psaní velkých písmen přizpůsobujeme dnešním pravidlům pravopisu. === Fonologické aspekty === Obecnou zásadou je zachovávat bez úpravy ty jevy, které v daném kontextu s jistou pravděpodobností svědčí o dobové výslovnosti (jsou doloženy v jazykových příručkách). Pokud je originální text zapsán/vytištěn tak, že neumožňuje jednoznačnou fonologickou interpretaci (např. proto, že v něm - tak jako ve velké části staročeských textů - není označována kvantita, popř. že text byl přejat z kritické edice), a jeho transkripce tedy zahrnuje i celkovou rekonstrukci některých jeho fonologických rysů vyplývající nikoli z textu samého, ale především z dnešního stupně poznání staršího stavu jazyka, je vedle pracovního identifikačního názvu díla ([[seznamy:strukturni_atributy_syn#strukturni_atributy_korpusu_syn2015_a_novejsich|id]]), který se objeví po kliknutí na [[kurz:zobrazeni_dotazu#jak_zobrazit_dostupne_metainformace|referenční údaj v pravé části konkordančního řádku]], uvedena značka **(R)**. Tato značka uživatele korpusu upozorňuje, že transkribovaná podoba příslušného textu je do značné míry rekonstruovaná ("normalizovaná"), a není tedy po fonologické stránce autentická. Pokud v rámci určitého textu a určitého slova kvantita samohlásek kolísá a přitom je délka i krátkost dobově obvyklá, nesjednocujeme podobu slova podle převažující varianty, ale ponecháváme obě podoby. === Morfologie === Při transkripci respektujeme původní morfologické rysy textu (např. //v českém museum//, //se dvěma křídlama//, //mezi obyvately//, //cizá idea//). Úpravu znění volíme pouze v případě, že jde o zjevný omyl, který by působil problémy při morfologické analýze textu (např. //v krásném stavením// > //v krásném stavení ''/ stavením''//). ===== Značkování ===== Primárním účelem značkování je: - připojit ke korpusovému textu podstatné vnější [[pojmy:metadata|metainformace]] (údaje o době vzniku textu, o jeho autorovi a názvu a o stránkování/foliaci); tyto údaje se objeví v dolním okně obrazovky, [[kurz:zobrazeni_dotazu#jak_zobrazit_dostupne_metainformace|klikneme-li na referenční údaj]] konkordančního řádku; - zachovat lingvisticky relevantní informace; původní grafická podoba slova se v případě provedení úpravy ukládá do [[pojmy:atributy_pozicni|pozičního atributu]] "e" (emendace) daného slova, speciálně se zachycuje i (částečná) absence či doplnění textu; - naznačit strukturu korpusového textu a označit jeho zvláštní součásti, aby byla minimalizována ztráta těchto údajů při transkripci. V diachronním korpusu jsou k tomuto cíli aplikovány značky (konkrétně [[pojmy:atributy_strukturni|strukturní atributy]]) uvedené v následující tabulce. **Kódy a zvláštní znaky** obsažené v textu (zobrazí se po volbě příslušných značek v [[manualy:kontext:moznosti_zobrazeni|Zobrazení]]): ^ Kód/Zkratka ^ Popis ^ ^ ** ** | naznačují **začátek a konec formátovaného textu**, tj. graficky členěného textu, tabulky, grafické poezie, textu jako součásti vyobrazení ap.; nejazykové prvky takového textu (grafické symboly, obrázky ap.) se přitom bez poznámky vypouštějí. | ^ ** ** | naznačují **začátek a konec titulku**, podtitulku, mezititulku, záhlaví, textu doplňující titul, název ap. Například: //Kapitola 5//; //U hrobu rekova. Z polštiny přeložil Alois Bydžovský. (Dokončení)// | ^ ** ** | naznačují **začátek a konec poznámky** (pod čarou aj.). Text poznámky se přitom v korpusovém textu vkládá přímo na místo, odkud se na poznámku odkazuje. | ^ ** ** | naznačují citátové (gramaticky nezačleněné) **cizí prvky**, pasáže v cizím jazyce ap. Není-li mezi kódy přepsán skutečný cizojazyčný text (např. proto, že je psán abecedou, s níž korpusový manažer nepracuje), uvádí se mezi kódy alespoň jazyk nepřepsaného textu, a to v závorkách, tedy např. //(řečtina)//. | ^ ** ** | naznačují **začátek a konec veršovaného textu**. | ^ ** ** | naznačují části textu, které byly dodatečně **přeškrtnuty** (je-li pravděpodobné, že jde o škrt autorův, popř. písařův). | ^ ** ** | naznačují **začátek a konec marginálie**; text marginálie se přitom umisťuje před začátek odstavce nebo věty (tj. na místo v textu, kam podle smyslu patří); např.: //Příklady toho některé vizme. Příklad na Adamovi v ráji První člověk Adam rady u sebe nevěda, začal ji krom sebe hledati...// | **Informace uložená v pozičním atributu "e" (emendace)** Atribut "e" informuje o **grafické podobě slova** (obvykle slova zapsaného nebo vytištěného způsobem, který je v dané době nestandardní, zjevně chybný, nejednoznačný, nezřetelný nebo nečitelný). Původní zápis se uvádí v transliterované podobě (bez speciálních znaků, jako je tzv. dlouhé s), tj. např. //ušima ''/ vssijma''//. Další případy: ^ Kód/Zkratka ^ Popis ^ ^ **e** | informuje o zjevných **tiskových** nebo **písařských chybách** (např. //duha ''/ dnha''//), | | ::: | - o dobově **neobvyklém** nebo **rozkolísaném způsobu psaní**, u nějž se kloníme k názoru, že neobráží variantní výslovnost (tj. jinou výslovnost, než odpovídá dobově obvyklému způsobu zápisu), např. //set ''/ seth'', maso ''/ masso'', Kristus ''/ Krystus''// ap., | | ::: | - o případech, v nichž grafický záznam sice může odrážet více či méně odlišnou výslovnost než standardní zápis, avšak příslušný tisk či písemný záznam je jako celek natolik nedokonalý nebo nedůsledný, že je sporné, zda nestandardní grafika odlišnou výslovnost skutečně odráží; například: //nějaký ''/ negaký'', jináč ''/ ginač''//, | | ::: | - o **nejednoznačném písemném záznamu**, který by mohl být interpretován/transkribován více než jedním způsobem; například: //ústa ''/ vsta''// (zápis je možno číst i jako //usta//), //město ''/ miesto''// (zápis by v daném kontextu bylo možno číst i jako //miesto//) ap., | | ::: | - o částečně **nezřetelném**, **poškozeném** ap. textu, který však bylo při transkripci možno na základě kontextu doplnit (původní záznam je uveden v pozičním atributu "e"), přičemž nezřetelná, nečitelná nebo chybějící místa jsou označena pomocí [...]; například: //námi ''/ ná[...]''//, //uslyšán ''/ vsl[...]ssan''//),| | ::: | - o užívání **římských číslic** (čísla zapsaná římskými číslicemi jsou v korpusu přepsána číslicemi arabskými, např. //123 ''/ cxxiii''; do léta 1560ho ''/ M.D.L.Xo.''//). | **Značky mající povahu textových pozic** Na rozdíl od všech výše uvedených atributů, které nejsou součástí vlastního textu díla a nevstupují do výpočtů, je naznačení chybějícího či doplněného textu stejnou textovou pozicí jako slovní tvary či interpunkce. ^ Kód/Zkratka ^ Popis ^ ^ **[ ]** | naznačují, že **znak** (značka, symbol ap.), který nemá ekvivalent ve znakové sadě Windows, s níž pracuje korpusový manažer, byl přepsán dnešním ekvivalentem (značkou, zkratkou ap.) nebo rozepsán slovy, aby byl zachován smysl věty (např. náhrada astrologického znaku pro Slunce v zápisu //Myslí, že jemu samému [Slunce] svítí.//). | ^ **[...]** | naznačuje **vynechaný, porušený nebo nečitelný text**, např. //A protož múdrý lékař najprv [...]//. | ===== Anotace textových typů ===== V Diakorpu verze 6 byla zavedena dvouúrovňová klasifikace textů. Označení úrovní je stejné jako v korpusech řady SYN (1. [[pojmy:txtype_group|txtype_group]], textová skupina; 2. [[pojmy:txtype|txtype]], textový typ), avšak vymezení jednotlivých skupin a typů (tj. [[seznamy:txtype|hodnoty]] strukturních atributů ''txtype_group'' a ''txtype'') se liší. **Klasifikace textů v korpusu Diakorp verze 6** V závorkách jsou uvedeny typy textů, které zatím buď nejsou v korpusu zastoupeny, nebo nejsou určeny (X). ^ txtype_group ^ txtype ^ | próza | povídka, román, cestopis... | | verše | písně duchovní... | | drama | tragédie, komedie ve verších... | | odborná teoretická | chemie, historie... | | odborná praktická | zvěrolékařství, zemědělství... | | periodikum | časopis, noviny | | názory | X (propagace, agitace, polemika apod.) | | reflexe | X (esej, rozjímání apod.) | | řeč | modlitby, bohoslužba... (slavnostní řeč apod.) | | každodenní | deník... (dopis, paměti apod.) | | mix | X | Cílem klasifikace je pomoci uživateli zorientovat se v datech. Voleny proto byly takové textové třídy, které jsou pokud možno obecně srozumitelné, a to i za cenu jisté nesystematičnosti v třídění. Na úrovni //textové skupiny// i //textového typu// jsou využita různá kritéria (literární druhy, registry, témata...), aby při daném rozsahu korpusu nenarůstala složitost metadat. Třídění je založeno na textech, které jsou obsaženy v současné verzi korpusu. Konflikty, které se v budoucnu očekávají, budou řešeny pragmaticky (např. odborný časopis bude zařazen do skupiny "odborná teoretická" nebo "odborná praktická", neboť je to z hlediska předpokládaného lingvistického výzkumu podstatnější než periodicita vydávání; analogicky nyní spadá "časopis pro zábavu a poučení" pod skupinu "periodikum", a nikoli "mix", protože označení formy má větší výpovědní hodnotu atd.). **Textová skupina** (''txtype_group'') představuje vyšší úroveň obecnosti, jednotlivé kategorie byly navrženy tak, aby do nich bylo možné zařadit většinu textů, které budou do korpusu přibývat. Vycházejí ze základního rozdělení veřejných psaných textů na beletrii, odbornou (oborovou) literaturu a publicistiku, nové kategorie byly přidány pro přechodové a speciální typy textů. * Beletrii odpovídají kategorie //drama//, //verše// a //próza//. Nejméně typickým představitelem je vzhledem k žánrovému synkretismu ve starší české literatuře //próza//: do této kategorie byly zařazeny např. i kroniky, staré historie a životopisy (svatých, papežů), a to pod souhrnným označením (''txtype'') //vyprávění historické//. * Odborná (oborová) literatura byla rozdělena na skupinu //odborná teoretická// a //odborná praktická//. Prototypem prakticky orientovaných textů je návod, mezním případem jsou učebnice a výchovné spisy. Základním distinktivním rysem oproti teoretickým textům je přítomnost apelativní funkce (Bühler), příjemce má podle těchto textů řídit své chování. * Publicistice v synchronních korpusech odpovídá kategorie //periodikum//. Pomezní a speciální kategorie: * //Názory// - texty na pomezí odborné literatury a publicistiky ve stylistickém smyslu (vymezené persvazivní funkcí).((např. Čechová, M. - Krčmová, M. - Minářová, E.: //Současná stylistika//. Praha: NLN, 2008.)) Na rozdíl od odborných textů jsou skutečnosti otevřeně hodnoceny z jednoho stanoviska. * //Reflexe// - přechodový typ mezi //odbornou teoretickou// literaturou a //názory//. Úvahy vedené ze subjektivního hlediska, ale nikoli s primárním cílem někoho přesvědčovat; filosofické texty, které ještě nelze zařadit k určité odborné disciplíně. * //Řeč// - kategorie předem připravených (vzorových) nebo následně zapsaných proslovů ("written to be spoken"). Specifické je zařazení modliteb - důvodem je jednak hlasová (vnější i vnitřní) realizace, jednak formální různorodost těchto textů. * //Každodenní// - texty se základní dorozumívací funkcí. Často se vztahují k plynutí času, proto je kategorie určena jak pro soukromé dopisy a běžné poznámky, tak pro pravidelné chronologické záznamy (v letopisech apod.), které nemusejí mít nutně soukromý charakter. **Textový typ** (''txtype'') slouží k podrobnějšímu třídění textů v rámci textové skupiny. Při určování typu byl sledován dvojí cíl: podat informaci o textu (např. //list pastýřský//) a zároveň pomocí stejných nebo podobných názvů typů vytvářet další podskupiny textů (//povídka// - //povídky// (tj. cyklus, soubor) - //povídka didaktická//). Názvy byly v případě beletristických děl přebírány z literárněvědných příruček ((např. Opelík, Jiří, ed. et al. //Lexikon české literatury: osobnosti, díla, instituce//. 1. vyd. Praha: Academia, 1985-2008; Mocná, Dagmar a kol. //Encyklopedie literárních žánrů//. 1. vyd. Praha: Paseka, 2004.)) nebo vytvářeny z tradičních termínů. Vodítkem ke stanovení typu byly dále údaje v katalogu Národní knihovny nebo metainformace obsažené v samotných dílech (v podtitulech apod.). Poznámky k některým typům: * //Vyprávění historické// - sdružuje kroniky a blízký žánr historie, životopisy, pověsti apod. (název vznikl analogií k označení "historický román"). * //Historie// - v rámci teoreticky odborné literatury není rozlišen předmět historického popisu (právo, dějiny Moravy apod.), většinou je naznačen již titulem. * //X// - není blíže určen. ===== Jak citovat DIAKORP ===== Kučera, K. – Stluka, M.: //DIAKORP: Diachronní korpus, verze 5 z 21. 2. 2011//. Ústav Českého národního korpusu FF UK, Praha 2011. Dostupný z WWW: http://www.korpus.cz Kučera, K. – Řehořková, A. – Stluka, M.: //DIAKORP: Diachronní korpus, verze 6 z 18. 12. 2015//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz Kučera, K. (2014): Diachronní složka Českého národního korpusu a hranice možností korpusového výzkumu vývoje češtiny. //Naše řeč// 97 (4–5), 208–215. http://nase-rec.ujc.cas.cz/archiv.php?art=8339 --- //Karel Kučera, Martin Stluka, Anna Řehořková (Zitová)// ==== Související odkazy ==== [[pojmy:diachronni|Diachronní korpusy]] • [[cnk:dialekt|Korpus DIALEKT]] • [[cnk:uvod|Korpusy ČNK]] • [[kurz:hledani_v_diachronnim_korpusu|Hledání v diachronním korpusu]]