Obsah

Struktury a strukturní atributy diachronního korpusu Diakorp

Struktury korpusu Diakorp (verze 6)

V diachronním korpusu Diakorp nacházíme tyto hierarchické strukturní jednotky:

Strukturní jednotky se obvykle zapisují pomocí špičatých závorek, kde <doc> značí začátek jednotky, </doc> její konec a <doc /> její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků.

Ve strukturách korpusu Diakorp se vedle různých informací o jednotlivých textech a jejich strukturaci zachovává i podstatná část lingvistických informací, k jejichž ztrátě obvykle dochází při transkripci, a to za pomoci nehierarchických strukturních jednotek:

Struktura Popis
<f> </f> naznačují začátek a konec formátovaného textu, tj. graficky členěného textu, tabulky, grafické poezie, textu jako součásti vyobrazení ap.; nejazykové prvky takového textu (grafické symboly, obrázky ap.) se přitom bez poznámky vypouštějí.
<k> </k> naznačují začátek a konec titulku, podtitulku, mezititulku, záhlaví, textu doplňující titul, název ap. Například: <k>Kapitola 5</k>; <k>U hrobu rekova. Z polštiny přeložil Alois Bydžovský. (Dokončení)</k>
<n> </n> naznačují začátek a konec poznámky (pod čarou aj.). Text poznámky se přitom v korpusovém textu vkládá přímo na místo, odkud se na poznámku odkazuje.
<o> </o> naznačují citátové (gramaticky nezačleněné) cizí prvky, pasáže v cizím jazyce ap. Není-li mezi kódy přepsán skutečný cizojazyčný text (např. proto, že je psán abecedou, s níž korpusový manažer nepracuje), uvádí se mezi kódy alespoň jazyk nepřepsaného textu, a to v závorkách, tedy např. <o>(řečtina)</o>.
<v> </v> naznačují začátek a konec veršovaného textu.
<x> </x> naznačují části textu, které byly dodatečně přeškrtnuty (je-li pravděpodobné, že jde o škrt autorův, popř. písařův).
<m> </m> naznačují začátek a konec marginálie; text marginálie se přitom umisťuje před začátek odstavce nebo věty (tj. na místo v textu, kam podle smyslu patří); např.: Příklady toho některé vizme. <m>Příklad na Adamovi v ráji</m> První člověk Adam rady u sebe nevěda, začal ji krom sebe hledati…

Další informace týkající se transkripce jsou navíc uvedeny ve zvláštním pozičním atributu e (emendace). Viz informace o značkování korpusu Diakorp.

Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. metadata), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u korpusu Diakorp v6 uvádíme níže.

Strukturní atributy korpusu Diakorp (verze 6)

Struktura Atribut Popis Hodnoty atributu
doc year rok vydání např. 1492
biblio bibliografický údaj např. Kabátník, Martin: Cesta z Čech do Jeruzaléma a Egypta (KapPraž O 35) (R) (1492)
txtype_group skupina textových typů např. próza, viz popis níže
txtype textový typ např. cestopis, viz popis níže
page id jednoznačný identifikátor stránky např. 182b

Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy.

Hodnoty strukturních atributů txtype_group a txtype

V Diakorpu verze 6 byla zavedena dvouúrovňová klasifikace textů. Označení úrovní je stejné jako v korpusech řady SYN (1. txtype_group, textová skupina; 2. txtype, textový typ), avšak vymezení jednotlivých skupin a typů (tj. hodnoty strukturních atributů txtype_group a txtype) se liší.

V závorkách jsou uvedeny typy textů, které zatím buď nejsou v korpusu zastoupeny, nebo nejsou určeny (X).

txtype_group txtype
próza povídka, román, cestopis…
verše písně duchovní…
drama tragédie, komedie ve verších…
odborná teoretická chemie, historie…
odborná praktická zvěrolékařství, zemědělství…
periodikum časopis, noviny
názory X (propagace, agitace, polemika apod.)
reflexe X (esej, rozjímání apod.)
řeč modlitby, bohoslužba… (slavnostní řeč apod.)
každodenní deník… (dopis, paměti apod.)
mix X

Cílem klasifikace je pomoci uživateli zorientovat se v datech. Voleny proto byly takové textové třídy, které jsou pokud možno obecně srozumitelné, a to i za cenu jisté nesystematičnosti v třídění. Na úrovni textové skupiny i textového typu jsou využita různá kritéria (literární druhy, registry, témata…), aby při daném rozsahu korpusu nenarůstala složitost metadat. Třídění je založeno na textech, které jsou obsaženy v současné verzi korpusu. Konflikty, které se v budoucnu očekávají, budou řešeny pragmaticky (např. odborný časopis bude zařazen do skupiny „odborná teoretická“ nebo „odborná praktická“, neboť je to z hlediska předpokládaného lingvistického výzkumu podstatnější než periodicita vydávání; analogicky nyní spadá „časopis pro zábavu a poučení“ pod skupinu „periodikum“, a nikoli „mix“, protože označení formy má větší výpovědní hodnotu atd.).

Textová skupina (txtype_group) představuje vyšší úroveň obecnosti, jednotlivé kategorie byly navrženy tak, aby do nich bylo možné zařadit většinu textů, které budou do korpusu přibývat. Vycházejí ze základního rozdělení veřejných psaných textů na beletrii, odbornou (oborovou) literaturu a publicistiku, nové kategorie byly přidány pro přechodové a speciální typy textů.

Pomezní a speciální kategorie:

Textový typ (txtype) slouží k podrobnějšímu třídění textů v rámci textové skupiny. Při určování typu byl sledován dvojí cíl: podat informaci o textu (např. list pastýřský) a zároveň pomocí stejných nebo podobných názvů typů vytvářet další podskupiny textů (povídka - povídky (tj. cyklus, soubor) - povídka didaktická). Názvy byly v případě beletristických děl přebírány z literárněvědných příruček 2) nebo vytvářeny z tradičních termínů. Vodítkem ke stanovení typu byly dále údaje v katalogu Národní knihovny nebo metainformace obsažené v samotných dílech (v podtitulech apod.).

Poznámky k některým typům:

1)
např. Čechová, M. - Krčmová, M. - Minářová, E.: Současná stylistika. Praha: NLN, 2008.
2)
např. Opelík, Jiří, ed. et al. Lexikon české literatury: osobnosti, díla, instituce. 1. vyd. Praha: Academia, 1985-2008; Mocná, Dagmar a kol. Encyklopedie literárních žánrů. 1. vyd. Praha: Paseka, 2004.