Následující verze | Předchozí verze |
seznamy:strukturni_atributy_diakorp [2022/08/31 22:57] – vytvořeno jankrivan | seznamy:strukturni_atributy_diakorp [2022/08/31 23:27] (aktuální) – [Struktury korpusu Diakorp (verze 6)] jankrivan |
---|
==== Struktury korpusu Diakorp (verze 6) ==== | ==== Struktury korpusu Diakorp (verze 6) ==== |
| |
V **[[pojmy:diachronni|diachronním]] korpusu Diakorp v6 nacházíme tyto hierarchické strukturní jednotky: | V [[pojmy:diachronni|diachronním]] korpusu [[cnk:diakorp|Diakorp]] nacházíme tyto hierarchické strukturní jednotky: |
| |
* **doc** - text nebo ucelený soubor textů | * **doc** - text nebo ucelený soubor textů |
Strukturní jednotky se obvykle zapisují pomocí špičatých závorek, kde ''<doc>'' značí začátek jednotky, ''</doc>'' její konec a ''<doc />'' její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků. | Strukturní jednotky se obvykle zapisují pomocí špičatých závorek, kde ''<doc>'' značí začátek jednotky, ''</doc>'' její konec a ''<doc />'' její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků. |
| |
Ve strukturách korpusu [[cnk:diakorp|Diakorp]] v6 se vedle různých informací o jednotlivých textech a jejich [[pojmy:atributy_strukturni|strukturaci]] zachovává i podstatná část lingvistických informací, k jejichž ztrátě obvykle dochází při transkripci: | Ve strukturách korpusu [[cnk:diakorp|Diakorp]] se vedle různých informací o jednotlivých textech a jejich [[pojmy:atributy_strukturni|strukturaci]] zachovává i podstatná část lingvistických informací, k jejichž ztrátě obvykle dochází při transkripci, a to za pomoci nehierarchických strukturních jednotek: |
| |
^ Struktura ^ Popis ^ | ^ Struktura ^ Popis ^ |
^ **<nowiki><m> </m></nowiki>** | naznačují **začátek a konec marginálie**; text marginálie se přitom umisťuje před začátek odstavce nebo věty (tj. na místo v textu, kam podle smyslu patří); např.: //Příklady toho některé vizme. <nowiki><m>Příklad na Adamovi v ráji</m></nowiki> První člověk Adam rady u sebe nevěda, začal ji krom sebe hledati...// | | ^ **<nowiki><m> </m></nowiki>** | naznačují **začátek a konec marginálie**; text marginálie se přitom umisťuje před začátek odstavce nebo věty (tj. na místo v textu, kam podle smyslu patří); např.: //Příklady toho některé vizme. <nowiki><m>Příklad na Adamovi v ráji</m></nowiki> První člověk Adam rady u sebe nevěda, začal ji krom sebe hledati...// | |
| |
Další informace týkající se transkripce jsou uvedeny ve zvláštním pozičním atributu <code>e</code> (emendace). Viz informace o [[cnk:diakorp#znackovani|značkování]] korpusu Diakorp. | Další informace týkající se transkripce jsou navíc uvedeny ve zvláštním pozičním atributu **e** (emendace). Viz informace o [[cnk:diakorp#znackovani|značkování]] korpusu Diakorp. |
| |
Výše uvedeným strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy:metadata|metadata]]), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u korpusu Diakorp v6 uvádíme níže. | Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy:metadata|metadata]]), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u korpusu Diakorp v6 uvádíme níže. |
| |
| ==== Strukturní atributy korpusu Diakorp (verze 6) ==== |
==== Strukturní atributy korpusu Diakorp v6 ==== | |
| |
Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument ''<doc>''. Ten se dále dělí na jednotlivé texty (každý dokument obsahuje alespoň jeden ''<text>'') a dále na odstavce ''<p>'' a věty ''<s>''. Většina [[pojmy:metadata|metadat]] je vázána na atributy <doc> a <text>. | |
| |
^ Struktura ^ Atribut ^ Popis ^ Hodnoty atributu ^ | ^ Struktura ^ Atribut ^ Popis ^ Hodnoty atributu ^ |
| //Základní hierarchické struktury a jejich atrituby//|||| | | doc | year | rok vydání | např. //1492// | |
| doc | year | rok vydání | např. //1400// | | | ::: | biblio | bibliografický údaj | např. //Kabátník, Martin: Cesta z Čech do Jeruzaléma a Egypta (KapPraž O 35) (R) (1492)// | |
| ::: | biblio | bibliografický údaj | např. //xxx// | | | ::: | txtype_group | skupina textových typů | např. //próza//, viz popis níže | |
| ::: | txtype_group | skupina textových typů | seznam hodnot níže | | | ::: | txtype | textový typ | např. //cestopis//, viz popis níže | |
| ::: | txtype | textový typ | seznam hodnot níže | | | page | id | jednoznačný identifikátor stránky | např. //182b// | |
| page | id | jednoznačný identifikátor stránky | např. //xxx// | | |
| |
Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy. | Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy. |
| |
==== Hodnoty strukturních atributů txtype_group a txtype ==== | === Hodnoty strukturních atributů txtype_group a txtype === |
| |
V Diakorpu verze 6 byla zavedena dvouúrovňová klasifikace textů. Označení úrovní je stejné jako v korpusech řady SYN (1. [[pojmy:txtype_group|txtype_group]], textová skupina; 2. [[pojmy:txtype|txtype]], textový typ), avšak vymezení jednotlivých skupin a typů (tj. [[seznamy:txtype|hodnoty]] strukturních atributů ''txtype_group'' a ''txtype'') se liší. | V Diakorpu verze 6 byla zavedena dvouúrovňová klasifikace textů. Označení úrovní je stejné jako v korpusech řady SYN (1. [[pojmy:txtype_group|txtype_group]], textová skupina; 2. [[pojmy:txtype|txtype]], textový typ), avšak vymezení jednotlivých skupin a typů (tj. [[seznamy:txtype|hodnoty]] strukturních atributů ''txtype_group'' a ''txtype'') se liší. |