AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Strukturní atributy u korpusů řady SYN

Strukturní atributy korpusu SYN2015 a novějších

Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument <doc>. Ten se dále dělí na jednotlivé texty (každý dokument obsahuje alespoň jeden <text>) a dále na odstavce <p> a věty <s>. Většina metadat je vázána na atributy <doc> a <text>.

Struktura Atribut Popis Možné hodnoty
Základní hierarchické struktury a jejich atrituby
doc title název dokumentu nebo periodika např. Gejzír
author autor dokumentu např. Diviš, Ivan
issue vydání (u periodik) např. č. 10/2015
publisher vydavatel např. Odeon
pubplace místo vydání např. Praha
pubyear rok vydání např. 2009
translator překladatel např. Syrovátka, Tomáš
srclang zdrojový jazyk seznam hodnot
txtype_group skupina textových typů seznam hodnot
txtype textový typ seznam hodnot
genre_group skupina oborů/témat seznam hodnot
genre žánr/oblast seznam hodnot
medium médium dokumentu seznam hodnot
periodicity periodicita seznam hodnot
audience cílový adresát (obecný/dětský čtenář) seznam hodnot
isbnissn ISBN/ISSN např. 978-80-207-1299-8
biblio generovaný bibliografický údaj např. Diviš, Ivan (2009): Gejzír. Praha: Odeon.
syn atribut používaný pouze u korpusů SYN; označuje, z jakého korpusu text původně pochází např. SYN2020
id jednoznačný identifikátor dokumentu např. resp1510
text section generovaný typ rubriky (jen u vybraných textů z publicistiky) seznam hodnot
section_orig původní název rubriky (jen u vybraných textů z publicistiky) např. Komentáře / očkování / politická korektnost
id jednoznačný identifikátor textu např. resp1510:11
p id jednoznačný identifikátor odstavce např. resp1510:11:3
type běžný odstavec / nadpis (jen v korpusech SYN2015 a SYN (verze 4 až 8)) {normal, head}
s id jednoznačný identifikátor věty např. resp1510:11:3:1
Další struktury a jejich atributy (zachovávají informace o původním formátování textu)
hi rend zvýraznění a řezy písma - tam, kde byly zachyceny ve vstupním formátu {italic, bold, underline, expanded, subscript, superscript} a jejich kombinace
lb - označení hranice verše v poezii (nepárová struktura) -
Další struktury (použité počínaje korpusy SYN2020 a SYN (verze 9))
head - označení nadpisů - tam, kde byly zachyceny ve vstupním formátu -
g - místo, kde mezi dvěma po sobě následujícími tokeny nebyla v textu mezera (nepárová struktura), např. „70<g/>. léta“ -
table - místo, kde byla v původním textu tabulka (nepárová struktura) -
ref - místo, kde byl v původním textu webový odkaz (nepárová struktura) -
email - místo, kde byla v původním textu e-mailová adresa (nepárová struktura) -
graphic - místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura) -
geo - místo, kde byly v původním textu GPS souřadnice (nepárová struktura) -

Strukturní atributy korpusů z let 2005 až 2013

Většina strukturních atributů v korpusech SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN2013PUB a v korpusu SYN do verze 3 je vázána na strukturní jednotku <opus>. Základními strukturními atributy v korpusech psané češtiny jsou:

Struktura Atribut Popis
opus autor autor/autoři opusu, příp. informace, že je autor nezjistitelný
nazev název opusu (hlavní titul)
nakladatel organizace, která dílo vydala
mistovyd místo vydání
rokvyd rok vydání té verze opusu, která je zařazena do korpusu (nemusí se tedy jednat o první vydání díla)
isbnissn identifikátor ISBN, příp. ISSN
preklad překladatel díla (nejedná-li se o původně české dílo)
srclang zdrojový jazyk (nejedná-li se o původně české dílo - v tom případě tento atribut nenabývá žádné hodnoty: srclang="")
txtype_group makroskupina textových typů: beletrie, odborná, publicistika
txtype typ textu (blíže určený)
genre žánr (text vymezený na základě pojednávaného tématu)
med médium (původní způsob přenosu textu)
syn atribut používaný pouze u nereferenčního korpusu SYN; označuje, z jakého referenčního korpusu text původně pochází
doc id identifikátor dokumentu v rámci opusu
s id identifikátor věty

Strukturní atributy korpusu SYN2000

V korpusu SYN2000 je nabídka strukturních atributů výrazně omezená, všechny se navíc vážou ke strukturní jednotce <doc>:

Struktura Atribut Popis
doc opus identifikátor díla (v pozdějších korpusech řady SYN odpovídá atributu id)
txtype typ textu
temp rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu rokvyd)

Na základě jednoznačného identifikátoru doc.opus je možné zjistit všechny dodatečné informace o textu v seznamech děl korpusu SYN2000. Při začlenění korpusu SYN2000 do korpusu SYN byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem.