Toto je starší verze dokumentu!
Obsah
Struktury a strukturní atributy u korpusů řady SYN
Struktury korpusů psané češtiny
V psaných korpusech řady SYN nacházíme tyto hierarchické strukturní jednotky opatřené jedinečnými identifikátory:
Strukturní jednotky v korpusech řady SYN počínaje SYN2015 | Strukturní jednotky v korpusech SYN2005 až SYN2013PUB | Strukturní jednotky v SYN2000 |
---|---|---|
<doc> | <opus> | <doc> |
<text> | <doc> | |
<p> | ||
<s> | <s> | <s> |
- opus - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) - tato úroveň byla užívána v korpusech SYN2005 až SYN2013PUB
- doc - různá platnost v různých korpusech:
- v korpusech s jednotkou
<opus>
: dokument v rámci opusů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek)
- text - v korpusech s hierarchicky nejvyšší jednotkou
<doc>
: text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek, článek v novinách apod.) - p - odstavec
- s - věta (sentence); každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) věty
Strukturní jednotky jsou přitom vždy uspořádány hierarchicky, jejich hranice se tedy neprotínají (např. dokument nemůže být ukončen uprostřed věty).
Strukturní jednotky se obvykle zapisují pomocí špičatých závorek, kde <doc>
značí začátek jednotky, </doc>
její konec a <doc />
její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků.
Dotaz | Vyhodnocení |
---|---|
[word="život"][word="\."]</doc> | výskyty sekvence slov život a „.“ na konci (libovolného) dokumentu |
<doc> [lemma="kdepak"] | výskyty lemmatu kdepak na začátku (libovolného) dokumentu |
[word="jak"][]*[word="tak"] within <s /> | výskyty slov jak a tak v proměnlivé vzdálenosti v rámci jakékoli jedné věty1) |
Strukturní atributy korpusu SYN2015 a novějších
Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument <doc>
. Ten se dále dělí na jednotlivé texty (každý dokument obsahuje alespoň jeden <text>
) a dále na odstavce <p>
a věty <s>
. Většina metadat je vázána na atributy <doc> a <text>.
Struktura | Atribut | Popis | Hodnoty atributu |
---|---|---|---|
Základní hierarchické struktury a jejich atrituby | |||
doc | title | název dokumentu nebo periodika | např. Gejzír |
author | autor dokumentu | např. Diviš, Ivan | |
issue | vydání (u periodik) | např. č. 10/2015 | |
publisher | vydavatel | např. Odeon | |
pubplace | místo vydání | např. Praha | |
pubyear | rok vydání | např. 2009 | |
translator | překladatel | např. Syrovátka, Tomáš | |
srclang | zdrojový jazyk | seznam hodnot | |
txtype_group | skupina textových typů | seznam hodnot | |
txtype | textový typ | seznam hodnot | |
genre_group | skupina oborů/témat | seznam hodnot | |
genre | žánr/oblast | seznam hodnot | |
medium | médium dokumentu | seznam hodnot | |
periodicity | periodicita | seznam hodnot | |
audience | cílový adresát (obecný/dětský čtenář) | seznam hodnot | |
isbnissn | ISBN/ISSN | např. 978-80-207-1299-8 | |
biblio | generovaný bibliografický údaj | např. Diviš, Ivan (2009): Gejzír. Praha: Odeon. | |
syn | atribut používaný pouze u korpusů SYN; označuje, z jakého korpusu text původně pochází | např. SYN2020 | |
id | jednoznačný identifikátor dokumentu | např. resp1510 | |
text | section | generovaný typ rubriky (jen u vybraných textů z publicistiky) | seznam hodnot |
section_orig | původní název rubriky (jen u vybraných textů z publicistiky) | např. Komentáře / očkování / politická korektnost | |
id | jednoznačný identifikátor textu | např. resp1510:11 | |
p | id | jednoznačný identifikátor odstavce | např. resp1510:11:3 |
type | běžný odstavec / nadpis (jen v korpusech SYN2015 a SYN (verze 4 až 8)) | {normal, head} |
|
s | id | jednoznačný identifikátor věty | např. resp1510:11:3:1 |
Další struktury a jejich atributy (zachovávají informace o původním formátování textu) | |||
hi | rend | zvýraznění a řezy písma - tam, kde byly zachyceny ve vstupním formátu | {italic, bold, underline, expanded, subscript, superscript} a jejich kombinace |
lb | - | označení hranice verše v poezii (nepárová struktura) | - |
Další struktury (použité počínaje korpusy SYN2020 a SYN (verze 9)) | |||
head | - | označení nadpisů - tam, kde byly zachyceny ve vstupním formátu | - |
g | - | místo, kde mezi dvěma po sobě následujícími tokeny nebyla v textu mezera (nepárová struktura), např. „70<g/>. léta“ | - |
table | - | místo, kde byla v původním textu tabulka (nepárová struktura) | - |
ref | - | místo, kde byl v původním textu webový odkaz (nepárová struktura) | - |
- | místo, kde byla v původním textu e-mailová adresa (nepárová struktura) | - | |
graphic | - | místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura) | - |
geo | - | místo, kde byly v původním textu GPS souřadnice (nepárová struktura) | - |
Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy.
Dotaz | Vyhodnocení |
---|---|
[word="ale"] within <doc author="Topol, Filip" /> | všechny výskyty slova ale z děl Filipa Topola |
[word="moc"] within <doc txtype_group="(NFC)|(NMG)" /> | všechny výskyty slova moc v dokumentech označených jako oborová literatura a publicistika |
Strukturní atributy korpusů z let 2005 až 2013
Většina strukturních atributů v korpusech SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN2013PUB a v korpusu SYN do verze 3 je vázána na strukturní jednotku <opus>
. Základními strukturními atributy v korpusech psané češtiny jsou:
Struktura | Atribut | Popis |
---|---|---|
opus | autor | autor/autoři opusu, příp. informace, že je autor nezjistitelný |
nazev | název opusu (hlavní titul) | |
nakladatel | organizace, která dílo vydala | |
mistovyd | místo vydání | |
rokvyd | rok vydání té verze opusu, která je zařazena do korpusu (nemusí se tedy jednat o první vydání díla) | |
isbnissn | identifikátor ISBN, příp. ISSN | |
preklad | překladatel díla (nejedná-li se o původně české dílo) | |
srclang | zdrojový jazyk (nejedná-li se o původně české dílo - v tom případě tento atribut nenabývá žádné hodnoty: srclang="" ) |
|
txtype_group | makroskupina textových typů: beletrie, odborná, publicistika | |
txtype | typ textu (blíže určený) | |
genre | žánr (text vymezený na základě pojednávaného tématu) | |
med | médium (původní způsob přenosu textu) | |
syn | atribut používaný pouze u nereferenčního korpusu SYN; označuje, z jakého referenčního korpusu text původně pochází | |
doc | id | identifikátor dokumentu v rámci opusu |
s | id | identifikátor věty |
Strukturní atributy korpusu SYN2000
V korpusu SYN2000 je nabídka strukturních atributů výrazně omezená, všechny se navíc vážou ke strukturní jednotce <doc>
:
Struktura | Atribut | Popis |
---|---|---|
doc | opus | identifikátor díla (v pozdějších korpusech řady SYN odpovídá atributu id ) |
txtype | typ textu | |
temp | rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu rokvyd ) |
Na základě jednoznačného identifikátoru doc.opus
je možné zjistit všechny dodatečné informace o textu v seznamech děl korpusu SYN2000. Při začlenění korpusu SYN2000 do korpusu SYN byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem.