Toto je starší verze dokumentu!
Obsah
Struktury a strukturní atributy u korpusů řady SYN
Struktury korpusů psané češtiny
V psaných korpusech řady SYN nacházíme počínaje korpusem SYN2015 tyto hierarchické strukturní jednotky opatřené jedinečnými identifikátory:
- doc - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin)
- text - text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (např. soubor povídek, článek v novinách apod.)
- p - odstavec (paragraph)
- s - věta (sentence)
V dřívějších korpusech byly struktury odlišné. V korpusech SYN2005 až SYN2013PUB se využívaly jednotky opus (text nebo ucelený soubor textů (povídková kniha, jedno číslo novin)) a doc (dokument v rámci opusů, má-li nějakou vnitřní strukturaci (např. soubor povídek)). V korpusu SYN2020 byly použity pouze struktury doc a s. Srovnání nabízí následující tabulka:
Strukturní jednotky v korpusech řady SYN počínaje SYN2015 | Strukturní jednotky v korpusech SYN2005 až SYN2013PUB | Strukturní jednotky v SYN2000 |
---|---|---|
<doc> | <opus> | <doc> |
<text> | <doc> | |
<p> | ||
<s> | <s> | <s> |
Uvedené strukturní jednotky jsou vždy uspořádány hierarchicky, jejich hranice se tedy neprotínají (např. dokument nemůže být ukončen uprostřed věty).
Strukturní jednotky se obvykle zapisují pomocí špičatých závorek, kde <doc>
značí začátek jednotky, </doc>
její konec a <doc />
její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků.
Dotaz | Vyhodnocení |
---|---|
[word="život"][word="\."]</doc> | výskyty sekvence slov život a „.“ na konci (libovolného) dokumentu |
<doc> [lemma="kdepak"] | výskyty lemmatu kdepak na začátku (libovolného) dokumentu |
[word="jak"][]*[word="tak"] within <s /> | výskyty slov jak a tak v proměnlivé vzdálenosti v rámci jakékoli jedné věty1) |
Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. metadata), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže.
Strukturní atributy korpusu SYN2015 a novějších
Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument <doc>
. Ten se dále dělí na jednotlivé texty (každý dokument obsahuje alespoň jeden <text>
) a dále na odstavce <p>
a věty <s>
. Většina metadat je vázána na atributy <doc> a <text>.
Struktura | Atribut | Popis | Hodnoty atributu |
---|---|---|---|
Základní hierarchické struktury a jejich atrituby | |||
doc | title | název dokumentu nebo periodika | např. Gejzír |
author | autor dokumentu | např. Diviš, Ivan | |
issue | vydání (u periodik) | např. č. 10/2015 | |
publisher | vydavatel | např. Odeon | |
pubplace | místo vydání | např. Praha | |
pubyear | rok vydání | např. 2009 | |
translator | překladatel | např. Syrovátka, Tomáš | |
srclang | zdrojový jazyk | seznam hodnot | |
txtype_group | skupina textových typů | seznam hodnot | |
txtype | textový typ | seznam hodnot | |
genre_group | skupina oborů/témat | seznam hodnot | |
genre | žánr/oblast | seznam hodnot | |
medium | médium dokumentu | seznam hodnot | |
periodicity | periodicita | seznam hodnot | |
audience | cílový adresát (obecný/dětský čtenář) | seznam hodnot | |
isbnissn | ISBN/ISSN | např. 978-80-207-1299-8 | |
biblio | generovaný bibliografický údaj | např. Diviš, Ivan (2009): Gejzír. Praha: Odeon. | |
syn | atribut používaný pouze u korpusů SYN; označuje, z jakého korpusu text původně pochází | např. SYN2020 | |
id | jednoznačný identifikátor dokumentu | např. resp1510 | |
text | section | generovaný typ rubriky (jen u vybraných textů z publicistiky) | seznam hodnot |
section_orig | původní název rubriky (jen u vybraných textů z publicistiky) | např. Komentáře / očkování / politická korektnost | |
id | jednoznačný identifikátor textu | např. resp1510:11 | |
p | id | jednoznačný identifikátor odstavce | např. resp1510:11:3 |
type | běžný odstavec / nadpis (jen v korpusech SYN2015 a SYN (verze 4 až 8)) | {normal, head} |
|
s | id | jednoznačný identifikátor věty | např. resp1510:11:3:1 |
Další struktury a jejich atributy (zachovávají informace o původním formátování textu) | |||
hi | rend | zvýraznění a řezy písma - tam, kde byly zachyceny ve vstupním formátu | {italic, bold, underline, expanded, subscript, superscript} a jejich kombinace |
lb | - | označení hranice verše v poezii (nepárová struktura) | - |
Další struktury (použité počínaje korpusy SYN2020 a SYN (verze 9)) | |||
head | - | označení nadpisů - tam, kde byly zachyceny ve vstupním formátu | - |
g | - | místo, kde mezi dvěma po sobě následujícími tokeny nebyla v textu mezera (nepárová struktura), např. „70<g/>. léta“ | - |
table | - | místo, kde byla v původním textu tabulka (nepárová struktura) | - |
ref | - | místo, kde byl v původním textu webový odkaz (nepárová struktura) | - |
- | místo, kde byla v původním textu e-mailová adresa (nepárová struktura) | - | |
graphic | - | místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura) | - |
geo | - | místo, kde byly v původním textu GPS souřadnice (nepárová struktura) | - |
Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy.
Dotaz | Vyhodnocení |
---|---|
[word="ale"] within <doc author="Diviš, Ivan" /> | všechny výskyty slova ale z děl Ivana Diviše |
[word="moc"] within <doc txtype_group="(NFC.*)|(NMG.*)" /> | všechny výskyty slova moc v dokumentech označených jako oborová literatura a publicistika |
Strukturní atributy korpusů z let 2005 až 2013
Většina strukturních atributů v korpusech SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN2013PUB a v korpusu SYN do verze 3 je vázána na strukturní jednotku <opus>
. Základními strukturními atributy v korpusech psané češtiny jsou:
Struktura | Atribut | Popis |
---|---|---|
opus | autor | autor/autoři opusu, příp. informace, že je autor nezjistitelný |
nazev | název opusu (hlavní titul) | |
nakladatel | organizace, která dílo vydala | |
mistovyd | místo vydání | |
rokvyd | rok vydání té verze opusu, která je zařazena do korpusu (nemusí se tedy jednat o první vydání díla) | |
isbnissn | identifikátor ISBN, příp. ISSN | |
preklad | překladatel díla (nejedná-li se o původně české dílo) | |
srclang | zdrojový jazyk (nejedná-li se o původně české dílo - v tom případě tento atribut nenabývá žádné hodnoty: srclang="" ) |
|
txtype_group | makroskupina textových typů: beletrie, odborná, publicistika | |
txtype | typ textu (blíže určený) | |
genre | žánr (text vymezený na základě pojednávaného tématu) | |
med | médium (původní způsob přenosu textu) | |
syn | atribut používaný pouze u nereferenčního korpusu SYN; označuje, z jakého referenčního korpusu text původně pochází | |
doc | id | identifikátor dokumentu v rámci opusu |
s | id | identifikátor věty |
Strukturní atributy korpusu SYN2000
V korpusu SYN2000 je nabídka strukturních atributů výrazně omezená, všechny se navíc vážou ke strukturní jednotce <doc>
:
Struktura | Atribut | Popis |
---|---|---|
doc | opus | identifikátor díla (v pozdějších korpusech řady SYN odpovídá atributu id ) |
txtype | typ textu | |
temp | rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu rokvyd ) |
Na základě jednoznačného identifikátoru doc.opus
je možné zjistit všechny dodatečné informace o textu v seznamech děl korpusu SYN2000. Při začlenění korpusu SYN2000 do korpusu SYN byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem.