AplikaceAplikace
Nastavení

Struktury a strukturní atributy korpusů řady SYN

Struktury korpusů psané češtiny

V psaných korpusech řady SYN nacházíme počínaje korpusem SYN2015 tyto hierarchické strukturní jednotky opatřené jedinečnými identifikátory:

  • doc - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin)
  • text - text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (např. soubor povídek, článek v novinách apod.)
  • p - odstavec (paragraph)
  • s - věta (sentence)

V dřívějších korpusech byly struktury odlišné. V korpusech SYN2005 až SYN2013PUB se využívaly jednotky opus (text nebo ucelený soubor textů, např. povídková kniha nebo jedno číslo novin) a doc (dokument v rámci opusů, má-li nějakou vnitřní strukturaci, např. soubor povídek). V korpusu SYN2020 byly použity pouze struktury doc a s. Srovnání nabízí následující tabulka:

Strukturní jednotky v korpusech řady SYN počínaje SYN2015 Strukturní jednotky v korpusech SYN2005 až SYN2013PUB Strukturní jednotky v SYN2000
<doc> <opus> <doc>
<text> <doc>
<p>
<s> <s> <s>

Uvedené strukturní jednotky jsou vždy uspořádány hierarchicky, jejich hranice se tedy neprotínají (např. dokument nemůže být ukončen uprostřed věty).

Strukturní jednotky se obvykle zapisují pomocí špičatých závorek, kde <doc> značí začátek jednotky, </doc> její konec a <doc /> její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků.

Dotaz Vyhodnocení
[word="život"][word="\."]</doc> výskyty sekvence slov život a „.“ na konci (libovolného) dokumentu
<doc> [lemma="kdepak"] výskyty lemmatu kdepak na začátku (libovolného) dokumentu
[word="jak"][]*[word="tak"] within <s /> výskyty slov jak a tak v proměnlivé vzdálenosti v rámci jakékoli jedné věty1)

Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. metadata), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže. Společně s tím uvádíme i další, tzv. nehierarchické struktury, které jsou v některých korpusech použity.

Strukturní atributy korpusu SYN2015 a novějších

Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument <doc>. Ten se dále dělí na jednotlivé texty (každý dokument obsahuje alespoň jeden <text>) a dále na odstavce <p> a věty <s>. Většina metadat je vázána na atributy <doc> a <text>.

Struktura Atribut Popis Hodnoty atributu
Základní hierarchické struktury a jejich atrituby
doc title název dokumentu nebo periodika např. Gejzír
author autor dokumentu např. Diviš, Ivan
issue vydání (u periodik) např. č. 10/2015
publisher vydavatel např. Odeon
pubplace místo vydání např. Praha
pubyear rok vydání např. 2009
translator překladatel např. Syrovátka, Tomáš
srclang zdrojový jazyk seznam hodnot
txtype_group skupina textových typů seznam hodnot
txtype textový typ seznam hodnot
genre_group skupina oborů/témat seznam hodnot
genre žánr/oblast seznam hodnot
medium médium dokumentu seznam hodnot
periodicity periodicita seznam hodnot
audience cílový adresát (obecný/dětský čtenář) seznam hodnot
isbnissn ISBN/ISSN např. 978-80-207-1299-8
biblio generovaný bibliografický údaj např. Diviš, Ivan (2009): Gejzír. Praha: Odeon.
syn atribut používaný pouze u korpusů SYN; označuje, z jakého korpusu text původně pochází např. SYN2020
id jednoznačný identifikátor dokumentu např. resp1510
text section generovaný typ rubriky (jen u vybraných textů z publicistiky) seznam hodnot
section_orig původní název rubriky (jen u vybraných textů z publicistiky) např. Komentáře / očkování / politická korektnost
id jednoznačný identifikátor textu např. resp1510:11
p id jednoznačný identifikátor odstavce např. resp1510:11:3
type běžný odstavec / nadpis (jen v korpusech SYN2015 a SYN (verze 4 až 8)) {normal, head}
s id jednoznačný identifikátor věty např. resp1510:11:3:1
Další struktury a jejich atributy (zachovávají informace o původním formátování textu)
hi rend zvýraznění a řezy písma - tam, kde byly zachyceny ve vstupním formátu {italic, bold, underline, expanded, subscript, superscript} a jejich kombinace
lb - označení hranice verše v poezii (nepárová struktura) -
Další struktury (použité počínaje korpusy SYN2020 a SYN (verze 9))
head - označení nadpisů - tam, kde byly zachyceny ve vstupním formátu -
g - místo, kde mezi dvěma po sobě následujícími tokeny nebyla v textu mezera (nepárová struktura), např. „70<g/>. léta“ -
table - místo, kde byla v původním textu tabulka (nepárová struktura) -
ref - místo, kde byl v původním textu webový odkaz (nepárová struktura) -
email - místo, kde byla v původním textu e-mailová adresa (nepárová struktura) -
graphic - místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura) -
geo - místo, kde byly v původním textu GPS souřadnice (nepárová struktura) -

Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy.

Dotaz Vyhodnocení
[word="ale"] within <doc author="Diviš, Ivan" /> všechny výskyty slova ale z děl Ivana Diviše
[word="moc"] within <doc txtype_group="(NFC.*)|(NMG.*)" /> všechny výskyty slova moc v dokumentech označených jako oborová literatura a publicistika

Strukturní atributy korpusů z let 2005 až 2013

Většina strukturních atributů v korpusech SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN2013PUB a v korpusu SYN do verze 3 je vázána na strukturní jednotku <opus>. Základními strukturními atributy v korpusech psané češtiny jsou:

Struktura Atribut Popis
opus autor autor/autoři opusu, příp. informace, že je autor nezjistitelný
nazev název opusu (hlavní titul)
nakladatel organizace, která dílo vydala
mistovyd místo vydání
rokvyd rok vydání té verze opusu, která je zařazena do korpusu (nemusí se tedy jednat o první vydání díla)
isbnissn identifikátor ISBN, příp. ISSN
preklad překladatel díla (nejedná-li se o původně české dílo)
srclang zdrojový jazyk (nejedná-li se o původně české dílo - v tom případě tento atribut nenabývá žádné hodnoty: srclang="")
txtype_group makroskupina textových typů: beletrie, odborná, publicistika
txtype typ textu (blíže určený)
genre žánr (text vymezený na základě pojednávaného tématu)
med médium (původní způsob přenosu textu)
syn atribut používaný pouze u nereferenčního korpusu SYN; označuje, z jakého referenčního korpusu text původně pochází
doc id identifikátor dokumentu v rámci opusu
s id identifikátor věty

Strukturní atributy korpusu SYN2000

V korpusu SYN2000 je nabídka strukturních atributů výrazně omezená, všechny se navíc vážou ke strukturní jednotce <doc>:

Struktura Atribut Popis
doc opus identifikátor díla (v pozdějších korpusech řady SYN odpovídá atributu id)
txtype typ textu
temp rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu rokvyd)

Na základě jednoznačného identifikátoru doc.opus je možné zjistit všechny dodatečné informace o textu v seznamech děl korpusu SYN2000. Při začlenění korpusu SYN2000 do korpusu SYN byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem.

1)
Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.