Toto je starší verze dokumentu!
Obsah
Struktury a strukturní atributy u korpusů řady SYN
Struktury korpusů psané češtiny
V psaných korpusech řady SYN nacházíme počínaje korpusem SYN2015 tyto hierarchické strukturní jednotky opatřené jedinečnými identifikátory:
- doc - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin)
- text - text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek, článek v novinách apod.)
- p - odstavec (paragraph)
- s - věta (sentence)
V dřívějších korpusech byly struktury odlišné. V korpusech SYN2005 až SYN2013PUB se využívaly jednotky opus (text nebo ucelený soubor textů (povídková kniha, jedno číslo novin)) a doc (dokument v rámci opusů, má-li nějakou vnitřní strukturaci (např. soubor povídek)). V korpusu SYN2020 byly použity pouze struktury doc a s. Srovnání nabízí následující tabulka:
| Strukturní jednotky v korpusech řady SYN počínaje SYN2015 | Strukturní jednotky v korpusech SYN2005 až SYN2013PUB | Strukturní jednotky v SYN2000 |
|---|---|---|
<doc> | <opus> | <doc> |
<text> | <doc> | |
<p> | ||
<s> | <s> | <s> |
Uvedené strukturní jednotky jsou vždy uspořádány hierarchicky, jejich hranice se tedy neprotínají (např. dokument nemůže být ukončen uprostřed věty).
Strukturní jednotky se obvykle zapisují pomocí špičatých závorek, kde <doc> značí začátek jednotky, </doc> její konec a <doc /> její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků.
| Dotaz | Vyhodnocení |
|---|---|
[word="život"][word="\."]</doc> | výskyty sekvence slov život a „.“ na konci (libovolného) dokumentu |
<doc> [lemma="kdepak"] | výskyty lemmatu kdepak na začátku (libovolného) dokumentu |
[word="jak"][]*[word="tak"] within <s /> | výskyty slov jak a tak v proměnlivé vzdálenosti v rámci jakékoli jedné věty1) |
Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. metadata), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže.
Strukturní atributy korpusu SYN2015 a novějších
Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument <doc>. Ten se dále dělí na jednotlivé texty (každý dokument obsahuje alespoň jeden <text>) a dále na odstavce <p> a věty <s>. Většina metadat je vázána na atributy <doc> a <text>.
| Struktura | Atribut | Popis | Hodnoty atributu |
|---|---|---|---|
| Základní hierarchické struktury a jejich atrituby | |||
| doc | title | název dokumentu nebo periodika | např. Gejzír |
| author | autor dokumentu | např. Diviš, Ivan | |
| issue | vydání (u periodik) | např. č. 10/2015 | |
| publisher | vydavatel | např. Odeon | |
| pubplace | místo vydání | např. Praha | |
| pubyear | rok vydání | např. 2009 | |
| translator | překladatel | např. Syrovátka, Tomáš | |
| srclang | zdrojový jazyk | seznam hodnot | |
| txtype_group | skupina textových typů | seznam hodnot | |
| txtype | textový typ | seznam hodnot | |
| genre_group | skupina oborů/témat | seznam hodnot | |
| genre | žánr/oblast | seznam hodnot | |
| medium | médium dokumentu | seznam hodnot | |
| periodicity | periodicita | seznam hodnot | |
| audience | cílový adresát (obecný/dětský čtenář) | seznam hodnot | |
| isbnissn | ISBN/ISSN | např. 978-80-207-1299-8 | |
| biblio | generovaný bibliografický údaj | např. Diviš, Ivan (2009): Gejzír. Praha: Odeon. | |
| syn | atribut používaný pouze u korpusů SYN; označuje, z jakého korpusu text původně pochází | např. SYN2020 | |
| id | jednoznačný identifikátor dokumentu | např. resp1510 | |
| text | section | generovaný typ rubriky (jen u vybraných textů z publicistiky) | seznam hodnot |
| section_orig | původní název rubriky (jen u vybraných textů z publicistiky) | např. Komentáře / očkování / politická korektnost | |
| id | jednoznačný identifikátor textu | např. resp1510:11 | |
| p | id | jednoznačný identifikátor odstavce | např. resp1510:11:3 |
| type | běžný odstavec / nadpis (jen v korpusech SYN2015 a SYN (verze 4 až 8)) | {normal, head} |
|
| s | id | jednoznačný identifikátor věty | např. resp1510:11:3:1 |
| Další struktury a jejich atributy (zachovávají informace o původním formátování textu) | |||
| hi | rend | zvýraznění a řezy písma - tam, kde byly zachyceny ve vstupním formátu | {italic, bold, underline, expanded, subscript, superscript} a jejich kombinace |
| lb | - | označení hranice verše v poezii (nepárová struktura) | - |
| Další struktury (použité počínaje korpusy SYN2020 a SYN (verze 9)) | |||
| head | - | označení nadpisů - tam, kde byly zachyceny ve vstupním formátu | - |
| g | - | místo, kde mezi dvěma po sobě následujícími tokeny nebyla v textu mezera (nepárová struktura), např. „70<g/>. léta“ | - |
| table | - | místo, kde byla v původním textu tabulka (nepárová struktura) | - |
| ref | - | místo, kde byl v původním textu webový odkaz (nepárová struktura) | - |
| - | místo, kde byla v původním textu e-mailová adresa (nepárová struktura) | - | |
| graphic | - | místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura) | - |
| geo | - | místo, kde byly v původním textu GPS souřadnice (nepárová struktura) | - |
Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy.
| Dotaz | Vyhodnocení |
|---|---|
[word="ale"] within <doc author="Diviš, Ivan" /> | všechny výskyty slova ale z děl Ivana Diviše |
[word="moc"] within <doc txtype_group="(NFC.*)|(NMG.*)" /> | všechny výskyty slova moc v dokumentech označených jako oborová literatura a publicistika |
Strukturní atributy korpusů z let 2005 až 2013
Většina strukturních atributů v korpusech SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN2013PUB a v korpusu SYN do verze 3 je vázána na strukturní jednotku <opus>. Základními strukturními atributy v korpusech psané češtiny jsou:
| Struktura | Atribut | Popis |
|---|---|---|
| opus | autor | autor/autoři opusu, příp. informace, že je autor nezjistitelný |
| nazev | název opusu (hlavní titul) | |
| nakladatel | organizace, která dílo vydala | |
| mistovyd | místo vydání | |
| rokvyd | rok vydání té verze opusu, která je zařazena do korpusu (nemusí se tedy jednat o první vydání díla) | |
| isbnissn | identifikátor ISBN, příp. ISSN | |
| preklad | překladatel díla (nejedná-li se o původně české dílo) | |
| srclang | zdrojový jazyk (nejedná-li se o původně české dílo - v tom případě tento atribut nenabývá žádné hodnoty: srclang="") |
|
| txtype_group | makroskupina textových typů: beletrie, odborná, publicistika | |
| txtype | typ textu (blíže určený) | |
| genre | žánr (text vymezený na základě pojednávaného tématu) | |
| med | médium (původní způsob přenosu textu) | |
| syn | atribut používaný pouze u nereferenčního korpusu SYN; označuje, z jakého referenčního korpusu text původně pochází | |
| doc | id | identifikátor dokumentu v rámci opusu |
| s | id | identifikátor věty |
Strukturní atributy korpusu SYN2000
V korpusu SYN2000 je nabídka strukturních atributů výrazně omezená, všechny se navíc vážou ke strukturní jednotce <doc>:
| Struktura | Atribut | Popis |
|---|---|---|
| doc | opus | identifikátor díla (v pozdějších korpusech řady SYN odpovídá atributu id) |
| txtype | typ textu | |
| temp | rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu rokvyd) |
Na základě jednoznačného identifikátoru doc.opus je možné zjistit všechny dodatečné informace o textu v seznamech děl korpusu SYN2000. Při začlenění korpusu SYN2000 do korpusu SYN byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem.