===== Struktury a strukturní atributy korpusů řady SYN ===== ==== Struktury korpusů psané češtiny ==== V **[[pojmy:psany|psaných]] korpusech** řady [[cnk:syn|SYN]] nacházíme počínaje korpusem SYN2015 tyto hierarchické strukturní jednotky opatřené jedinečnými identifikátory: * **doc** - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) * **text** - text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (např. soubor povídek, článek v novinách apod.) * **p** - odstavec (//paragraph//) * **s** - věta (//sentence//) V dřívějších korpusech byly struktury odlišné. V korpusech SYN2005 až SYN2013PUB se využívaly jednotky **opus** (text nebo ucelený soubor textů, např. povídková kniha nebo jedno číslo novin) a **doc** (dokument v rámci opusů, má-li nějakou vnitřní strukturaci, např. soubor povídek). V korpusu SYN2020 byly použity pouze struktury **doc** a **s**. Srovnání nabízí následující tabulka: ^ Strukturní jednotky v korpusech řady SYN počínaje SYN2015 ^ Strukturní jednotky v korpusech SYN2005 až SYN2013PUB ^ Strukturní jednotky v SYN2000 ^ | '''' | '''' | '''' | | '''' | '''' | | | ''

'' | | | | '''' | '''' | '''' | Uvedené strukturní jednotky jsou vždy uspořádány hierarchicky, jejich hranice se tedy neprotínají (např. dokument nemůže být ukončen uprostřed věty). Strukturní jednotky se obvykle zapisují pomocí špičatých závorek, kde '''' značí začátek jednotky, '''' její konec a '''' její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků. ^ Dotaz ^ Vyhodnocení ^ | ''[word="život"][word="\."]'' | výskyty sekvence slov //život// a "." na konci (libovolného) dokumentu | | '' [lemma="kdepak"]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | | ''[word="jak"][]*[word="tak"] within '' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) | Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy:metadata|metadata]]), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže. Společně s tím uvádíme i další, tzv. nehierarchické struktury, které jsou v některých korpusech použity. ==== Strukturní atributy korpusu SYN2015 a novějších ==== Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument ''''. Ten se dále dělí na jednotlivé texty (každý dokument obsahuje alespoň jeden '''') a dále na odstavce ''

'' a věty ''''. Většina [[pojmy:metadata|metadat]] je vázána na atributy a . ^ Struktura ^ Atribut ^ Popis ^ Hodnoty atributu ^ | //Základní hierarchické struktury a jejich atrituby//|||| | doc | title | název dokumentu nebo periodika | např. //Gejzír// | | ::: | author | autor dokumentu | např. //Diviš, Ivan// | | ::: | issue | vydání (u periodik) | např. //č. 10/2015// | | ::: | publisher | vydavatel | např. //Odeon// | | ::: | pubplace | místo vydání | např. //Praha// | | ::: | pubyear | rok vydání | např. //2009// | | ::: | translator | překladatel | např. //Syrovátka, Tomáš// | | ::: | [[seznamy:srclang|srclang]] | zdrojový jazyk | [[seznamy:srclang#nove_od_roku_2015|seznam hodnot]] | | ::: | [[seznamy:txtype_group|txtype_group]] | skupina textových typů | [[seznamy:txtype_group#nove_od_roku_2015|seznam hodnot]] | | ::: | [[seznamy:txtype|txtype]] | textový typ | [[seznamy:txtype#nove_od_roku_2015|seznam hodnot]] | | ::: | [[seznamy:genre_group|genre_group]] | skupina oborů/témat | [[seznamy:genre_group|seznam hodnot]] | | ::: | [[seznamy:genre|genre]] | žánr/oblast | [[seznamy:genre#nove_od_roku_2015|seznam hodnot]] | | ::: | [[seznamy:med|medium]] | médium dokumentu | [[seznamy:med#nove_od_roku_2015|seznam hodnot]] | | ::: | [[seznamy:periodicity|periodicity]] | periodicita | [[seznamy:periodicity|seznam hodnot]] | | ::: | [[seznamy:audience|audience]] | cílový adresát (obecný/dětský čtenář) | [[seznamy:audience|seznam hodnot]] | | ::: | isbnissn | ISBN/ISSN | např. //978-80-207-1299-8// | | ::: | biblio | generovaný bibliografický údaj | např. //Diviš, Ivan (2009): Gejzír. Praha: Odeon.// | | ::: | syn | atribut používaný pouze u korpusů [[cnk:syn|SYN]]; označuje, z jakého korpusu text původně pochází | např. //SYN2020// | | ::: | id | jednoznačný identifikátor dokumentu | např. //resp1510// | | text | [[seznamy:section|section]] | generovaný typ rubriky (jen u vybraných textů z publicistiky) | [[seznamy:section|seznam hodnot]] | | ::: | section_orig | původní název rubriky (jen u vybraných textů z publicistiky) | např. //Komentáře / očkování / politická korektnost// | | ::: | id | jednoznačný identifikátor textu | např. //resp1510:11// | | p | id | jednoznačný identifikátor odstavce | např. //resp1510:11:3// | | ::: | type | běžný odstavec / nadpis (jen v korpusech SYN2015 a SYN (verze 4 až 8)) | ''{normal, head}'' | | s | id | jednoznačný identifikátor věty | např. //resp1510:11:3:1// | | //Další struktury a jejich atributy (zachovávají informace o původním formátování textu)// |||| | hi | rend | zvýraznění a řezy písma - tam, kde byly zachyceny ve vstupním formátu | ''{italic, bold, underline, expanded, subscript, superscript}'' a jejich kombinace | | lb | - | označení hranice verše v poezii (nepárová struktura) | - | | //Další struktury (použité počínaje korpusy SYN2020 a SYN (verze 9))// |||| | head | - | označení nadpisů - tam, kde byly zachyceny ve vstupním formátu | - | | g | - | místo, kde mezi dvěma po sobě následujícími tokeny nebyla v textu mezera (nepárová struktura), např. „70. léta“ | - | | table | - | místo, kde byla v původním textu tabulka (nepárová struktura) | - | | ref | - | místo, kde byl v původním textu webový odkaz (nepárová struktura) | - | | email | - | místo, kde byla v původním textu e-mailová adresa (nepárová struktura) | - | | graphic | - | místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura) | - | | geo | - | místo, kde byly v původním textu GPS souřadnice (nepárová struktura) | - | Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy. ^ Dotaz ^ Vyhodnocení ^ | ''[word="ale"] within "Diviš, Ivan" />'' | všechny výskyty slova //ale// z děl Ivana Diviše | | ''[word="moc"] within "(NFC.*)|(NMG.*)" />'' | všechny výskyty slova //moc// v dokumentech označených jako oborová literatura a publicistika | ==== Strukturní atributy korpusů z let 2005 až 2013 ==== Většina strukturních atributů v korpusech [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2006pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a v korpusu [[cnk:syn|SYN]] do verze 3 je vázána na strukturní jednotku ''''. Základními strukturními atributy v korpusech psané češtiny jsou: ^ Struktura ^ Atribut ^ Popis ^ | opus | autor | autor/autoři opusu, příp. informace, že je autor nezjistitelný | | ::: | nazev | název opusu (hlavní titul) | | ::: | nakladatel | organizace, která dílo vydala | | ::: | mistovyd | místo vydání | | ::: | rokvyd | rok vydání té verze opusu, která je zařazena do korpusu (nemusí se tedy jednat o první vydání díla) | | ::: | isbnissn | identifikátor ISBN, příp. ISSN | | ::: | preklad | překladatel díla (nejedná-li se o původně české dílo) | | ::: | [[pojmy:srclang|srclang]] | zdrojový jazyk (nejedná-li se o původně české dílo - v tom případě tento atribut nenabývá žádné hodnoty: ''srclang=""'') | | ::: | [[pojmy:txtype_group|txtype_group]] | makroskupina textových typů: beletrie, odborná, publicistika | | ::: | [[pojmy:txtype|txtype]] | typ textu (blíže určený) | | ::: | [[pojmy:genre|genre]] | žánr (text vymezený na základě pojednávaného tématu) | | ::: | [[pojmy:medium|med]] | médium (původní způsob přenosu textu) | | ::: | syn | atribut používaný pouze u nereferenčního korpusu [[cnk:syn|SYN]]; označuje, z jakého referenčního korpusu text původně pochází | | doc | id | identifikátor dokumentu v rámci opusu| | s | id | identifikátor věty | ==== Strukturní atributy korpusu SYN2000 ==== V korpusu [[cnk:syn2000|SYN2000]] je nabídka strukturních atributů výrazně omezená, všechny se navíc vážou ke strukturní jednotce '''': ^ Struktura ^ Atribut ^ Popis ^ | doc | opus | identifikátor díla (v pozdějších korpusech řady SYN odpovídá atributu ''id'') | | ::: | txtype | typ textu | | ::: | temp | rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu ''rokvyd'') | Na základě jednoznačného identifikátoru ''doc.opus'' je možné zjistit všechny dodatečné informace o textu v [[seznamy:zdrojove_texty_korpusu|seznamech]] děl korpusu SYN2000. Při začlenění korpusu SYN2000 do korpusu [[cnk:syn|SYN]] byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem.