===== Struktury a strukturní atributy korpusů InterCorp ===== ==== Struktury korpusů InterCorp ==== V korpusech InterCorp nacházíme tyto hierarchické strukturní jednotky opatřené jedinečnými identifikátory: * ''doc'' -- dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat) * ''text'' -- text v rámci dokumentů (od verze 11) * ''div'' -- text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu; identifikátor oddílu Bible (od verze 11) * ''p'' -- odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce * ''s'' -- věta (sentence); dále je každý odstavec dělen na věty Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty). Vedle toho jsou v korpusech InterCorp použity i další, tzv. nehierarchické struktury: * ''hi'' -- řez písma * ''lb'' -- identifikátor verše (Bible) ==== Strukturní atributy korpusů InterCorp ==== Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis [[cnk:intercorp:verze9?&#strukturni_atributy|verze 9]], [[cnk:intercorp:verze10?&#strukturni_atributy|verze 10]], [[cnk:intercorp:verze11?&#strukturni_atributy|verze 11]], [[cnk:intercorp:verze12?&#strukturni_atributy|verze 12]], [[cnk:intercorp:verze13?&#strukturni_atributy|verze 13]], [[cnk:intercorp:verze14?&#strukturni_atributy|verze 14]], [[cnk:intercorp:verze15?&#strukturni_atributy|verze 15]]). Korpus InterCorp ([[cnk:intercorp:verze15?&#strukturni_atributy|verze 15]]) obsahuje následující údaje: ^Struktura^Atribut^Popis^Možné hodnoty^ |doc|doc.id|identifikátor dokumentu| příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP_ročník / _SUBTITLES / _SYNDICATE_ročník / _OT / _NT | |text|text.id|identifikace textu|příjmení_autora-zkrácený_název_textu:0 / _ACQUIS:číslo / _EUROPARL:číslo / _PRESSEUROP:číslo / _SUBTITLES:číslo / _SYNDICATE_ročník:název / _OT:kniha / _NT:kniha | | |text.author|autor textu|příjmení, jméno| | |text.title|úplný název textu|text| | |text.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / rn / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh| | |text.version|verze textu|číslo| | |text.group|jádro/kolekce| Core / Acquis / Europarl / PressEurop / Subtitles / Syndicate / Bible | | |text.publisher|vydavatel|text| | |text.pubplace|místo vydání|text| | |text.pubDateYear|rok vydání|číslo| | |text.pubDateMonth|měsíc vydání|číslo| | |text.origyear|rok vytvoření originálu|číslo| | |text.isbn|ISBN|číslo| | |text.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles / religious | | |text.comment|poznámka|text| | |text.original|originální verze?|Yes / No| | |text.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / pt / rm / rn / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh| | |text.translator|překladatel|příjmení, jméno| | |text.transsex|pohlaví překladatele|F / M| | |text.authsex|pohlaví autora|F / M| | |text.transcomment|poznámka k překladu|text| | |text.collectiontitle|název kolekce|text| | |text.volume|číslo svazku|číslo| | |text.pages|počet stran|číslo| | |text.lang_var|varieta jazyka|de-AT / de-CH / de-DE / en-AU / en-CA / en-GB / en-UM / en-US / es-ES / es-MX / es-PE / fr-BE / fr-FR / it-CH / it-IT / nl-BE / nl-NL / nn-NO / nb-NO / pt-BR / pt-PT / sr-RS | | |text.wordcount|počet slov|číslo| |div|div.id|identifikátor oddílu (Bible)| _NT / _OT:kapitola | | |div.type|typ oddílu (kapitola)|chapter| |p|p.id|identifikátor odstavce|doc:text:div:par| |s|s.id|identifikátor věty|doc:text:div:par:sent| |hi|hi.rend|řez písma|italic / bold / bold italic| |lb|lb.id|identifikátor verše (Bible)|book:chapter:verse|