Obsah
Struktury a strukturní atributy korpusů InterCorp
Struktury korpusů InterCorp
V korpusech InterCorp nacházíme tyto hierarchické strukturní jednotky opatřené jedinečnými identifikátory:
doc
– dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat)text
– text v rámci dokumentů (od verze 11)div
– text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu; identifikátor oddílu Bible (od verze 11)p
– odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavces
– věta (sentence); dále je každý odstavec dělen na věty
Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty).
Vedle toho jsou v korpusech InterCorp použity i další, tzv. nehierarchické struktury:
hi
– řez písmalb
– identifikátor verše (Bible)
Strukturní atributy korpusů InterCorp
Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis verze 9, verze 10, verze 11, verze 12, verze 13, verze 14, verze 15).
Korpus InterCorp (verze 15) obsahuje následující údaje:
Struktura | Atribut | Popis | Možné hodnoty |
---|---|---|---|
doc | doc.id | identifikátor dokumentu | příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP_ročník / _SUBTITLES / _SYNDICATE_ročník / _OT / _NT |
text | text.id | identifikace textu | příjmení_autora-zkrácený_název_textu:0 / _ACQUIS:číslo / _EUROPARL:číslo / _PRESSEUROP:číslo / _SUBTITLES:číslo / _SYNDICATE_ročník:název / _OT:kniha / _NT:kniha |
text.author | autor textu | příjmení, jméno | |
text.title | úplný název textu | text | |
text.lang | jazyk textu | ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / rn / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh | |
text.version | verze textu | číslo | |
text.group | jádro/kolekce | Core / Acquis / Europarl / PressEurop / Subtitles / Syndicate / Bible | |
text.publisher | vydavatel | text | |
text.pubplace | místo vydání | text | |
text.pubDateYear | rok vydání | číslo | |
text.pubDateMonth | měsíc vydání | číslo | |
text.origyear | rok vytvoření originálu | číslo | |
text.isbn | ISBN | číslo | |
text.txtype | typ textu | discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles / religious | |
text.comment | poznámka | text | |
text.original | originální verze? | Yes / No | |
text.srclang | jazyk originálu | ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / pt / rm / rn / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh | |
text.translator | překladatel | příjmení, jméno | |
text.transsex | pohlaví překladatele | F / M | |
text.authsex | pohlaví autora | F / M | |
text.transcomment | poznámka k překladu | text | |
text.collectiontitle | název kolekce | text | |
text.volume | číslo svazku | číslo | |
text.pages | počet stran | číslo | |
text.lang_var | varieta jazyka | de-AT / de-CH / de-DE / en-AU / en-CA / en-GB / en-UM / en-US / es-ES / es-MX / es-PE / fr-BE / fr-FR / it-CH / it-IT / nl-BE / nl-NL / nn-NO / nb-NO / pt-BR / pt-PT / sr-RS | |
text.wordcount | počet slov | číslo | |
div | div.id | identifikátor oddílu (Bible) | _NT / _OT:kapitola |
div.type | typ oddílu (kapitola) | chapter | |
p | p.id | identifikátor odstavce | doc:text:div:par |
s | s.id | identifikátor věty | doc:text:div:par:sent |
hi | hi.rend | řez písma | italic / bold / bold italic |
lb | lb.id | identifikátor verše (Bible) | book:chapter:verse |