V korpusech InterCorp nacházíme tyto hierarchické strukturní jednotky opatřené jedinečnými identifikátory:
doc – dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat)text – text v rámci dokumentů (od verze 11)div – text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu; identifikátor oddílu Bible (od verze 11)p – odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavces – věta (sentence); dále je každý odstavec dělen na větyVždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty).
Vedle toho jsou v korpusech InterCorp použity i další, tzv. nehierarchické struktury:
hi – řez písmalb – identifikátor verše (Bible)Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis verze 9, verze 10, verze 11, verze 12, verze 13, verze 14, verze 15).
Korpus InterCorp (verze 15) obsahuje následující údaje:
| Struktura | Atribut | Popis | Možné hodnoty |
|---|---|---|---|
| doc | doc.id | identifikátor dokumentu | příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP_ročník / _SUBTITLES / _SYNDICATE_ročník / _OT / _NT |
| text | text.id | identifikace textu | příjmení_autora-zkrácený_název_textu:0 / _ACQUIS:číslo / _EUROPARL:číslo / _PRESSEUROP:číslo / _SUBTITLES:číslo / _SYNDICATE_ročník:název / _OT:kniha / _NT:kniha |
| text.author | autor textu | příjmení, jméno | |
| text.title | úplný název textu | text | |
| text.lang | jazyk textu | ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / rn / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh | |
| text.version | verze textu | číslo | |
| text.group | jádro/kolekce | Core / Acquis / Europarl / PressEurop / Subtitles / Syndicate / Bible | |
| text.publisher | vydavatel | text | |
| text.pubplace | místo vydání | text | |
| text.pubDateYear | rok vydání | číslo | |
| text.pubDateMonth | měsíc vydání | číslo | |
| text.origyear | rok vytvoření originálu | číslo | |
| text.isbn | ISBN | číslo | |
| text.txtype | typ textu | discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles / religious | |
| text.comment | poznámka | text | |
| text.original | originální verze? | Yes / No | |
| text.srclang | jazyk originálu | ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / pt / rm / rn / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh | |
| text.translator | překladatel | příjmení, jméno | |
| text.transsex | pohlaví překladatele | F / M | |
| text.authsex | pohlaví autora | F / M | |
| text.transcomment | poznámka k překladu | text | |
| text.collectiontitle | název kolekce | text | |
| text.volume | číslo svazku | číslo | |
| text.pages | počet stran | číslo | |
| text.lang_var | varieta jazyka | de-AT / de-CH / de-DE / en-AU / en-CA / en-GB / en-UM / en-US / es-ES / es-MX / es-PE / fr-BE / fr-FR / it-CH / it-IT / nl-BE / nl-NL / nn-NO / nb-NO / pt-BR / pt-PT / sr-RS | |
| text.wordcount | počet slov | číslo | |
| div | div.id | identifikátor oddílu (Bible) | _NT / _OT:kapitola |
| div.type | typ oddílu (kapitola) | chapter | |
| p | p.id | identifikátor odstavce | doc:text:div:par |
| s | s.id | identifikátor věty | doc:text:div:par:sent |
| hi | hi.rend | řez písma | italic / bold / bold italic |
| lb | lb.id | identifikátor verše (Bible) | book:chapter:verse |