Toto je starší verze dokumentu!
Obsah
Struktury a strukturní atributy korpusu InterCorp
Struktury korpusů InterCorp
V korpusech InterCorp nacházíme tyto hierarchické strukturní jednotky opatřené jedinečnými identifikátory:
doc
– dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat)text
– text v rámci dokumentů (od verze 11)div
– text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu; identifikátor oddílu Bible (od verze 11)p
– odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavces
– věta (sentence); dále je každý odstavec dělen na věty
Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty).
Vedle toho jsou v korpusech InterCorp použity i další, tzv. nehierarchické struktury:
hi
– řez písmalb
– identifikátor verše (Bible)