Toto je starší verze dokumentu!
Struktury a strukturní atributy korpusu InterCorp
Struktury korpusů InterCorp
V korpusech InterCorp nacházíme tyto hierarchické strukturní jednotky opatřené jedinečnými identifikátory:
doc– dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat)text– text v rámci dokumentů (od verze 11)div– text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu; identifikátor oddílu Bible (od verze 11)p– odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavces– věta (sentence); dále je každý odstavec dělen na věty
Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty).
Vedle toho jsou v korpusech InterCorp použity i další, tzv. nehierarchické struktury:
hi– řez písmalb– identifikátor verše (Bible)
Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis verze 9, verze 10, verze 11, verze 12, verze 13, verze 14)