AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Struktury a strukturní atributy korpusu InterCorp

Struktury korpusů InterCorp

V korpusech InterCorp nacházíme tyto hierarchické strukturní jednotky opatřené jedinečnými identifikátory:

  • doc – dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat)
  • text – text v rámci dokumentů (od verze 11)
  • div – text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu; identifikátor oddílu Bible (od verze 11)
  • p – odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce
  • s – věta (sentence); dále je každý odstavec dělen na věty

Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty).

Vedle toho jsou v korpusech InterCorp použity i další, tzv. nehierarchické struktury:

  • hi – řez písma
  • lb – identifikátor verše (Bible)

Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis verze 9, verze 10, verze 11, verze 12, verze 13, verze 14)