Každý korpus je strukturován do nějakých (většinou) hierarchicky uspořádaných jednotek. Takové uspořádání (zachycené pomocí metadat) se může u každého korpusu lišit. Důvodem je fakt, že každému typu dat vyhovuje jiná vnitřní strukturace. Každý korpus se tak člení na různé strukturní jednotky a ke každé jednotce (v závislosti na anotaci) náleží jeden nebo více strukturních atributů.
Rozdíly mezi strukturními jednotkami korpusů psané a mluvené češtiny jsou dané rozdílnou povahou těchto dat. Zároveň se korpusy od sebe můžou lišit typem i počtem strukturních jednotek (nápadný je v tomto směru zejména rozdíl mezi SYN2000, prvním velkým korpusem ČNK, a ostatními korpusy řady SYN).
Struktury podle typu korpusu jsou představeny na zvláštních stránkách:
Z obecného pohledu je další strukturní jednotkou i pozice, tj. nejmenší jednotka, na niž je každý text v průběhu tokenizace rozčleněn. O pozicích se však jako o strukturách běžně neuvažuje. Vlastnosti pozic a jejich atributy popisuje samostatný článek o pozičních atributech.
Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. metadata), a to prostřednictvím strukturních atributů. Všechny jednotky mají standardně atribut id
, který slouží pro jednoznačnou identifikaci strukturní jednotky v korpusu (nebo v rámci hierarchicky vyšší strukturní jednotky).
Např. <doc>
Sport 5. 4. 2012 v korpusu SYN2015 má následující hodnotu atributu id
: id="sp120405", analogicky <opus>
Lidové noviny, 28. 4. 2008 v korpusu SYN2010 má id="ln080428"
. Dokumenty nebo opusy se dále dělí na menší strukturní jednotky (např. <text>
nebo <s>
), každá z nich má přitom svůj jednoznačný identifikátor.
Strukturní atributy podle typu korpusu jsou představeny na zvláštních stránkách.
Strukturní atributy korpusů psané češtiny:
Strukturní atributy korpusů mluvené češtiny:
Strukturní atributy paralelních korpusů: