Každý korpus je strukturován do nějakých (většinou) hierarchicky uspořádaných jednotek. Takové uspořádání (zachycené pomocí metadat) se může u každého korpusu lišit. Důvodem je fakt, že každému typu dat vyhovuje jiná vnitřní strukturace. Každý korpus se tak člení na různé strukturní jednotky a ke každé jednotce (v závislosti na anotaci) náleží jeden nebo více strukturních atributů.
Rozdíly mezi strukturními jednotkami korpusů psané a mluvené češtiny jsou dané rozdílnou povahou těchto dat. Zároveň se korpusy od sebe můžou lišit typem i počtem strukturních jednotek (nápadný je v tomto směru zejména rozdíl mezi SYN2000, prvním velkým korpusem ČNK, a ostatními korpusy řady SYN).
Struktury podle typu korpusu jsou představeny na zvláštních stránkách:
Z obecného pohledu je další strukturní jednotkou i pozice, tj. nejmenší jednotka, na niž je každý text v průběhu tokenizace rozčleněn. O pozicích se však jako o strukturách běžně neuvažuje. Vlastnosti pozic a jejich atributy popisuje samostatný článek o pozičních atributech.
Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. metadata), a to prostřednictvím strukturních atributů. Všechny jednotky mají standardně atribut id, který slouží pro jednoznačnou identifikaci strukturní jednotky v korpusu (nebo v rámci hierarchicky vyšší strukturní jednotky).
Např. <doc> Sport 5. 4. 2012 v korpusu SYN2015 má následující hodnotu atributu id: id="sp120405", analogicky <opus> Lidové noviny, 28. 4. 2008 v korpusu SYN2010 má id="ln080428". Dokumenty nebo opusy se dále dělí na menší strukturní jednotky (např. <text> nebo <s>), každá z nich má přitom svůj jednoznačný identifikátor.
Strukturní atributy podle typu korpusu jsou představeny na zvláštních stránkách.
Strukturní atributy korpusů psané češtiny:
Strukturní atributy korpusů mluvené češtiny:
Strukturní atributy paralelních korpusů: