Strukturní jednotky a atributy

Každý korpus je strukturován do nějakých (většinou) hierarchicky uspořádaných jednotek. Takové uspořádání (zachycené pomocí metadat) se může u každého korpusu lišit. Důvodem je fakt, že každému typu dat vyhovuje jiná vnitřní strukturace. Každý korpus se tak člení na různé strukturní jednotky a ke každé jednotce (v závislosti na anotaci) náleží jeden nebo více strukturních atributů.

Strukturní jednotky

Rozdíly mezi strukturními jednotkami korpusů psané a mluvené češtiny jsou dané rozdílnou povahou těchto dat. Zároveň se korpusy od sebe můžou lišit typem i počtem strukturních jednotek (nápadný je v tomto směru zejména rozdíl mezi SYN2000, prvním velkým korpusem ČNK, a ostatními korpusy řady SYN).

Struktury podle typu korpusu jsou představeny na zvláštních stránkách:

Z obecného pohledu je další strukturní jednotkou i pozice, tj. nejmenší jednotka, na niž je každý text v průběhu tokenizace rozčleněn. O pozicích se však jako o strukturách běžně neuvažuje. Vlastnosti pozic a jejich atributy popisuje samostatný článek o pozičních atributech.

Strukturní atributy

Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. metadata), a to prostřednictvím strukturních atributů. Všechny jednotky mají standardně atribut id, který slouží pro jednoznačnou identifikaci strukturní jednotky v korpusu (nebo v rámci hierarchicky vyšší strukturní jednotky).

Např. <doc> Sport 5. 4. 2012 v korpusu SYN2015 má následující hodnotu atributu id: id="sp120405", analogicky <opus> Lidové noviny, 28. 4. 2008 v korpusu SYN2010 má id="ln080428". Dokumenty nebo opusy se dále dělí na menší strukturní jednotky (např. <text> nebo <s>), každá z nich má přitom svůj jednoznačný identifikátor.