Toto je starší verze dokumentu!

Poziční atributy

Pozičními atributy v korpusech jsou myšleny dodané informace, které se vztahují k jednomu tokenu (k jedné textové pozici). Každý text je při vstupu do korpusů zpřístupňovaných rozhraním KonText opatřen anotací. Ta část anotace, která neobsahuje informace o textu jako celku, z něhož hledaný jev pochází, ale o jevu samotném, je dostupná právě pomocí pozičních atributů. (Jinými slovy jde o rozdíl mezi informacemi metatextovými, z nichž se některé musí doplňovat ručně – např. autor textu, rok vydání apod. – a automaticky přiřazovanými informacemi vnitrotextovými, k jejichž získání se užívají různé nástroje, např. tagger nebo parser).

Základními pozičními atributy jsou:

word - slovní tvar (např. kočce, piš, při )
lemma - základní (slovníkový) tvar (např. kočka, psát, pře nebo při)
tag - značka zachycující morfologickou (příp. i jinou, obvykle gramatickou) informaci

Syntaktickou anotaci (od SYN2015) zachycují atributy:

afun, p_afun, ep_afun - u každého tokenu uvádí syntaktickou funkci
parent - relativní pozice tokenu, na němž je daný token závislý
eparent - pouze u autosémantických slov; vyjadřuje relativní pozici nejbližšího autosémantického tokenu, na němž je daný token závislý
p_tag, p_lemma - tag a lemma řídícího tokenu
ep_tag, ep_lemma - totéž jako p_tag a p_lemma, ale pouze u autosémantických slov
prep - u jmen řízených předložkou uvádí lemma předložky

Mezi méně využívané poziční atributy patří:

lc - (z angl. lowercase) slovní tvar malými písmeny (odvozen z atributu word)
lemma_lc - (z angl. lemma in lowercase) lemma malými písmeny (odvozeno z atributu lemma)
sublemma - pravopisná, hlásková či morfologická varianta lemmatu
pos - (z angl. part of speech) slovní druh (odvozen z atributu tag)
case - pád (odvozen z atributu tag)
verbtag - slovesné gramatické kategorie
proc - informace o konkrétním procesu, který je zodpovědný za disambiguaci

Následující atributy byly již v ČNK nahrazeny atributy pos a case, v novějších korpusech se tedy nevyskytují:

k - slovní druh (odvozen z atributu tag)
g - jmenný rod (odvozen z atributu tag)
c - pád (odvozen z atributu tag)

Různé korpusy mají typicky rozdílnou sadu pozičních atributů v závislosti na propracovanosti anotace a výzkumných cílech, s nimiž byl daný korpus vytvářen.