Pozičními atributy v korpusech jsou myšleny dodané informace, které se vztahují k jednomu tokenu (k jedné textové pozici). Každý text je při vstupu do korpusů zpřístupňovaných rozhraním KonText opatřen anotací. Ta část anotace, která neobsahuje informace o textu jako celku, z něhož hledaný jev pochází, ale o jevu samotném, je dostupná právě pomocí pozičních atributů. (Jinými slovy jde o rozdíl mezi informacemi metatextovými, z nichž se některé musí doplňovat ručně – např. autor textu, rok vydání apod. – a automaticky přiřazovanými informacemi vnitrotextovými, k jejichž získání se užívají různé nástroje, např. tagger nebo parser).
Základními pozičními atributy jsou:
word - slovní tvar (např.
kočce, piš, při )
lemma - základní (slovníkový) tvar (např.
kočka, psát, pře nebo
při)
sublemma (od
SYN2020) - základní (slovníkový) tvar odpovídající variantě (např.
filosof,
filozof nebo
mejdlo,
mýdlo)
tag - značka zachycující
morfologickou (příp. i jinou, obvykle gramatickou) informaci
-
Z těchto základních atributů jsou pro snazší práci s korpusy odvozeny následující atributy:
sword (od
SYN2020, kde však označeno jako
sforma
) - syntaktický slovní tvar, v rámci
agregátu odpovídá jeho uspořádání (např.
se|s,
slyšela|s,
a|by,
kdy|bych), jinak je totožný s atributem
word
lc - (z angl. lowercase) slovní tvar malými písmeny (odvozen z atributu word
)
lemma_lc - (z angl. lemma in lowercase) lemma malými písmeny (odvozeno z atributu lemma
)
sublemma_lc - (z angl. sublemma in lowercase) sublemma malými písmeny (odvozeno z atributu sublemma
)
pos - (z angl.
part of speech) slovní druh (odvozen z atributu
tag, odpovídá 1. pozici tagu)
case - pád (odvozen z atributu
tag, odpovídá 5. pozici tagu)
Syntaktickou anotaci (od SYN2015) zachycují atributy:
-
parent - relativní pozice tokenu, na němž je daný token závislý
eparent - pouze u autosémantických slov; vyjadřuje relativní pozici nejbližšího autosémantického tokenu, na němž je daný token závislý
-
ep_tag, ep_lemma - totéž jako
p_tag
a
p_lemma
, ale pouze u autosémantických slov
prep - u jmen řízených předložkou uvádí lemma předložky
Frazémovou anotaci zajišťují (pouze v korpusech SYN, od verze 4) atributy:
col_lemma (collocation lemma) - lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru
col_type - (collocation type) - určuje druh víceslovné jednotky a rozlišuje její hlavní a závislá slova
Poziční atributy specifické pro některé mluvené korpusy:
fon - fonetický přepis slovního tvaru (pokud primární vrstva word
obsahuje standardizovaný přepis)
dial - nářeční přepis slovního tvaru (pokud primární vrstva word
obsahuje standardizovaný přepis)
ort - standardizovaný přepis slovního tvaru (pokud primární vrstva word
obsahuje nářeční přepis)
uid - sdružuje pozice vyslovené v rámci jedné repliky
Méně využívané nebo neaktuální poziční atributy:
-
k - slovní druh (odvozen z atributu
tag, nahrazeno atributem
pos
)
g - jmenný rod (odvozen z atributu
tag)
c - pád (odvozen z atributu
tag, nahrazeno atributem
case
)
Různé korpusy mají typicky rozdílnou sadu pozičních atributů v závislosti na propracovanosti anotace a výzkumných cílech, s nimiž byl daný korpus vytvářen.