Poziční atributy

Pozičními atributy v korpusech jsou myšleny dodané informace, které se vztahují k jednomu tokenu (k jedné textové pozici). Každý text je při vstupu do korpusů zpřístupňovaných rozhraním KonText opatřen anotací. Ta část anotace, která neobsahuje informace o textu jako celku, z něhož hledaný jev pochází, ale o jevu samotném, je dostupná právě pomocí pozičních atributů. (Jinými slovy jde o rozdíl mezi informacemi metatextovými, z nichž se některé musí doplňovat ručně – např. autor textu, rok vydání apod. – a automaticky přiřazovanými informacemi vnitrotextovými, k jejichž získání se užívají různé nástroje, např. tagger nebo parser).

Základními pozičními atributy jsou:

word - slovní tvar (např. kočce, piš, při )
lemma - základní (slovníkový) tvar (např. kočka, psát, pře nebo při)
sublemma (od SYN2020) - základní (slovníkový) tvar odpovídající variantě (např. filosof, filozof nebo mejdlo, mýdlo)
tag - značka zachycující morfologickou (příp. i jinou, obvykle gramatickou) informaci
verbtag (od SYN2020) - značka gramatických kategorií slovesa

Z těchto základních atributů jsou pro snazší práci s korpusy odvozeny následující atributy:

sword (od SYN2020, kde však označeno jako sforma) - syntaktický slovní tvar, v rámci agregátu odpovídá jeho uspořádání (např. se|s, slyšela|s, a|by, kdy|bych), jinak je totožný s atributem word
lc - (z angl. lowercase) slovní tvar malými písmeny (odvozen z atributu word)
lemma_lc - (z angl. lemma in lowercase) lemma malými písmeny (odvozeno z atributu lemma)
sublemma_lc - (z angl. sublemma in lowercase) sublemma malými písmeny (odvozeno z atributu sublemma)
pos - (z angl. part of speech) slovní druh (odvozen z atributu tag, odpovídá 1. pozici tagu)
case - pád (odvozen z atributu tag, odpovídá 5. pozici tagu)

Syntaktickou anotaci (v korpusech SYN2025, SYN2020 a SYN2015) zachycují atributy:

afun, p_afun, ep_afun - u každého tokenu uvádí syntaktickou funkci
parent - relativní pozice tokenu, na němž je daný token závislý
eparent - pouze u autosémantických slov; vyjadřuje relativní pozici nejbližšího autosémantického tokenu, na němž je daný token závislý
ord - vyjadřuje pozici tokenu ve větě
p_tag, p_lemma, p_sublemma, p_verbtag, p_pos, p_case, p_ord - atributy řídícího tokenu, např. p_lemma je lemma řídícího tokenu
ep_tag, ep_lemma, ep_sublemma, ep_verbtag, ep_pos, ep_case, ep_ord - podobně jako p_tag a p_lemma, ale odvozené od nejbližšího nadřazeného autosémantického tokenu
prep - u jmen řízených předložkou uvádí lemma předložky

Anotaci víceslovných lexikálních jednotek zajišťují (pouze v korpusech SYN, od verze 14) atributy:

mwe_lemma (multiwords expression lemma) - lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru
mwe_tag - (multiword expression tag) - poziční tag víceslovné jednotky s deseti pozicemi

Starší frazémovou anotaci zajišťují (pouze v korpusech SYN, verze 4 až 13) atributy:

col_lemma (collocation lemma) - lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru
col_type - (collocation type) - určuje druh víceslovné jednotky a rozlišuje její hlavní a závislá slova

Poziční atributy specifické pro některé mluvené korpusy:

fon - fonetický přepis slovního tvaru (pokud primární vrstva word obsahuje standardizovaný přepis)
dial - nářeční přepis slovního tvaru (pokud primární vrstva word obsahuje standardizovaný přepis)
ort - standardizovaný přepis slovního tvaru (pokud primární vrstva word obsahuje nářeční přepis)
uid - sdružuje pozice vyslovené v rámci jedné repliky

Méně využívané nebo neaktuální poziční atributy:

proc - informace o konkrétním procesu, který je zodpovědný za disambiguaci
k - slovní druh (odvozen z atributu tag, nahrazeno atributem pos)
g - jmenný rod (odvozen z atributu tag)
c - pád (odvozen z atributu tag, nahrazeno atributem case)

Různé korpusy mají typicky rozdílnou sadu pozičních atributů v závislosti na propracovanosti anotace a výzkumných cílech, s nimiž byl daný korpus vytvářen.