Poziční atributy

Pozičními atributy v korpusech jsou myšleny dodané informace, které se vztahují k jednomu tokenu (k jedné textové pozici). Každý text je při vstupu do korpusů zpřístupňovaných rozhraním KonText opatřen anotací. Ta část anotace, která neobsahuje informace o textu jako celku, z něhož hledaný jev pochází, ale o jevu samotném, je dostupná právě pomocí pozičních atributů. (Jinými slovy jde o rozdíl mezi informacemi metatextovými, z nichž se některé musí doplňovat ručně – např. autor textu, rok vydání apod. – a automaticky přiřazovanými informacemi vnitrotextovými, k jejichž získání se užívají různé nástroje, např. tagger nebo parser).

Základními pozičními atributy jsou:

Z těchto základních atributů jsou pro snazší práci s korpusy odvozeny následující atributy:

Syntaktickou anotaci (v korpusech SYN2025, SYN2020 a SYN2015) zachycují atributy:

Anotaci víceslovných lexikálních jednotek zajišťují (pouze v korpusech SYN, od verze 14) atributy:

Starší frazémovou anotaci zajišťují (pouze v korpusech SYN, verze 4 až 13) atributy:

Poziční atributy specifické pro některé mluvené korpusy:

Méně využívané nebo neaktuální poziční atributy:

Různé korpusy mají typicky rozdílnou sadu pozičních atributů v závislosti na propracovanosti anotace a výzkumných cílech, s nimiž byl daný korpus vytvářen.

Související odkazy