AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Poziční atributy

Pozičními atributy v korpusech jsou myšleny dodané informace, které se vztahují k jednomu tokenu (k jedné textové pozici). Každý text je při vstupu do korpusů zpřístupňovaných rozhranímXX opatřen anotací. Ta část anotace, která neobsahuje informace o textu, z něhož hledaný jev pochází, jako o celku, ale jako o jevu samotném, je dostupná právě pomocí pozičních atributů. (Jinými slovy jde o rozdíl mezi informacemi metatextovými, z nichž se některé musí doplňovat ručně – např. autor textu, rok vydání apod. – a automaticky přiřazovanými informacemi vnitrotextovými, pro něž fungují různé nástroje.

Základními pozičními atributy jsou:

  • word - slovní tvar (např. kočce, piš, při )
  • lemma - základní (slovníkový) tvar (např. kočka, psát, pře nebo při)
  • tag - značka zachycující morfologickou (příp. i jinou, obvykle gramatickou) informaci

Mezi méně využívané poziční atributy patří:

  • lc - (z angl. lowercase) ekvivalent slovního tvaru, který ovšem zanedbává velikost písmen
  • pos - (z angl. part of speech) značka slovního druhu

Specifické jsou atributy, které vznikají derivací z morfologické značky:

  • k - vyjadřuje slovní druh, identický s první pozicí morfologického tagu
  • g - vyjadřuje jmenný rod, identický s třetí pozicí morfologického tagu
  • c - vyjadřuje pád, identický s pátou pozicí morfologického tagu

Tyto tagy jsou užívány při analýze slovních profilů (Word Sketches) a téměř nemají další praktické uplatnění.

Různé korpusy můžou mít rozdílnou sadu pozičních atributů v závislosti na propracovanosti anotace a výzkumných cílech, s nimiž byl daný korpus vytvářen.

Související odkazy