AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Poziční atributy

Pozičními atributy v korpusech jsou myšleny dodané informace, které se vztahují k jednomu tokenu (k jedné textové pozici). Každý text je při vstupu do korpusu opatřen anotací; ta část anotace, která se neinformuje o textu, z něhož hledaný jev pochází, ale o jevu samotném, je dostupná právě pomocí pozičních atributů.

Základními pozičními atributy jsou:

  • word - slovní tvar
  • lemma - základní (slovníkový) tvar
  • tag - značka zachycující morfologickou (příp. i jinou, obv. gramatickou) informaci
  • lc - (z angl. lowercase) ekvivalent slovního tvaru, který ovšem zanedbává velikost písmen
  • pos - (z angl. part of speech) značka slovního druhu

Různé korpusy můžou mít různou sadu pozičních atributů v závislosti na propracovanosti anotace a výzkumných cílech, s nimiž byl daný korpus vytvářen.

Související odkazy