Obě strany předchozí revizePředchozí verze | Následující verzeObě strany příští revize |
pojmy:atributy_pozicni [2015/01/21 18:02] – cvrcek | pojmy:atributy_pozicni [2015/12/17 10:42] – vaclavcvrcek |
---|
====== Poziční atributy ====== | ====== Poziční atributy ====== |
| |
Pozičními atributy v korpusech jsou myšleny dodané informace, které se vztahují k jednomu [[pojmy:token|tokenu]] (k jedné textové [[pojmy:pozice|pozici]]). Každý text je při vstupu do korpusů zpřístupňovaných rozhraním [[manualy:kontext:index|KonText]] opatřen [[pojmy:anotace|anotací]]. Ta část anotace, která neobsahuje informace o textu jako celku, z něhož hledaný jev pochází, ale o jevu samotném, je dostupná právě pomocí pozičních atributů. (Jinými slovy jde o rozdíl mezi informacemi **metatextovými**, z nichž se některé musí doplňovat ručně – např. autor textu, rok vydání apod. – a automaticky přiřazovanými informacemi **vnitrotextovými**, k jejichž získání se užívají různé nástroje, např. tagger). | Pozičními atributy v korpusech jsou myšleny dodané informace, které se vztahují k jednomu [[pojmy:token|tokenu]] (k jedné textové [[pojmy:pozice|pozici]]). Každý text je při vstupu do korpusů zpřístupňovaných rozhraním [[manualy:kontext:index|KonText]] opatřen [[pojmy:anotace|anotací]]. Ta část anotace, která neobsahuje informace o textu jako celku, z něhož hledaný jev pochází, ale o jevu samotném, je dostupná právě pomocí pozičních atributů. (Jinými slovy jde o rozdíl mezi informacemi **metatextovými**, z nichž se některé musí doplňovat ručně – např. autor textu, rok vydání apod. – a automaticky přiřazovanými informacemi **vnitrotextovými**, k jejichž získání se užívají různé nástroje, např. [[pojmy:tag|tagger]] nebo [[pojmy:parser|parser]]). |
| |
Základními pozičními atributy jsou: | Základními pozičními atributy jsou: |
* [[pojmy:word|word]] - slovní tvar (např. //kočce, piš, při// ) | * [[pojmy:word|word]] - slovní tvar (např. //kočce, piš, při// ) |
* [[pojmy:lemma|lemma]] - základní (slovníkový) tvar (např. //kočka, psát, pře// nebo //při//) | * [[pojmy:lemma|lemma]] - základní (slovníkový) tvar (např. //kočka, psát, pře// nebo //při//) |
* [[pojmy:tag|tag]] - značka zachycující morfologickou (příp. i jinou, obvykle gramatickou) informaci | * [[pojmy:tag|tag]] - značka zachycující [[pojmy:morfologicka_analyza|morfologickou]] (příp. i jinou, obvykle gramatickou) informaci |
| |
| [[pojmy:syntakticka_analyza|Syntaktickou anotaci]] (od [[cnk:syn2015|SYN2015]]) zachycují atributy: |
| * [[seznamy:afun|afun, p_afun, ep_afun]] - u každého tokenu uvádí syntaktickou funkci |
| * [[seznamy:parent|parent]] - relativní pozice tokenu, na němž je daný token závislý |
| * [[seznamy:eparent|eparent]] - pouze u autosémantických slov; vyjadřuje relativní pozici nejbližšího autosémantického tokenu, na němž je daný token závislý |
| * [[seznamy:p_tag|p_tag, p_lemma]] - tag a lemma řídícího tokenu |
| * ep_tag, ep_lemma - totéž jako ''p_tag'' a ''p_lemma'', ale pouze u autosémantických slov |
| * [[seznamy:prep|prep]] - u jmen řízených předložkou uvádí lemma předložky |
| |
Mezi méně využívané poziční atributy patří: | Mezi méně využívané poziční atributy patří: |
* lc - (z angl. //lowercase//) ekvivalent slovního tvaru, který ovšem zanedbává velikost písmen | * lc - (z angl. //lowercase//) ekvivalent slovního tvaru, který ovšem zanedbává velikost písmen |
* pos - (z angl. //part of speech//) značka slovního druhu | * pos - (z angl. //part of speech//) značka slovního druhu |
| * [[seznamy:proc|proc]] - informace o typu nástroje, který je zodpovědný za [[pojmy:desambiguace|disambiguaci]] |
| |
Specifické jsou atributy, které vznikají derivací z morfologické značky: | Specifické jsou atributy, které vznikají derivací z morfologické značky: |