AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Poslední revizeObě strany příští revize
pojmy:atributy_pozicni [2013/06/21 12:39] vaclavcvrcekpojmy:atributy_pozicni [2021/11/02 15:11] – [Poziční atributy] michalskrabal
Řádek 1: Řádek 1:
 ====== Poziční atributy ====== ====== Poziční atributy ======
  
-Pozičními atributy v korpusech jsou myšleny dodané informace, které se vztahují k jednomu [[pojmy:token|tokenu]] (k jedné textové [[pojmy:pozice|pozici]]). Každý text je při vstupu do korpusu opatřen [[pojmy:anotace|anotací]]; ta část anotace, která se neinformuje o textu, z něhož hledaný jev pochází, ale o jevu samotném, je dostupná právě pomocí pozičních atributů.+Pozičními atributy v korpusech jsou myšleny dodané informace, které se vztahují k jednomu [[pojmy:token|tokenu]] (k jedné textové [[pojmy:pozice|pozici]]). Každý text je při vstupu do korpusů zpřístupňovaných rozhraním [[manualy:kontext:index|KonText]] opatřen [[pojmy:anotace|anotací]]. Ta část anotace, která neobsahuje informace o textu jako celku, z něhož hledaný jev pochází, ale o jevu samotném, je dostupná právě pomocí pozičních atributů. (Jinými slovy jde o rozdíl mezi informacemi **metatextovými**, z nichž se některé musí doplňovat ručně – např. autor textu, rok vydání apod. – a automaticky přiřazovanými informacemi **vnitrotextovými**, k jejichž získání se užívají různé nástroje, např. [[pojmy:tag|tagger]] nebo [[pojmy:parser|parser]]).
  
 Základními pozičními atributy jsou: Základními pozičními atributy jsou:
-  * [[pojmy:word|word]] - slovní tvar +  * [[pojmy:word|word]] - slovní tvar (např. //kočce, piš, při// ) 
-  * [[pojmy:lemma|lemma]] - základní (slovníkový) tvar +  * [[pojmy:lemma|lemma]] - základní (slovníkový) tvar (např. //kočka, psát, pře// nebo //při//) 
-  * [[pojmy:tag|tag]] - značka zachycující morfologickou (příp. i jinou, obv. gramatickou) informaci +  * [[pojmy:tag|tag]] - značka zachycující [[pojmy:morfologicka_analyza|morfologickou]] (příp. i jinou, obvykle gramatickou) informaci
-  * lc - (z angl. //lowercase//) ekvivalent slovního tvaru, který ovšem zanedbává velikost písmen +
-  * pos - (z angl. //part of speech//) značka slovního druhu+
  
-Různé korpusy můžou mít různou sadu pozičních atributů v závislosti na propracovanosti anotace výzkumných cílechs nimiž byl daný korpus vytvářen.+[[pojmy:syntakticka_analyza|Syntaktickou anotaci]] (od [[cnk:syn2015|SYN2015]]) zachycují atributy: 
 +  * [[seznamy:afun|afun, p_afun, ep_afun]] - u každého tokenu uvádí syntaktickou funkci 
 +  * [[seznamy:parent|parent]] - relativní pozice tokenu, na němž je daný token závislý 
 +  * [[seznamy:eparent|eparent]] - pouze u autosémantických slov; vyjadřuje relativní pozici nejbližšího autosémantického tokenu, na němž je daný token závislý 
 +  * [[seznamy:p_tag|p_tag, p_lemma]] - tag lemma řídícího tokenu  
 +  * [[seznamy:p_tag|ep_tagep_lemma]] - totéž jako ''p_tag'' a ''p_lemma'', ale pouze u autosémantických slov  
 +  * [[seznamy:prep|prep]] - u jmen řízených předložkou uvádí lemma předložky
  
-==== Související odkazy ====+Mezi méně využívané poziční atributy patří: 
 +  * lc - (z angl. //lowercase//) slovní tvar malými písmeny (odvozen z atributu ''word''
 +  * lemma_lc - (z angl. //lemma in lowercase//) lemma malými písmeny (odvozeno z atributu ''lemma''
 +  * sublemma - pravopisná, hlásková či morfologická varianta lemmatu 
 +  * pos - (z angl. //part of speech//) slovní druh (odvozen z atributu [[pojmy:tag|tag]]) 
 +  * case - pád (odvozen z atributu [[pojmy:tag|tag]]) 
 +  * [[cnk:syn2020:verbtag|verbtag]] - slovesné gramatické kategorie 
 +  * [[seznamy:proc|proc]] - informace o konkrétním procesu, který je zodpovědný za [[pojmy:desambiguace|disambiguaci]]
  
-[[pojmy:dotazovaci_jazyk|Dotazovací jazyk]]+Následující atributy byly již v ČNK nahrazeny atributy ''pos'' a ''case'', v novějších korpusech se tedy nevyskytují: 
 +  * k - slovní druh (odvozen z atributu [[pojmy:tag|tag]]) 
 +  * g - jmenný rod (odvozen z atributu [[pojmy:tag|tag]]) 
 +  * c - pád (odvozen z atributu [[pojmy:tag|tag]])
  
-[[pojmy:atributy_strukturni|Strukturní atributy]]+**Různé korpusy mají typicky rozdílnou sadu pozičních atributů** v závislosti na propracovanosti anotace a výzkumných cílech, s nimiž byl daný korpus vytvářen.
  
-[[pojmy:struktura_korpusu|Struktura korpusu]]+==== Související odkazy ==== 
 +<WRAP round box 45%> 
 +[[pojmy:dotazovaci_jazyk|Dotazovací jazyk]] • [[pojmy:atributy_strukturni|Strukturní atributy]] • [[pojmy:struktura_korpusu|Struktura korpusu]] 
 +</WRAP>