AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:atributy_pozicni [2013/09/11 17:46] – Schvaleno pro 1. verzi vaclavcvrcekpojmy:atributy_pozicni [2022/01/03 16:49] (aktuální) jankrivan
Řádek 1: Řádek 1:
 ====== Poziční atributy ====== ====== Poziční atributy ======
  
-Pozičními atributy v korpusech jsou myšleny dodané informace, které se vztahují k jednomu [[pojmy:token|tokenu]] (k jedné textové [[pojmy:pozice|pozici]]). Každý text je při vstupu do korpusů zpřístupňovaných [[rozhraním XX]] opatřen [[pojmy:anotace|anotací]]. Ta část anotace, která neobsahuje informace o textu jako celku, z něhož hledaný jev pochází, ale o jevu samotném, je dostupná právě pomocí pozičních atributů. (Jinými slovy jde o rozdíl mezi informacemi **metatextovými**, z nichž se některé musí doplňovat ručně – např. autor textu, rok vydání apod. – a automaticky přiřazovanými informacemi **vnitrotextovými**, k jejichž získání se užívají různé nástroje, např. tagger).+Pozičními atributy v korpusech jsou myšleny dodané informace, které se vztahují k jednomu [[pojmy:token|tokenu]] (k jedné textové [[pojmy:pozice|pozici]]). Každý text je při vstupu do korpusů zpřístupňovaných rozhraním [[manualy:kontext:index|KonText]] opatřen [[pojmy:anotace|anotací]]. Ta část anotace, která neobsahuje informace o textu jako celku, z něhož hledaný jev pochází, ale o jevu samotném, je dostupná právě pomocí pozičních atributů. (Jinými slovy jde o rozdíl mezi informacemi **metatextovými**, z nichž se některé musí doplňovat ručně – např. autor textu, rok vydání apod. – a automaticky přiřazovanými informacemi **vnitrotextovými**, k jejichž získání se užívají různé nástroje, např. [[pojmy:tag|tagger]] nebo [[pojmy:parser|parser]]).
  
 Základními pozičními atributy jsou: Základními pozičními atributy jsou:
   * [[pojmy:word|word]] - slovní tvar (např. //kočce, piš, při// )   * [[pojmy:word|word]] - slovní tvar (např. //kočce, piš, při// )
   * [[pojmy:lemma|lemma]] - základní (slovníkový) tvar (např. //kočka, psát, pře// nebo //při//)   * [[pojmy:lemma|lemma]] - základní (slovníkový) tvar (např. //kočka, psát, pře// nebo //při//)
-  * [[pojmy:tag|tag]] - značka zachycující morfologickou (příp. i jinou, obvykle gramatickou) informaci+  * [[pojmy:lemma#sublemma|sublemma]] (od [[cnk:syn2020|SYN2020]]) - základní (slovníkový) tvar odpovídající variantě (např. //filosof//, //filozof// nebo //mejdlo//, //mýdlo//
 +  * [[pojmy:tag|tag]] - značka zachycující [[pojmy:morfologicka_analyza|morfologickou]] (příp. i jinou, obvykle gramatickou) informaci 
 +  * [[pojmy:verbtag|verbtag]] (od [[cnk:syn2020|SYN2020]]) - značka gramatických kategorií slovesa 
  
-Mezi méně využívané poziční atributy patří+Z těchto základních atributů jsou pro snazší práci s korpusy odvozeny následující atributy: 
-  * lc - (z angl. //lowercase//ekvivalent slovního tvaru, který ovšem zanedbává velikost písmen +  * sword (od [[cnk:syn2020|SYN2020]], kde však označeno jako ''sforma'') - syntaktický slovní tvar, v rámci [[pojmy:agregát|agregátu]] odpovídá jeho uspořádání (např. //%%se|s%%//, //%%slyšela|s%%//, //%%a|by%%//, //%%kdy|bych%%//), jinak je totožný s atributem ''word'' 
-  * pos - (z angl. //part of speech//značka slovního druhu+  * lc - (z angl. //lowercase//slovní tvar malými písmeny (odvozen z atributu ''word''
 +  * lemma_lc - (z angl. //lemma in lowercase//) lemma malými písmeny (odvozeno z atributu ''lemma''
 +  * sublemma_lc - (z angl. //sublemma in lowercase//) sublemma malými písmeny (odvozeno z atributu ''sublemma'') 
 +  * pos - (z angl. //part of speech//slovní druh (odvozen z atributu [[pojmy:tag|tag]], odpovídá 1. pozici tagu) 
 +  * case - pád (odvozen z atributu [[pojmy:tag|tag]], odpovídá 5. pozici tagu)
  
-Specifické jsou atributy, které vznikají derivací z morfologické značky+[[pojmy:syntakticka_analyza|Syntaktickou anotaci]] (od [[cnk:syn2015|SYN2015]]) zachycují atributy: 
-  * k - vyjadřuje slovní druhidentický s první pozicí morfologického tagu +  * [[seznamy:afun|afunp_afun, ep_afun]] - u každého tokenu uvádí syntaktickou funkci 
-  * vyjadřuje jmenný rodidentický s třetí pozicí morfologického tagu +  * [[seznamy:parent|parent]] relativní pozice tokenuna němž je daný token závislý 
-  * - vyjadřuje pádidentický s pátou pozicí morfologického tagu +  * [[seznamy:eparent|eparent]] pouze u autosémantických slov; vyjadřuje relativní pozici nejbližšího autosémantického tokenuna němž je daný token závislý 
-Tyto tagy jsou užívány při analýze slovních profilů ([[pojmy:korpusovy_manazer#sketch_engine|Word Sketches]]téměř nemají další praktické uplatnění.+  * [[seznamy:p_tag|p_tag, p_lemma]] - tag a lemma řídícího tokenu  
 +  * [[seznamy:p_tag|ep_tag, ep_lemma]] - totéž jako ''p_tag'' ''p_lemma'', ale pouze u autosémantických slov  
 +  * [[seznamy:prep|prep]] - u jmen řízených předložkou uvádí lemma předložky
  
-Různé korpusy můžou mít rozdílnou sadu pozičních atributů v závislosti na propracovanosti anotace a výzkumných cílech, s nimiž byl daný korpus vytvářen.+[[pojmy:frazem#frazemy_v_korpusech|Frazémovou anotaci]] zajišťují (pouze v korpusech [[cnk:syn|SYN]], od verze 4) atributy: 
 +  * [[seznamy:frazemy#oznaceni_automaticky_identifikovanych_viceslovnych_jednotek_v_korpusu|col_lemma]]  (collocation lemma) - lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru 
 +  * [[seznamy:frazemy#oznaceni_automaticky_identifikovanych_viceslovnych_jednotek_v_korpusu|col_type]] -  (collocation type) - určuje druh víceslovné jednotky a rozlišuje její hlavní a závislá slova 
 + 
 +[[seznamy:mluvene_atributy|Poziční atributy specifické pro některé mluvené korpusy]]: 
 +  * fon - fonetický přepis slovního tvaru (pokud primární vrstva ''word'' obsahuje standardizovaný přepis) 
 +  * dial - nářeční přepis slovního tvaru (pokud primární vrstva ''word'' obsahuje standardizovaný přepis) 
 +  * ort - standardizovaný přepis slovního tvaru (pokud primární vrstva ''word'' obsahuje nářeční přepis) 
 +  * uid - sdružuje pozice vyslovené v rámci jedné repliky 
 + 
 +Méně využívané nebo neaktuální poziční atributy: 
 +  * [[seznamy:proc|proc]] - informace o konkrétním procesu, který je zodpovědný za [[pojmy:desambiguace|disambiguaci]] 
 +  * k - slovní druh (odvozen z atributu [[pojmy:tag|tag]], nahrazeno atributem ''pos''
 +  * g - jmenný rod (odvozen z atributu [[pojmy:tag|tag]]) 
 +  * c - pád (odvozen z atributu [[pojmy:tag|tag]], nahrazeno atributem ''case''
 + 
 +**Různé korpusy mají typicky rozdílnou sadu pozičních atributů** v závislosti na propracovanosti anotace a výzkumných cílech, s nimiž byl daný korpus vytvářen.
  
 ==== Související odkazy ==== ==== Související odkazy ====
-<WRAP round box 49%>+<WRAP round box 45%>
 [[pojmy:dotazovaci_jazyk|Dotazovací jazyk]] • [[pojmy:atributy_strukturni|Strukturní atributy]] • [[pojmy:struktura_korpusu|Struktura korpusu]] [[pojmy:dotazovaci_jazyk|Dotazovací jazyk]] • [[pojmy:atributy_strukturni|Strukturní atributy]] • [[pojmy:struktura_korpusu|Struktura korpusu]]
 </WRAP> </WRAP>