AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
pojmy:atributy_pozicni [2021/11/02 15:11] – [Poziční atributy] Michal Škrabalpojmy:atributy_pozicni [2022/01/03 16:49] (aktuální) Jan Křivan
Řádek 6: Řádek 6:
   * [[pojmy:word|word]] - slovní tvar (např. //kočce, piš, při// )   * [[pojmy:word|word]] - slovní tvar (např. //kočce, piš, při// )
   * [[pojmy:lemma|lemma]] - základní (slovníkový) tvar (např. //kočka, psát, pře// nebo //při//)   * [[pojmy:lemma|lemma]] - základní (slovníkový) tvar (např. //kočka, psát, pře// nebo //při//)
 +  * [[pojmy:lemma#sublemma|sublemma]] (od [[cnk:syn2020|SYN2020]]) - základní (slovníkový) tvar odpovídající variantě (např. //filosof//, //filozof// nebo //mejdlo//, //mýdlo//)
   * [[pojmy:tag|tag]] - značka zachycující [[pojmy:morfologicka_analyza|morfologickou]] (příp. i jinou, obvykle gramatickou) informaci   * [[pojmy:tag|tag]] - značka zachycující [[pojmy:morfologicka_analyza|morfologickou]] (příp. i jinou, obvykle gramatickou) informaci
 +  * [[pojmy:verbtag|verbtag]] (od [[cnk:syn2020|SYN2020]]) - značka gramatických kategorií slovesa 
 +
 +Z těchto základních atributů jsou pro snazší práci s korpusy odvozeny následující atributy:
 +  * sword (od [[cnk:syn2020|SYN2020]], kde však označeno jako ''sforma'') - syntaktický slovní tvar, v rámci [[pojmy:agregát|agregátu]] odpovídá jeho uspořádání (např. //%%se|s%%//, //%%slyšela|s%%//, //%%a|by%%//, //%%kdy|bych%%//), jinak je totožný s atributem ''word''
 +  * lc - (z angl. //lowercase//) slovní tvar malými písmeny (odvozen z atributu ''word'')
 +  * lemma_lc - (z angl. //lemma in lowercase//) lemma malými písmeny (odvozeno z atributu ''lemma'')
 +  * sublemma_lc - (z angl. //sublemma in lowercase//) sublemma malými písmeny (odvozeno z atributu ''sublemma'')
 +  * pos - (z angl. //part of speech//) slovní druh (odvozen z atributu [[pojmy:tag|tag]], odpovídá 1. pozici tagu)
 +  * case - pád (odvozen z atributu [[pojmy:tag|tag]], odpovídá 5. pozici tagu)
  
 [[pojmy:syntakticka_analyza|Syntaktickou anotaci]] (od [[cnk:syn2015|SYN2015]]) zachycují atributy: [[pojmy:syntakticka_analyza|Syntaktickou anotaci]] (od [[cnk:syn2015|SYN2015]]) zachycují atributy:
Řádek 16: Řádek 26:
   * [[seznamy:prep|prep]] - u jmen řízených předložkou uvádí lemma předložky   * [[seznamy:prep|prep]] - u jmen řízených předložkou uvádí lemma předložky
  
-Mezi méně využívané poziční atributy patří: +[[pojmy:frazem#frazemy_v_korpusech|Frazémovou anotaci]] zajišťují (pouze v korpusech [[cnk:syn|SYN]], od verze 4atributy: 
-  * lc - (z angl. //lowercase//) slovní tvar malými písmeny (odvozen z atributu ''word''+  * [[seznamy:frazemy#oznaceni_automaticky_identifikovanych_viceslovnych_jednotek_v_korpusu|col_lemma]]  (collocation lemma) lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru 
-  * lemma_lc - (z angl. //lemma in lowercase//) lemma malými písmeny (odvozeno z atributu ''lemma''+  * [[seznamy:frazemy#oznaceni_automaticky_identifikovanych_viceslovnych_jednotek_v_korpusu|col_type]] -  (collocation type) - určuje druh víceslovné jednotky a rozlišuje její hlavní a závislá slova
-  * sublemma - pravopisná, hlásková či morfologická varianta lemmatu +
-  * pos - (z angl. //part of speech//) slovní druh (odvozen z atributu [[pojmy:tag|tag]]+
-  * case - pád (odvozen z atributu [[pojmy:tag|tag]]) +
-  * [[cnk:syn2020:verbtag|verbtag]] - slovesné gramatické kategorie +
-  * [[seznamy:proc|proc]] - informace o konkrétním procesu, který je zodpovědný za [[pojmy:desambiguace|disambiguaci]]+
  
-Následující atributy byly již v ČNK nahrazeny atributy ''pos'' ''case''novějších korpusech se tedy nevyskytují+[[seznamy:mluvene_atributy|Poziční atributy specifické pro některé mluvené korpusy]]: 
-  * k - slovní druh (odvozen z atributu [[pojmy:tag|tag]])+  * fon - fonetický přepis slovního tvaru (pokud primární vrstva ''word'' obsahuje standardizovaný přepis) 
 +  * dial - nářeční přepis slovního tvaru (pokud primární vrstva ''word'' obsahuje standardizovaný přepis) 
 +  * ort - standardizovaný přepis slovního tvaru (pokud primární vrstva ''word'' obsahuje nářeční přepis) 
 +  * uid - sdružuje pozice vyslovené rámci jedné repliky 
 + 
 +Méně využívané nebo neaktuální poziční atributy: 
 +  * [[seznamy:proc|proc]] - informace o konkrétním procesu, který je zodpovědný za [[pojmy:desambiguace|disambiguaci]] 
 +  * k - slovní druh (odvozen z atributu [[pojmy:tag|tag]], nahrazeno atributem ''pos'')
   * g - jmenný rod (odvozen z atributu [[pojmy:tag|tag]])   * g - jmenný rod (odvozen z atributu [[pojmy:tag|tag]])
-  * c - pád (odvozen z atributu [[pojmy:tag|tag]])+  * c - pád (odvozen z atributu [[pojmy:tag|tag]], nahrazeno atributem ''case'')
  
 **Různé korpusy mají typicky rozdílnou sadu pozičních atributů** v závislosti na propracovanosti anotace a výzkumných cílech, s nimiž byl daný korpus vytvářen. **Různé korpusy mají typicky rozdílnou sadu pozičních atributů** v závislosti na propracovanosti anotace a výzkumných cílech, s nimiž byl daný korpus vytvářen.