Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:atributy_pozicni [2017/12/14 15:29] – [Poziční atributy] michalkren | pojmy:atributy_pozicni [2022/01/03 16:49] (aktuální) – jankrivan |
---|
* [[pojmy:word|word]] - slovní tvar (např. //kočce, piš, při// ) | * [[pojmy:word|word]] - slovní tvar (např. //kočce, piš, při// ) |
* [[pojmy:lemma|lemma]] - základní (slovníkový) tvar (např. //kočka, psát, pře// nebo //při//) | * [[pojmy:lemma|lemma]] - základní (slovníkový) tvar (např. //kočka, psát, pře// nebo //při//) |
| * [[pojmy:lemma#sublemma|sublemma]] (od [[cnk:syn2020|SYN2020]]) - základní (slovníkový) tvar odpovídající variantě (např. //filosof//, //filozof// nebo //mejdlo//, //mýdlo//) |
* [[pojmy:tag|tag]] - značka zachycující [[pojmy:morfologicka_analyza|morfologickou]] (příp. i jinou, obvykle gramatickou) informaci | * [[pojmy:tag|tag]] - značka zachycující [[pojmy:morfologicka_analyza|morfologickou]] (příp. i jinou, obvykle gramatickou) informaci |
| * [[pojmy:verbtag|verbtag]] (od [[cnk:syn2020|SYN2020]]) - značka gramatických kategorií slovesa |
| |
| Z těchto základních atributů jsou pro snazší práci s korpusy odvozeny následující atributy: |
| * sword (od [[cnk:syn2020|SYN2020]], kde však označeno jako ''sforma'') - syntaktický slovní tvar, v rámci [[pojmy:agregát|agregátu]] odpovídá jeho uspořádání (např. //%%se|s%%//, //%%slyšela|s%%//, //%%a|by%%//, //%%kdy|bych%%//), jinak je totožný s atributem ''word'' |
| * lc - (z angl. //lowercase//) slovní tvar malými písmeny (odvozen z atributu ''word'') |
| * lemma_lc - (z angl. //lemma in lowercase//) lemma malými písmeny (odvozeno z atributu ''lemma'') |
| * sublemma_lc - (z angl. //sublemma in lowercase//) sublemma malými písmeny (odvozeno z atributu ''sublemma'') |
| * pos - (z angl. //part of speech//) slovní druh (odvozen z atributu [[pojmy:tag|tag]], odpovídá 1. pozici tagu) |
| * case - pád (odvozen z atributu [[pojmy:tag|tag]], odpovídá 5. pozici tagu) |
| |
[[pojmy:syntakticka_analyza|Syntaktickou anotaci]] (od [[cnk:syn2015|SYN2015]]) zachycují atributy: | [[pojmy:syntakticka_analyza|Syntaktickou anotaci]] (od [[cnk:syn2015|SYN2015]]) zachycují atributy: |
* [[seznamy:prep|prep]] - u jmen řízených předložkou uvádí lemma předložky | * [[seznamy:prep|prep]] - u jmen řízených předložkou uvádí lemma předložky |
| |
Mezi méně využívané poziční atributy patří: | [[pojmy:frazem#frazemy_v_korpusech|Frazémovou anotaci]] zajišťují (pouze v korpusech [[cnk:syn|SYN]], od verze 4) atributy: |
* lc - (z angl. //lowercase//) slovní tvar malými písmeny (odvozen z atributu ''word'') | * [[seznamy:frazemy#oznaceni_automaticky_identifikovanych_viceslovnych_jednotek_v_korpusu|col_lemma]] (collocation lemma) - lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru |
* lemma_lc - (z angl. //lemma in lowercase//) lemma malými písmeny (odvozeno z atributu ''lemma'') | * [[seznamy:frazemy#oznaceni_automaticky_identifikovanych_viceslovnych_jednotek_v_korpusu|col_type]] - (collocation type) - určuje druh víceslovné jednotky a rozlišuje její hlavní a závislá slova |
* pos - (z angl. //part of speech//) slovní druh (odvozen z atributu [[pojmy:tag|tag]]) | |
* case - pád (odvozen z atributu [[pojmy:tag|tag]]) | |
* [[seznamy:proc|proc]] - informace o konkrétním procesu, který je zodpovědný za [[pojmy:desambiguace|disambiguaci]] | |
| |
Následující atributy byly již v ČNK nahrazeny atributy ''pos'' a ''case'', v novějších korpusech se tedy nevyskytují: | [[seznamy:mluvene_atributy|Poziční atributy specifické pro některé mluvené korpusy]]: |
* k - slovní druh (odvozen z atributu [[pojmy:tag|tag]]) | * fon - fonetický přepis slovního tvaru (pokud primární vrstva ''word'' obsahuje standardizovaný přepis) |
| * dial - nářeční přepis slovního tvaru (pokud primární vrstva ''word'' obsahuje standardizovaný přepis) |
| * ort - standardizovaný přepis slovního tvaru (pokud primární vrstva ''word'' obsahuje nářeční přepis) |
| * uid - sdružuje pozice vyslovené v rámci jedné repliky |
| |
| Méně využívané nebo neaktuální poziční atributy: |
| * [[seznamy:proc|proc]] - informace o konkrétním procesu, který je zodpovědný za [[pojmy:desambiguace|disambiguaci]] |
| * k - slovní druh (odvozen z atributu [[pojmy:tag|tag]], nahrazeno atributem ''pos'') |
* g - jmenný rod (odvozen z atributu [[pojmy:tag|tag]]) | * g - jmenný rod (odvozen z atributu [[pojmy:tag|tag]]) |
* c - pád (odvozen z atributu [[pojmy:tag|tag]]) | * c - pád (odvozen z atributu [[pojmy:tag|tag]], nahrazeno atributem ''case'') |
| |
**Různé korpusy mají typicky rozdílnou sadu pozičních atributů** v závislosti na propracovanosti anotace a výzkumných cílech, s nimiž byl daný korpus vytvářen. | **Různé korpusy mají typicky rozdílnou sadu pozičních atributů** v závislosti na propracovanosti anotace a výzkumných cílech, s nimiž byl daný korpus vytvářen. |