Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- pojmy:atributy_pozicni [2015/12/17 10:42] – vaclavcvrcek
+++ pojmy:atributy_pozicni [2026/01/26 00:39] (aktuální) – krivan
@@ Řádek 6: / Řádek 6: @@
   * [[pojmy:word|word]] - slovní tvar (např. //kočce, piš, při// )
   * [[pojmy:lemma|lemma]] - základní (slovníkový) tvar (např. //kočka, psát, pře// nebo //při//)
+  * [[pojmy:lemma#sublemma|sublemma]] (od [[cnk:syn2020|SYN2020]]) - základní (slovníkový) tvar odpovídající variantě (např. //filosof//, //filozof// nebo //mejdlo//, //mýdlo//)
   * [[pojmy:tag|tag]] - značka zachycující [[pojmy:morfologicka_analyza|morfologickou]] (příp. i jinou, obvykle gramatickou) informaci
+  * [[pojmy:verbtag|verbtag]] (od [[cnk:syn2020|SYN2020]]) - značka gramatických kategorií slovesa
-[[pojmy:syntakticka_analyza|Syntaktickou anotaci]] (od [[cnk:syn2015|SYN2015]]) zachycují atributy:
+Z těchto základních atributů jsou pro snazší práci s korpusy odvozeny následující atributy:
+  * sword (od [[cnk:syn2020|SYN2020]], kde však označeno jako ''sforma'') - syntaktický slovní tvar, v rámci [[pojmy:agregát|agregátu]] odpovídá jeho uspořádání (např. //%%se|s%%//, //%%slyšela|s%%//, //%%a|by%%//, //%%kdy|bych%%//), jinak je totožný s atributem ''word''
+  * lc - (z angl. //lowercase//) slovní tvar malými písmeny (odvozen z atributu ''word'')
+  * lemma_lc - (z angl. //lemma in lowercase//) lemma malými písmeny (odvozeno z atributu ''lemma'')
+  * sublemma_lc - (z angl. //sublemma in lowercase//) sublemma malými písmeny (odvozeno z atributu ''sublemma'')
+  * pos - (z angl. //part of speech//) slovní druh (odvozen z atributu [[pojmy:tag|tag]], odpovídá 1. pozici tagu)
+  * case - pád (odvozen z atributu [[pojmy:tag|tag]], odpovídá 5. pozici tagu)
+[[pojmy:syntakticka_analyza|Syntaktickou anotaci]] (v korpusech [[cnk:syn2025|SYN2025]], [[cnk:syn2020|SYN2020]] a [[cnk:syn2015|SYN2015]]) zachycují atributy:
   * [[seznamy:afun|afun, p_afun, ep_afun]] - u každého tokenu uvádí syntaktickou funkci
   * [[seznamy:parent|parent]] - relativní pozice tokenu, na němž je daný token závislý
   * [[seznamy:eparent|eparent]] - pouze u autosémantických slov; vyjadřuje relativní pozici nejbližšího autosémantického tokenu, na němž je daný token závislý
-  * [[seznamy:p_tag|p_tag, p_lemma]] - tag a lemma řídícího tokenu
+  * [[seznamy:ord|ord]] - vyjadřuje pozici tokenu ve větě
-  * ep_tag, ep_lemma - totéž jako ''p_tag'' a ''p_lemma'', ale pouze u autosémantických slov
+  * [[seznamy:p_tag|p_tag, p_lemma, p_sublemma, p_verbtag, p_pos, p_case, p_ord]] - atributy řídícího tokenu, např. p_lemma je lemma řídícího tokenu
+  * [[seznamy:p_tag|ep_tag, ep_lemma, ep_sublemma, ep_verbtag, ep_pos, ep_case, ep_ord]] - podobně jako ''p_tag'' a ''p_lemma'', ale odvozené od nejbližšího nadřazeného autosémantického tokenu
   * [[seznamy:prep|prep]] - u jmen řízených předložkou uvádí lemma předložky
-Mezi méně využívané poziční atributy patří:
+[[seznamy:mwe|Anotaci víceslovných lexikálních jednotek]] zajišťují (pouze v korpusech [[cnk:syn|SYN]], od verze 14) atributy:
-  * lc - (z angl. //lowercase//) ekvivalent slovního tvaru, který ovšem zanedbává velikost písmen
+  * [[seznamy:mwe##atribut_mwe_lemma|mwe_lemma]]  (multiwords expression lemma) - lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru
-  * pos - (z angl. //part of speech//) značka slovního druhu
+  * [[seznamy:mwe#atribut_mwe_tag|mwe_tag]] -  (multiword expression tag) - poziční tag víceslovné jednotky s deseti pozicemi
-  * [[seznamy:proc|proc]] - informace o typu nástroje, který je zodpovědný za [[pojmy:desambiguace|disambiguaci]]
+[[pojmy:frazem#frazemy_v_korpusech|Starší frazémovou anotaci]] zajišťují (pouze v korpusech [[cnk:syn|SYN]], verze 4 až 13) atributy:
+  * [[seznamy:frazemy#oznaceni_automaticky_identifikovanych_viceslovnych_jednotek_v_korpusu|col_lemma]]  (collocation lemma) - lemma víceslovné jednotky v podobě slovníkového hesla v základním tvaru
+  * [[seznamy:frazemy#oznaceni_automaticky_identifikovanych_viceslovnych_jednotek_v_korpusu|col_type]] -  (collocation type) - určuje druh víceslovné jednotky a rozlišuje její hlavní a závislá slova
+[[seznamy:mluvene_atributy|Poziční atributy specifické pro některé mluvené korpusy]]:
+  * fon - fonetický přepis slovního tvaru (pokud primární vrstva ''word'' obsahuje standardizovaný přepis)
+  * dial - nářeční přepis slovního tvaru (pokud primární vrstva ''word'' obsahuje standardizovaný přepis)
+  * ort - standardizovaný přepis slovního tvaru (pokud primární vrstva ''word'' obsahuje nářeční přepis)
+  * uid - sdružuje pozice vyslovené v rámci jedné repliky
-Specifické jsou atributy, které vznikají derivací z morfologické značky:
+Méně využívané nebo neaktuální poziční atributy:
-  * k - vyjadřuje slovní druh, identický s první pozicí morfologického tagu
+  * [[seznamy:proc|proc]] - informace o konkrétním procesu, který je zodpovědný za [[pojmy:desambiguace|disambiguaci]]
-  * g - vyjadřuje jmenný rod, identický s třetí pozicí morfologického tagu
+  * k - slovní druh (odvozen z atributu [[pojmy:tag|tag]], nahrazeno atributem ''pos'')
-  * c - vyjadřuje pád, identický s pátou pozicí morfologického tagu
+  * g - jmenný rod (odvozen z atributu [[pojmy:tag|tag]])
-Tyto tagy jsou užívány při analýze slovních profilů ([[pojmy:korpusovy_manazer#sketch_engine|Word Sketches]]) a téměř nemají další praktické uplatnění.
+  * c - pád (odvozen z atributu [[pojmy:tag|tag]], nahrazeno atributem ''case'')
-Různé korpusy můžou mít rozdílnou sadu pozičních atributů v závislosti na propracovanosti anotace a výzkumných cílech, s nimiž byl daný korpus vytvářen.
+**Různé korpusy mají typicky rozdílnou sadu pozičních atributů** v závislosti na propracovanosti anotace a výzkumných cílech, s nimiž byl daný korpus vytvářen.
 ==== Související odkazy ====

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence