Next revision | Previous revision |
en:pojmy:tag [2016/12/08 14:18] – created veronikapojarova | en:pojmy:tag [2020/12/21 13:39] (current) – [Tagset] michalkren |
---|
A morphological tag (commonly called **tag**) is a summary of the grammatical information about a specific word ([[en:pojmy:pozice|position ]]) in the given context. A tag is usually automatically generated based on a [[en:pojmy:morfologicka_analyza|morphological analysis]] and a subsequent [[en:pojmy:desambiguace|disambiguation]]. | A morphological tag (commonly called **tag**) is a summary of the grammatical information about a specific word ([[en:pojmy:pozice|position ]]) in the given context. A tag is usually automatically generated based on a [[en:pojmy:morfologicka_analyza|morphological analysis]] and a subsequent [[en:pojmy:desambiguace|disambiguation]]. |
| |
Tagy jsou [[pojmy:atributy_pozicni|poziční atributy]]. Morfologická značka v českých korpusech ČNK je tvořena sekvencí značek (písmen a čísel), které mají specifický význam podle toho, na jaké pozici v kódu stojí. Ve větě //Po promoci na londýnské universitě odjel jsem roku 1878 do Netley na školení vojenských chirurgů.// má tvar //promoci// (přesto, že se potenciálně jedná o tvar morfologicky víceznačný) morfologickou značku ''NNFS6-----A-----'', která o něm říká, že se jedná o | Tags are [[en:pojmy:atributy_pozicni|positional attributes]]. A morphological tag in the Czech CNC corpora consists of a sequence of symbols (letters and numbers) which have a specific meaning based on the position which they occupy in the code. In the Czech sentence //Po promoci na londýnské universitě odjel jsem roku 1878 do Netley na školení vojenských chirurgů.// the word form //promoci// (although this form is potentially morphologically ambiguous) has a morphological tag ''NNFS6-----A-----'', which indicates that it is a: |
* substantivum (=N) | * noun (=N) |
* běžné substantivum (=N) | * common noun (=N) |
* femininum, tedy ženského rodu (=F) | * femininum, i.e. feminine gender (=F) |
* singulár, tedy jednotné číslo (=S) | * singular number (=S) |
* v šestém pádě, tedy lokálu (=6) | * in the sixth case, i.e. locative (=6) |
| |
===== Tagset ===== | ===== Tagset ===== |
| |
Soubor pravidel a hodnot, které se můžou vyskytovat v tagu se nazývá tagset. Poziční [[seznamy:tagy#popis_jednotlivych_pozic_znacky|tagset užívaný v českých korpusech ČNK]] má 16 pozic, každá z nich nese informaci o jiné gramatické kategorii: | A set of rules and values which can occur in a tag is called a tagset. The positional [[en:seznamy:tagy#popis_jednotlivych_pozic_znacky|tagset used in the Czech CNC corpora]] has 16 positions (starting from SYN2020, we are using a modified tagset), each of which carries some information about a specific grammatical category: |
| |
- Slovní druh | - Word class |
- Detailní určení slovního druhu | - A more detailed specification of word class |
- Jmenný rod | - Grammatical gender |
- Číslo | - Number |
- Pád | - Case |
- Přivlastňovací rod | - Possessive case |
- Přivlastňovací číslo | - Possessive number |
- Osoba | - Person |
- Čas | - Tense |
- Stupeň | - Degree |
- Negace | - Negation |
- Aktivum/pasívum | - Active/passive |
- //Nepoužito// | - //not used// |
- //Nepoužito// | - //not used// |
- Varianta, stylový příznak apod. | - Variant, stylistic marking etc.. |
- Vid | - Aspect |
==== Související odkazy ==== | |
| |
| ===== Tagsets used in the parallel corpus InterCorp ===== |
| There are different tagsets for various languages. Description of these tagsets can be found [[en:cnk:intercorp:verze10#morphosyntactic_annotation|here]]. |
| |
| |
| ==== Relevant links ==== |
| |
<WRAP round box 49%> | <WRAP round box 49%> |
[[seznamy:tagy|Přehled morfologických značek]] • [[pojmy:morfologicka_analyza|Morfologická analýza]] • [[pojmy:atributy_pozicni|Poziční atributy]] | [[en:seznamy:tagy|List of morphological tags]] • [[en:pojmy:morfologicka_analyza|Morphological analysis]] • [[en:pojmy:atributy_pozicni|Positional attributes]] |
</WRAP> | </WRAP> |