Nastavení

Morfologická značka (tag)

Morfologická značka (běžně nazývaná tag) je sumarizací gramatické informace o hledaném slovu (pozici) v konkrétním kontextu. Tag vzniká většinou automaticky na základě morfologické analýzy a následné desambiguace.

Tagy jsou poziční atributy. Morfologická značka v českých korpusech ČNK je tvořena sekvencí značek (písmen a čísel), které mají specifický význam podle toho, na jaké pozici v kódu stojí. Ve větě Po promoci na londýnské universitě odjel jsem roku 1878 do Netley na školení vojenských chirurgů. má tvar promoci (přesto, že se potenciálně jedná o tvar morfologicky víceznačný) morfologickou značku NNFS6—–A—–, která o něm říká, že se jedná o

 • substantivum (=N)
 • běžné substantivum (=N)
 • femininum, tedy ženského rodu (=F)
 • singulár, tedy jednotné číslo (=S)
 • v šestém pádě, tedy lokálu (=6)

Tagset

Soubor pravidel a hodnot, které se můžou vyskytovat v tagu, se nazývá tagset. Poziční tagset užívaný v českých korpusech ČNK (v korpusu SYN2020 používáme tagset jiný) má 16 pozic, každá z nich nese informaci o jiné gramatické kategorii:

 1. Slovní druh
 2. Detailní určení slovního druhu
 3. Jmenný rod
 4. Číslo
 5. Pád
 6. Přivlastňovací rod
 7. Přivlastňovací číslo
 8. Osoba
 9. Čas
 10. Stupeň
 11. Negace
 12. Aktivum/pasívum
 13. Nepoužito
 14. Nepoužito
 15. Varianta, stylový příznak apod.
 16. Vid

Tagsety používané v paralelním korpusu InterCorp

Tagsety pro různé jazyky se různí. Jejich přehled naleznete zde.

Související odkazy