Toto je starší verze dokumentu!
Obsah
Morfologická značka (tag)
Morfologická značka (běžně nazývaná tag) je sumarizací gramatické informace o hledaném slovu (pozici) v konkrétním kontextu. Tag vzniká většinou automaticky na základě morfologické analýzy a následné desambiguace.
Tagy jsou poziční atributy. Morfologická značka v českých korpusech ČNK je tvořena sekvencí značek (písmen a čísel), které mají specifický význam podle toho, na jaké pozici v kódu stojí. Ve větě Po promoci na londýnské universitě odjel jsem roku 1878 do Netley na školení vojenských chirurgů. má tvar promoci (přesto, že se potenciálně jedná o tvar morfologicky víceznačný) morfologickou značku NNFS6—–A—–
, která o něm říká, že se jedná o
- substantivum (=N)
- běžné substantivum (=N)
- femininum, tedy ženského rodu (=F)
- singulár, tedy jednotné číslo (=S)
- v šestém pádě, tedy lokálu (=6)
Tagset
Soubor pravidel a hodnot, které se můžou vyskytovat v tagu se nazývá tagset. Poziční tagset užívaný v českých korpusech ČNK (v korpusu SYN2020 používáme tagset jiný) má 16 pozic, každá z nich nese informaci o jiné gramatické kategorii:
- Slovní druh
- Detailní určení slovního druhu
- Jmenný rod
- Číslo
- Pád
- Přivlastňovací rod
- Přivlastňovací číslo
- Osoba
- Čas
- Stupeň
- Negace
- Aktivum/pasívum
- Nepoužito
- Nepoužito
- Varianta, stylový příznak apod.
- Vid
Tagsety používané v paralelním korpusu InterCorp
Tagsety pro různé jazyky se různí. Jejich přehled naleznete zde.