Toto je starší verze dokumentu!
Slovní tvar (word)
Slovní tvar (v korpusové terminologii běžně označovaný jako word) je jednotka, která si zachovává svoji morfologickou (a příp. i pravopisnou) specifičnost. Svojí obecností je mezi tokenem a lemmatem.
Zatímco token je jedna konkrétní realizace jednotky, slovní tvar je jednotka typizovaná, jedná se o typ. Např. slovní tvar chceme může mít velmi mnoho různých realizací (tokenů); v korpusu SYN2010 je jich 5627.
Vedle toho lemma, je jednotka o úroveň abstrakce výš, protože odhlíží od morfologických a pravopisných charakteristik. Slovní tvary chtít, chceme, chtěl, chtíti mají stejné lemma chtít. Ve většině přístupů se navíc na úrovni slovních tvarů rozlišuje i velikost písmen (formy chce, Chce a CHCE jsou považovány za různé slovní tvary).