Toto je starší verze dokumentu!
Typ (type)
Z hlediska korpusové lingvistiky je typ/type jednotka abstrakce, tokenem se míní vždy konkrétní realizace jednotky (konkrétní výskyt formy) v určitém kontextu; typ je jednotka dekontextualizovaná, která je schopna nabývat takových vlastností, jako je frekvence. Zatímco velikost korpusu je udávána v počtu tokenů (označuje se většinou jako N), počet typů značí množství různých jednotek v korpusu (označuje se většinou V = vocabulary). Typ může být v podstatě libovolná jednotka, nejčastěji se ovšem v této souvislosti uvažuje o slovním tvaru nebo lemmatu.
Poměr počtu typů a tokenů
TTR (token-type ratio) je poměr počtu různých slov (typů) k celkovému počtu všech slov v korpusu (někdy vyjádřený v procentech). Pokud je poměr vysoký, můžeme mluvit o textu s velkou lexikální bohatostí (užívá mnoho různých jednotek), malý poměr značí velkou míru opakování.
Token-type jako ukazatel je silně vázaný na celkovou velikost korpusu, je proto jen obtížně využitelný jako obecný referenční ukazatel. Čím delší text máme k dispozici, tím větší je poměr mezi tokeny a typy (ačkoli vztah není lineární, viz Heapsův zákon).