Nastavení

Slovní tvar (word)

Slovní tvar (v korpusové terminologii běžně označovaný jako word) je jednotka, která si zachovává svoji morfologickou (a příp. i pravopisnou) specifičnost. Svojí obecností je mezi tokenem a lemmatem.

Zatímco token je jedna konkrétní realizace jednotky, slovní tvar je jednotka typizovaná, jedná se o typ. Např. slovní tvar chceme může mít velmi mnoho různých realizací (tokenů); v korpusu SYN2010 je jich 5627.

Vedle toho lemma je jednotka o úroveň abstrakce výš, protože odhlíží od morfologických a pravopisných charakteristik. Slovní tvary chtít, chceme, chtěl, chtíti mají stejné lemma chtít. Ve většině přístupů se navíc na úrovni slovních tvarů rozlišuje i velikost písmen (formy chce, Chce a CHCE jsou považovány za různé slovní tvary). Na rozdíl od lemmatu, které je možné chápat jako množinu tvarů, je tedy word jen jediný tvar daného slova.

Související odkazy