Nastavení

This is an old revision of the document!


Word form (word)

A word form (known as a word in corpus terminology) is a unit which remains morphologically (and possibly also orthographically) specific. With its generality it stands between a token and a lemma.

While a token is one specific realization of a given unit, a word form is a standardized unit; a type. E.g. the word form chceme can have a great number of different realizations(tokens); in the SYN2010 corpus it is 5627.

Alemma is a unit on yet a higher level of abstraction, protože odhlíží od morfologických a pravopisných charakteristik. Slovní tvary chtít, chceme, chtěl, chtíti mají stejné lemma chtít. Ve většině přístupů se navíc na úrovni slovních tvarů rozlišuje i velikost písmen (formy chce, Chce a CHCE jsou považovány za různé slovní tvary). Na rozdíl od lemmatu, které je možné chápat jako množinu tvarů, je tedy word jen jediný tvar daného slova.