AplikaceAplikace
Nastavení

Token

Token je nejmenší jednotka textu, většinou se jedná o grafické slovo (tj. řetězec alfabetických znaků oddělený mezerou v textu), resp. o jednu jeho konkrétní realizaci. V některých případech je jedno grafické slovo rozděleno na dvě (např. mohu -li), často je také z praktických důvodů (pro snadné vyhledávání) oddělována interpunkce od předcházejícího slova (3 tokeny: řekl , že). O jednotlivých tokenech v korpusu se také mluví jako o pozicích.

Velikost korpusu se udává v tokenech nebo také v textových či grafických slovech. Rozčlenění textu na tokeny je výsledkem procesu tokenizace. Tokenizace numerických a interpunkčních znaků je v korpusech řešena různě, podrobně je popsána na příkladu korpusu SYN2020 na této stránce.

V opozici k tokenům se vyděluje jako vyšší rovina abstrakce typ (anglicky type).

Související odkazy