====== Token ====== Token je nejmenší jednotka textu, většinou se jedná o grafické slovo (tj. řetězec alfabetických znaků oddělený mezerou v textu), resp. o jednu jeho konkrétní realizaci. V některých případech je jedno grafické slovo rozděleno na dvě (např. //mohu -li//), často je také z praktických důvodů (pro snadné vyhledávání) oddělována interpunkce od předcházejícího slova (3 tokeny: //řekl , že//). O jednotlivých tokenech v korpusu se také mluví jako o [[pojmy:pozice|pozicích]]. Velikost korpusu se udává v tokenech nebo také v textových či grafických slovech. Rozčlenění textu na tokeny je výsledkem procesu **tokenizace**. Tokenizace numerických a interpunkčních znaků je v korpusech řešena různě, podrobně je popsána na příkladu korpusu SYN2020 [[cnk:syn2020:tokenizace|na této stránce]]. V opozici k tokenům se vyděluje jako vyšší rovina abstrakce [[pojmy:typ|typ]] (anglicky //type//). ==== Související odkazy ==== [[pojmy:heaps|Heapsův zákon]] • [[pojmy:zipf|Zipfovy zákony]] • [[pojmy:pozice|Textová pozice]] • [[pojmy:segmentace|Segmentace]]