Numerické a interpunkční znaky jsou systematicky oddělovány jako samostatné tokeny, pohromadě však zůstávají některé kombinace znaků podle předem vymezených pravidel a seznamů slov:
Spojovníky (příp. pomlčky na jejich místě) se tokenizují dohromady s okolním textem:
Ostatní případy psaní spojovníku jsou tokenizovány zvlášť (Rakousko - Uhersko, Jean - Philippe, Kvitová - Muchová, ne - člověk).
Apostrofy (v libovolném způsobu záznamu) se tokenizují dohromady, pokud se vyskytují mezi alfabetickými znaky (rock’n’roll, Lao’c, McDonald’s), na jejich hranici se naopak oddělují (moh ’).
Hvězdičky se tokenizují dohromady v řadě alfabetických znaků, která je potenciálním tabuovým slovem (nas*anej, f***ing).
Numerické znaky se tokenizují dohromady:
Ostatní případy jsou tokenizovány rozděleně (6 W, 40 km, 1 h)
Řady interpunkčních znaků se tokenizují dohromady:
Oproti minulosti se tak zvlášť tokenizují i tečky, které se nevyskytují na konci věty, tj. tečky za zkratkami (2 tokeny: nám .), iniciálami (2 tokeny: J .) nebo číslicemi (2 tokeny: 12 .). Pro identifikaci tohoto typu teček byla vytvořena na druhé pozici v tagu zvláštní hodnota 0. Tuto hodnotu 0 mají v tagu také dvojtečky mezi číslicemi (16 : 30), vykřičníky, které jsou součástí názvu (Aha !), a všechny spojovníky, které byly ve zdrojovém textu psány dohromady (Rakousko - Uhersko, bude - li).