Tokenizace vychází z ortografických slov (tzn. z ortografické roviny), přízvukové takty (zvuková slova) se obalují strukturou <pw>.
Když odpovídá několika ortografickým slovům jedno zvukové, rozděluje se na svislicích na zvláštní tokeny.
| Původní ort | Původní fon | Vertikála/KonText |
|---|---|---|
ještě jsem jim | ešťe|sem|jim | <pw> |
(Když odpovídá jednomu ortografickému slovu několik zvukových, zůstávají jako jeden token oddělena rovnítky =; v tom případě je v jedné struktuře <pw> nutně více přízvukových taktů.)
| Původní ort | Původní fon | Vertikála/KonText |
|---|---|---|
sedmatřicet | sedəma=třicet | <pw> |
Křížky # (na ortografické rovině) se mažou. Agregáty jsou tokenizovány a anotovány v souladu se standardem korpusu SYN2020.
Otazníky ? se doplňují podle ortografické roviny i na fonetickou.
Hranaté závorky [] se nahrazují strukturou <overlap>.
Kulaté závorky () se nahrazují strukturou <unclear> a počet nesrozumitelných slov odpovídajícím množstvím vlnovek ~ jako samostatných tokenů.
(Složené závorky {} zůstávají, protože může být zdůrazněna i jen část tokenu.)
Špičaté závorky <> se nahrazují strukturou <para> a značka atributem type s popisem plnými slovy:
| Značka | Popis |
|---|---|
CP | cizojazyčný projev |
CT | čtený text |
HR | záměrné zkomolení (jazyková hra) |
IM | imitace |
KR | s křikem |
NH | nahlas |
PL | s pláčem |
PP | s plnou pusou |
PR | přeřeknutí |
PT | potichu |
PZ | s povzdechem |
RC | recitováno |
RL | rychle |
SB | slabikováno |
SM | se smíchem |
SP | šeptem |
ZP | zpíváno |
ZV | se zíváním |
MZ | mluví ke zvířeti |
HL | hlášení |
JO | jiná osoba |
1JO, … | jiná osoba č. 1, … |
JO5, … | jiná osoba (dítě, věk 5 let) |
Jestliže je více informací pohromadě, místo podtržítek _ se oddělují svislicemi |.
Poznámka dlouhá pauza se nahrazuje třemi tečkami …, ostatní se jen obalují kulatými závorkami; všechny poznámky (tzn. i několikaslovné) jsou jeden token.