Tokenizace vychází z ortografických slov (tzn. z ortografické roviny), přízvukové takty (zvuková slova) se obalují strukturou <pw>
.
Když odpovídá několika ortografickým slovům jedno zvukové, rozděluje se na svislicích na zvláštní tokeny.
Původní ort | Původní fon | Vertikála/KonText |
---|---|---|
ještě jsem jim | ešťe|sem|jim | <pw> |
(Když odpovídá jednomu ortografickému slovu několik zvukových, zůstávají jako jeden token oddělena rovnítky =
; v tom případě je v jedné struktuře <pw>
nutně více přízvukových taktů.)
Původní ort | Původní fon | Vertikála/KonText |
---|---|---|
sedmatřicet | sedəma=třicet | <pw> |
Křížky #
(na ortografické rovině) se mažou. Agregáty jsou tokenizovány a anotovány v souladu se standardem korpusu SYN2020.
Otazníky ?
se doplňují podle ortografické roviny i na fonetickou.
Hranaté závorky []
se nahrazují strukturou <overlap>
.
Kulaté závorky ()
se nahrazují strukturou <unclear>
a počet nesrozumitelných slov odpovídajícím množstvím vlnovek ~
jako samostatných tokenů.
(Složené závorky {}
zůstávají, protože může být zdůrazněna i jen část tokenu.)
Špičaté závorky <>
se nahrazují strukturou <para>
a značka atributem type
s popisem plnými slovy:
Značka | Popis |
---|---|
CP | cizojazyčný projev |
CT | čtený text |
HR | záměrné zkomolení (jazyková hra) |
IM | imitace |
KR | s křikem |
NH | nahlas |
PL | s pláčem |
PP | s plnou pusou |
PR | přeřeknutí |
PT | potichu |
PZ | s povzdechem |
RC | recitováno |
RL | rychle |
SB | slabikováno |
SM | se smíchem |
SP | šeptem |
ZP | zpíváno |
ZV | se zíváním |
MZ | mluví ke zvířeti |
HL | hlášení |
JO | jiná osoba |
1JO , … | jiná osoba č. 1 , … |
JO5 , … | jiná osoba (dítě, věk 5 let) |
Jestliže je více informací pohromadě, místo podtržítek _
se oddělují svislicemi |
.
Poznámka dlouhá pauza
se nahrazuje třemi tečkami …
, ostatní se jen obalují kulatými závorkami; všechny poznámky (tzn. i několikaslovné) jsou jeden token.