AplikaceAplikace
Nastavení

Rozdíly anotace korpusu ORTOFON v3 ve vertikále a KonTextu

Tokenizace

Tokenizace vychází z ortografických slov (tzn. z ortografické roviny), přízvukové takty (zvuková slova) se obalují strukturou <pw>.

Když odpovídá několika ortografickým slovům jedno zvukové, rozděluje se na svislicích na zvláštní tokeny.

Původní ort Původní fon Vertikála/KonText
ještě jsem jim ešťe|sem|jim <pw>
ještě ešťe
jsem sem
jim jim
</pw>

(Když odpovídá jednomu ortografickému slovu několik zvukových, zůstávají jako jeden token oddělena rovnítky =; v tom případě je v jedné struktuře <pw> nutně více přízvukových taktů.)

Původní ort Původní fon Vertikála/KonText
sedmatřicet sedəma=třicet <pw>
sedmatřicet sedəma=třicet
</pw>

Křížky

Křížky # (na ortografické rovině) se mažou. Agregáty jsou tokenizovány a anotovány v souladu se standardem korpusu SYN2020.

Otazníky

Otazníky ? se doplňují podle ortografické roviny i na fonetickou.

Struktury na rovině ort a fon

Překryvy

Hranaté závorky [] se nahrazují strukturou <overlap>.

Nesrozumitelné úseky

Kulaté závorky () se nahrazují strukturou <unclear> a počet nesrozumitelných slov odpovídajícím množstvím vlnovek ~ jako samostatných tokenů.

Zdůraznění

(Složené závorky {} zůstávají, protože může být zdůrazněna i jen část tokenu.)

Metajazykové informace

Špičaté závorky <> se nahrazují strukturou <para> a značka atributem type s popisem plnými slovy:

Značka Popis
CP cizojazyčný projev
CT čtený text
HR záměrné zkomolení (jazyková hra)
IM imitace
KR s křikem
NH nahlas
PL s pláčem
PP s plnou pusou
PR přeřeknutí
PT potichu
PZ s povzdechem
RC recitováno
RL rychle
SB slabikováno
SM se smíchem
SP šeptem
ZP zpíváno
ZV se zíváním
MZ mluví ke zvířeti
HL hlášení
JO jiná osoba
1JO, … jiná osoba č. 1, …
JO5, … jiná osoba (dítě, věk 5 let)

Jestliže je více informací pohromadě, místo podtržítek _ se oddělují svislicemi |.

Metajazykové informace na rovině meta

Poznámka dlouhá pauza se nahrazuje třemi tečkami , ostatní se jen obalují kulatými závorkami; všechny poznámky (tzn. i několikaslovné) jsou jeden token.