Rozdíly anotace korpusu ORTOFON v3 ve vertikále a KonTextu

Rozdíly anotace korpusu ORTOFON v3 ve vertikále a KonTextu

Tokenizace

Tokenizace vychází z ortografických slov (tzn. z ortografické roviny), přízvukové takty (zvuková slova) se obalují strukturou <pw>.

Když odpovídá několika ortografickým slovům jedno zvukové, rozděluje se na svislicích na zvláštní tokeny.

Původní ort	Původní fon	Vertikála/KonText
`ještě jsem jim`	`ešťe\|sem\|jim`	`<pw> ještě ešťe jsem sem jim jim </pw>`

(Když odpovídá jednomu ortografickému slovu několik zvukových, zůstávají jako jeden token oddělena rovnítky =; v tom případě je v jedné struktuře <pw> nutně více přízvukových taktů.)

Původní ort	Původní fon	Vertikála/KonText
`sedmatřicet`	`sedəma=třicet`	`<pw> sedmatřicet sedəma=třicet </pw>`

Křížky

Křížky # (na ortografické rovině) se mažou. Agregáty jsou tokenizovány a anotovány v souladu se standardem korpusu SYN2020.

Otazníky

Otazníky ? se doplňují podle ortografické roviny i na fonetickou.

Struktury na rovině ort a fon

Překryvy

Hranaté závorky [] se nahrazují strukturou <overlap>.

Nesrozumitelné úseky

Kulaté závorky () se nahrazují strukturou <unclear> a počet nesrozumitelných slov odpovídajícím množstvím vlnovek ~ jako samostatných tokenů.

Zdůraznění

(Složené závorky {} zůstávají, protože může být zdůrazněna i jen část tokenu.)

Metajazykové informace

Špičaté závorky <> se nahrazují strukturou <para> a značka atributem type s popisem plnými slovy:

Značka	Popis
`CP`	`cizojazyčný projev`
`CT`	`čtený text`
`HR`	`záměrné zkomolení (jazyková hra)`
`IM`	`imitace`
`KR`	`s křikem`
`NH`	`nahlas`
`PL`	`s pláčem`
`PP`	`s plnou pusou`
`PR`	`přeřeknutí`
`PT`	`potichu`
`PZ`	`s povzdechem`
`RC`	`recitováno`
`RL`	`rychle`
`SB`	`slabikováno`
`SM`	`se smíchem`
`SP`	`šeptem`
`ZP`	`zpíváno`
`ZV`	`se zíváním`
`MZ`	`mluví ke zvířeti`
`HL`	`hlášení`
`JO`	`jiná osoba`
`1JO`, …	`jiná osoba č. 1`, …
`JO5`, …	`jiná osoba (dítě, věk 5 let)`

Jestliže je více informací pohromadě, místo podtržítek _ se oddělují svislicemi |.

Metajazykové informace na rovině meta

Poznámka dlouhá pauza se nahrazuje třemi tečkami …, ostatní se jen obalují kulatými závorkami; všechny poznámky (tzn. i několikaslovné) jsou jeden token.

Table of Contents