====== Rozdíly anotace korpusu ORTOFON v3 ve vertikále a KonTextu ======

Při převodu přepisů z formátu pro transkripční program [[https://tla.mpi.nl/tools/tla-tools/elan/|ELAN]] do formátu pro [[https://wiki.korpus.cz/doku.php/manualy:kontext:index|KonText]] došlo k úpravě některých aspektů [[https://wiki.korpus.cz/doku.php/cnk:ortofon:pravidla|transkripce]] s ohledem na technické požadavky rozhraní a usnadnění vyhledávání. Tato stránka obsahuje souhrn všech těchto rozdílů.

===== Tokenizace =====

Tokenizace vychází z ortografických slov (tzn. z ortografické roviny), přízvukové takty (zvuková slova) se obalují strukturou ''<pw>''.

Když odpovídá několika ortografickým slovům jedno zvukové, rozděluje se na svislicích na zvláštní tokeny.

^ Původní ort ^ Původní fon ^ Vertikála/KonText ^
| ''ještě jsem jim'' | ''ešťe|sem|jim'' | ''<pw> \\
ještě   ešťe \\
jsem    sem \\
jim jim \\
</pw>'' |

(Když odpovídá jednomu ortografickému slovu několik zvukových, zůstávají jako jeden token oddělena rovnítky ''=''; v tom případě je v jedné struktuře ''<pw>'' nutně více přízvukových taktů.)

^ Původní ort ^ Původní fon ^ Vertikála/KonText ^
| ''sedmatřicet'' | ''sedəma=třicet'' | ''<pw> \\
sedmatřicet sedəma=třicet \\
</pw>'' |


===== Křížky =====

Křížky ''#'' (na ortografické rovině) se mažou. [[pojmy:agregát|Agregáty]] jsou tokenizovány a anotovány v souladu se standardem korpusu [[cnk:syn2020|SYN2020]].

===== Otazníky =====

Otazníky ''?'' se doplňují podle ortografické roviny i na fonetickou.

===== Struktury na rovině ort a fon =====

==== Překryvy ====

Hranaté závorky ''[]'' se nahrazují strukturou ''<overlap>''.

==== Nesrozumitelné úseky ====

Kulaté závorky ''()'' se nahrazují strukturou ''<unclear>'' a počet nesrozumitelných slov odpovídajícím množstvím vlnovek ''~'' jako samostatných tokenů.

==== Zdůraznění ====

(Složené závorky ''{}'' zůstávají, protože může být zdůrazněna i jen část tokenu.)

==== Metajazykové informace ====

Špičaté závorky ''<>'' se nahrazují strukturou ''<para>'' a značka atributem ''type'' s popisem plnými slovy:

^ Značka ^ Popis ^
| ''CP'' | ''cizojazyčný projev'' |
| ''CT'' | ''čtený text'' |
| ''HR'' | ''záměrné zkomolení (jazyková hra)'' |
| ''IM'' | ''imitace'' |
| ''KR'' | ''s křikem'' |
| ''NH'' | ''nahlas'' |
| ''PL'' | ''s pláčem'' |
| ''PP'' | ''s plnou pusou'' |
| ''PR'' | ''přeřeknutí'' |
| ''PT'' | ''potichu'' |
| ''PZ'' | ''s povzdechem'' |
| ''RC'' | ''recitováno'' |
| ''RL'' | ''rychle'' |
| ''SB'' | ''slabikováno'' |
| ''SM'' | ''se smíchem'' |
| ''SP'' | ''šeptem'' |
| ''ZP'' | ''zpíváno'' |
| ''ZV'' | ''se zíváním'' |
| ''MZ'' | ''mluví ke zvířeti'' |
| ''HL'' | ''hlášení'' |
| ''JO'' | ''jiná osoba'' |
| ''1JO'', ... | ''jiná osoba č. 1'', ... |
| ''JO5'', ... | ''jiná osoba (dítě, věk 5 let)'' |

Jestliže je více informací pohromadě, místo podtržítek ''_'' se oddělují svislicemi ''|''.

===== Metajazykové informace na rovině meta =====

Poznámka ''dlouhá pauza'' se nahrazuje třemi tečkami ''...'', ostatní se jen obalují kulatými závorkami; všechny poznámky (tzn. i několikaslovné) jsou jeden token.