Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- wiki:user:vhorky:ortofon [2024/10/01 15:04] – vhorky
+++ wiki:user:vhorky:ortofon [2024/10/01 16:11] (aktuální) – stará verze byla obnovena (2024/10/01 14:57) vhorky
@@ Řádek 1: / Řádek 1: @@
-==== Ortografická rovina ====
+====== Rozdíly anotace korpusu ORTOFON v3 ve vertikále a KonTextu ======
-<fc #ff0000>**Pod první tabulku:**</fc>
+===== Tokenizace =====
-Když odpovídá jednomu ortografickému slovu několik zvukových a hranicím mezi nimi spojovníky, rozděluje se na nich ortografické slovo na zvláštní tokeny, aby se omezilo používání rovnítek ''='' na fonetické rovině (viz dále), např. místo ''Rakousko-Uhersko'' jsou dva tokeny ''Rakousko Uhersko'' (ale např. ''e-mail'' zůstává). V ostatních případech se řídí hranice slov PČP.((Arci vyjímajíc ty, kde ne a kde jsme se vybodli na to to nějak řešit.))
-<fc #ff0000>**Na konec stránky:**</fc>
-==== Rozdíly ve vertikále a KonTextu ====
-=== Tokenizace ===
 Tokenizace vychází z ortografických slov (tzn. z ortografické roviny), přízvukové takty (zvuková slova) se obalují strukturou ''<pw>''.
@@ Řádek 16: / Řádek 7: @@
 Když odpovídá několika ortografickým slovům jedno zvukové, rozděluje se na svislicích na zvláštní tokeny.
-^ Ortografická rovina ^ Fonetická rovina ^ Vertikála/KonText ^
+^ Původní ort ^ Původní fon ^ Vertikála/KonText ^
 | ''ještě jsem jim'' | ''ešťe|sem|jim'' | ''<pw> \\
 ještě   ešťe \\
@@ Řádek 25: / Řádek 16: @@
 (Když odpovídá jednomu ortografickému slovu několik zvukových, zůstávají jako jeden token oddělena rovnítky ''=''; v tom případě je v jedné struktuře ''<pw>'' nutně více přízvukových taktů.)
-^ Ortografická rovina ^ Fonetická rovina ^ Vertikála/KonText ^
+^ Původní ort ^ Původní fon ^ Vertikála/KonText ^
 | ''sedmatřicet'' | ''sedəma=třicet'' | ''<pw> \\
 sedmatřicet sedəma=třicet \\
@@ Řádek 31: / Řádek 22: @@
-=== Křížky ===
+===== Křížky =====
-Křížky ''#'' (na ortografické rovině) se mažou.
+Křížky ''#'' (na ortografické rovině) se mažou. [[pojmy:agregát|Agregáty]] jsou tokenizovány a anotovány v souladu se standardem korpusu [[cnk:syn2020|SYN2020]].
-=== Otazníky ===
+===== Otazníky =====
 Otazníky ''?'' se doplňují podle ortografické roviny i na fonetickou.
-=== Struktury na rovině ort a fon ===
+===== Struktury na rovině ort a fon =====
-== Překryvy ==
+==== Překryvy ====
 Hranaté závorky ''[]'' se nahrazují strukturou ''<overlap>''.
-== Nesrozumitelné úseky ==
+==== Nesrozumitelné úseky ====
 Kulaté závorky ''()'' se nahrazují strukturou ''<unclear>'' a počet nesrozumitelných slov odpovídajícím množstvím vlnovek ''~'' jako samostatných tokenů.
-== Zdůraznění ==
+==== Zdůraznění ====
 (Složené závorky ''{}'' zůstávají, protože může být zdůrazněna i jen část tokenu.)
-== Metajazykové informace ==
+==== Metajazykové informace ====
 Špičaté závorky ''<>'' se nahrazují strukturou ''<para>'' a značka atributem ''type'' s popisem plnými slovy:
@@ Řádek 84: / Řádek 75: @@
 Jestliže je více informací pohromadě, místo podtržítek ''_'' se oddělují svislicemi ''|''.
-=== Metajazykové informace na rovině meta ===
+===== Metajazykové informace na rovině meta =====
 Poznámka ''dlouhá pauza'' se nahrazuje třemi tečkami ''...'', ostatní se jen obalují kulatými závorkami; všechny poznámky (tzn. i několikaslovné) jsou jeden token.

Historie: • navigation_en

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence