AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
wiki:user:vhorky:ortofon [2024/10/01 15:04] vhorkywiki:user:vhorky:ortofon [2024/10/01 16:11] (aktuální) – stará verze byla obnovena (2024/10/01 14:57) vhorky
Řádek 1: Řádek 1:
-==== Ortografická rovina ====+====== Rozdíly anotace korpusu ORTOFON v3 ve vertikále a KonTextu ======
  
-<fc #ff0000>**Pod první tabulku:**</fc> +===== Tokenizace =====
- +
-Když odpovídá jednomu ortografickému slovu několik zvukových a hranicím mezi nimi spojovníky, rozděluje se na nich ortografické slovo na zvláštní tokeny, aby se omezilo používání rovnítek ''='' na fonetické rovině (viz dále), např. místo ''Rakousko-Uhersko'' jsou dva tokeny ''Rakousko Uhersko'' (ale např. ''e-mail'' zůstává). V ostatních případech se řídí hranice slov PČP.((Arci vyjímajíc ty, kde ne a kde jsme se vybodli na to to nějak řešit.)) +
- +
- +
-<fc #ff0000>**Na konec stránky:**</fc> +
- +
-==== Rozdíly ve vertikále a KonTextu ==== +
- +
-=== Tokenizace ===+
  
 Tokenizace vychází z ortografických slov (tzn. z ortografické roviny), přízvukové takty (zvuková slova) se obalují strukturou ''<pw>''. Tokenizace vychází z ortografických slov (tzn. z ortografické roviny), přízvukové takty (zvuková slova) se obalují strukturou ''<pw>''.
Řádek 16: Řádek 7:
 Když odpovídá několika ortografickým slovům jedno zvukové, rozděluje se na svislicích na zvláštní tokeny. Když odpovídá několika ortografickým slovům jedno zvukové, rozděluje se na svislicích na zvláštní tokeny.
  
-Ortografická rovina Fonetická rovina ^ Vertikála/KonText ^+Původní ort Původní fon ^ Vertikála/KonText ^
 | ''ještě jsem jim'' | ''ešťe|sem|jim'' | ''<pw> \\ | ''ještě jsem jim'' | ''ešťe|sem|jim'' | ''<pw> \\
 ještě   ešťe \\ ještě   ešťe \\
Řádek 25: Řádek 16:
 (Když odpovídá jednomu ortografickému slovu několik zvukových, zůstávají jako jeden token oddělena rovnítky ''=''; v tom případě je v jedné struktuře ''<pw>'' nutně více přízvukových taktů.) (Když odpovídá jednomu ortografickému slovu několik zvukových, zůstávají jako jeden token oddělena rovnítky ''=''; v tom případě je v jedné struktuře ''<pw>'' nutně více přízvukových taktů.)
  
-Ortografická rovina Fonetická rovina ^ Vertikála/KonText ^+Původní ort Původní fon ^ Vertikála/KonText ^
 | ''sedmatřicet'' | ''sedəma=třicet'' | ''<pw> \\ | ''sedmatřicet'' | ''sedəma=třicet'' | ''<pw> \\
 sedmatřicet sedəma=třicet \\ sedmatřicet sedəma=třicet \\
Řádek 31: Řádek 22:
  
  
-=== Křížky ===+===== Křížky =====
  
-Křížky ''#'' (na ortografické rovině) se mažou.+Křížky ''#'' (na ortografické rovině) se mažou. [[pojmy:agregát|Agregáty]] jsou tokenizovány a anotovány v souladu se standardem korpusu [[cnk:syn2020|SYN2020]].
  
-=== Otazníky ===+===== Otazníky =====
  
 Otazníky ''?'' se doplňují podle ortografické roviny i na fonetickou. Otazníky ''?'' se doplňují podle ortografické roviny i na fonetickou.
  
-=== Struktury na rovině ort a fon ===+===== Struktury na rovině ort a fon =====
  
-== Překryvy ==+==== Překryvy ====
  
 Hranaté závorky ''[]'' se nahrazují strukturou ''<overlap>''. Hranaté závorky ''[]'' se nahrazují strukturou ''<overlap>''.
  
-== Nesrozumitelné úseky ==+==== Nesrozumitelné úseky ====
  
 Kulaté závorky ''()'' se nahrazují strukturou ''<unclear>'' a počet nesrozumitelných slov odpovídajícím množstvím vlnovek ''~'' jako samostatných tokenů. Kulaté závorky ''()'' se nahrazují strukturou ''<unclear>'' a počet nesrozumitelných slov odpovídajícím množstvím vlnovek ''~'' jako samostatných tokenů.
  
-== Zdůraznění ==+==== Zdůraznění ====
  
 (Složené závorky ''{}'' zůstávají, protože může být zdůrazněna i jen část tokenu.) (Složené závorky ''{}'' zůstávají, protože může být zdůrazněna i jen část tokenu.)
  
-== Metajazykové informace ==+==== Metajazykové informace ====
  
 Špičaté závorky ''<>'' se nahrazují strukturou ''<para>'' a značka atributem ''type'' s popisem plnými slovy: Špičaté závorky ''<>'' se nahrazují strukturou ''<para>'' a značka atributem ''type'' s popisem plnými slovy:
Řádek 84: Řádek 75:
 Jestliže je více informací pohromadě, místo podtržítek ''_'' se oddělují svislicemi ''|''. Jestliže je více informací pohromadě, místo podtržítek ''_'' se oddělují svislicemi ''|''.
  
-=== Metajazykové informace na rovině meta ===+===== Metajazykové informace na rovině meta =====
  
 Poznámka ''dlouhá pauza'' se nahrazuje třemi tečkami ''...'', ostatní se jen obalují kulatými závorkami; všechny poznámky (tzn. i několikaslovné) jsou jeden token. Poznámka ''dlouhá pauza'' se nahrazuje třemi tečkami ''...'', ostatní se jen obalují kulatými závorkami; všechny poznámky (tzn. i několikaslovné) jsou jeden token.