====== Rozdíly anotace korpusu ORTOFON v3 ve vertikále a KonTextu ====== ===== Tokenizace ===== Tokenizace vychází z ortografických slov (tzn. z ortografické roviny), přízvukové takty (zvuková slova) se obalují strukturou ''''. Když odpovídá několika ortografickým slovům jedno zvukové, rozděluje se na svislicích na zvláštní tokeny. ^ Původní ort ^ Původní fon ^ Vertikála/KonText ^ | ''ještě jsem jim'' | ''ešťe|sem|jim'' | '' \\ ještě ešťe \\ jsem sem \\ jim jim \\ '' | (Když odpovídá jednomu ortografickému slovu několik zvukových, zůstávají jako jeden token oddělena rovnítky ''=''; v tom případě je v jedné struktuře '''' nutně více přízvukových taktů.) ^ Původní ort ^ Původní fon ^ Vertikála/KonText ^ | ''sedmatřicet'' | ''sedəma=třicet'' | '' \\ sedmatřicet sedəma=třicet \\ '' | ===== Křížky ===== Křížky ''#'' (na ortografické rovině) se mažou. [[pojmy:agregát|Agregáty]] jsou tokenizovány a anotovány v souladu se standardem korpusu [[cnk:syn2020|SYN2020]]. ===== Otazníky ===== Otazníky ''?'' se doplňují podle ortografické roviny i na fonetickou. ===== Struktury na rovině ort a fon ===== ==== Překryvy ==== Hranaté závorky ''[]'' se nahrazují strukturou ''''. ==== Nesrozumitelné úseky ==== Kulaté závorky ''()'' se nahrazují strukturou '''' a počet nesrozumitelných slov odpovídajícím množstvím vlnovek ''~'' jako samostatných tokenů. ==== Zdůraznění ==== (Složené závorky ''{}'' zůstávají, protože může být zdůrazněna i jen část tokenu.) ==== Metajazykové informace ==== Špičaté závorky ''<>'' se nahrazují strukturou '''' a značka atributem ''type'' s popisem plnými slovy: ^ Značka ^ Popis ^ | ''CP'' | ''cizojazyčný projev'' | | ''CT'' | ''čtený text'' | | ''HR'' | ''záměrné zkomolení (jazyková hra)'' | | ''IM'' | ''imitace'' | | ''KR'' | ''s křikem'' | | ''NH'' | ''nahlas'' | | ''PL'' | ''s pláčem'' | | ''PP'' | ''s plnou pusou'' | | ''PR'' | ''přeřeknutí'' | | ''PT'' | ''potichu'' | | ''PZ'' | ''s povzdechem'' | | ''RC'' | ''recitováno'' | | ''RL'' | ''rychle'' | | ''SB'' | ''slabikováno'' | | ''SM'' | ''se smíchem'' | | ''SP'' | ''šeptem'' | | ''ZP'' | ''zpíváno'' | | ''ZV'' | ''se zíváním'' | | ''MZ'' | ''mluví ke zvířeti'' | | ''HL'' | ''hlášení'' | | ''JO'' | ''jiná osoba'' | | ''1JO'', ... | ''jiná osoba č. 1'', ... | | ''JO5'', ... | ''jiná osoba (dítě, věk 5 let)'' | Jestliže je více informací pohromadě, místo podtržítek ''_'' se oddělují svislicemi ''|''. ===== Metajazykové informace na rovině meta ===== Poznámka ''dlouhá pauza'' se nahrazuje třemi tečkami ''...'', ostatní se jen obalují kulatými závorkami; všechny poznámky (tzn. i několikaslovné) jsou jeden token.