====== Poziční atributy specifické pro některé mluvené korpusy ======

V některých [[cnk:struktura#korpusy_mluvene|mluvených korpusech]] se objevují kromě běžných doplňkových pozičních atributů odvozených procesem [[seznamy:tagy|morfologického značkování]] ještě některé další. Souvisejí se specifickou povahou mluvených dat.

===== Atributy fon, ort a dial =====

Tyto atributy obsahují alternativní zápisy tokenu zachyceného v primárním pozičním atributu ''word'' podle různých přepisovacích pravidel. V případě mluvených korpusů totiž zdrojová data představuje přímo zvuková nahrávka, jakýkoli přepis je již interpretace. Pro různé účely se hodí různé interpretace:

  * chceme-li přepis morfologicky značkovat, hodí se, aby byl do jisté míry **standardizovaný**, aby si s ním uměly poradit nástroje [[pojmy:morfologicka_analyza|automatické morfologické analýzy]]
  * chceme-li zkoumat specifika mluveného jazyka, hodí se mít přepis co nejvěrněji odrážející skutečně vyslovené

Některé novější mluvené korpusy ČNK si kladou za cíl plnit více těchto funkcí zároveň, a obsahují tedy několik příslušně uzpůsobených paralelních přepisů, přičemž primární vrstva pro daný korpus je vždy v atributu ''word''. Navíc mohou být k dispozici (v závislosti na korpusu) následující alternativní vrstvy:

  * ''fon'': obsahuje fonetický přepis v korpusu, kde primární vrstva ''word'' obsahuje standardizovaný přepis (např. v korpusu [[cnk:ortofon|ORTOFON]])
  * ''ort'': obsahuje standardizovaný přepis v nářečním korpusu, kde primární vrstva ''word'' obsahuje nářeční přepis
  * ''dial'': obsahuje nářeční přepis v nářečním korpusu, kde primární vrstva ''word'' obsahuje standardizovaný přepis

Nářeční korpus [[cnk:dialekt|DIALEKT]] je dostupný v obou výše popsaných variantách, odtud tedy zrcadlová existence atributů ''ort'' a ''dial''. Obě varianty jsou [[cnk:dialekt:prace|pro usnadnění práce paralelně zarovnané]].

===== Atribut uid =====

Atribut ''uid'' sdružuje [[pojmy:pozice|pozice (tokeny)]] vyslovené v rámci jedné repliky, přičemž repliku definujeme jako jeden nebo více segmentů (struktur ''<sp/>'') téhož mluvčího navazujících v těsné blízkosti za sebou. Intuitivnější než definice snad bude obrázek:

[{{ :seznamy:elan_uid_segment.png?direct&600 | Repliky (uid) a segmenty v transkripčním programu ELAN. }}]

Je patrné, že **replika** s ''uid = 2'' je rozdělena do **dvou segmentů** (2 a 4).

Motivace pro tento atribut vychází z povahy mluveného jazyka. Zatímco psané texty jsou primárně lineární, a jakákoli narušení této linearity (textové boxy, poznámky pod čarou apod.) je možné "uzávorkovat", odstranit z textu, aniž by utrpěla jeho kontinuita, mluvené texty je spíš vhodné popisovat jako **multilineární**, sestávající z více proudů řeči((A případně i dalších forem komunikace: gesta, mimika, proxemika aj.)) od různých mluvčích, které se mohou nazvájem překrývat či doplňovat, a vypuštěním jednoho z nich vznikne text neúplný.

Pro zpracování v korpusu je ovšem potřeba multilineární interakci linearizovat, přičemž může vzniknout napětí mezi sledováním linie celého rozhovoru (v obrázku výše naznačené číslováním oranžových segmentů) a linie jednotlivých mluvčích (naznačené číslováním modrých ''uid''). Korpusy mluveného jazyka ČNK upřednostňují první linii, která je věrnějším obrazem původní podoby rozhovoru (paralelně vedené segmenty se objeví těsně za sebou), nicméně ta druhá zůstává dostupná právě přes atribut ''uid''.

Ukažme si, jak by vypadala část sondy z obrázku výše převedená do podoby zjednodušené [[pojmy:struktura_korpusu|vertikály]], tj. podoby strukturně analogické výslednému korpusu. Segmenty jsou vymezené jako struktury ''<sp/>'', jejich čísla jsou uvedená v atributu ''id''. Ostatní řádky představují jednotlivé pozice, přičemž vždy uvádíme samotný token (v korpusech standardně označovaný atributem ''word'') a po několika mezerách pak ''uid'' repliky, do které náleží:

<code>
<sp id="1">
...
WORD    UID
víš     1
co      1
</sp>
<sp id="2">
si      2
vaří    2
svoje   2
jo      2
..      2
</sp>
<sp id="3">
hmm     3
hmm     3
</sp>
<sp id="4">
to      2
je      2
chyba   2
</sp>
<sp id="5">
ne      4
takže   4
...
</sp>
</code>

Všimněte si, že pozice s ''uid = 2'' netvoří souvislou oblast vertikály, jsou přerušeny pozicemi s ''uid = 3'' ze segmentu 3. Vidíme zde výše zmíněné napětí mezi dvěma způsoby linearizace v praxi: neexistuje způsob, jak segmenty za sebe poskládat tak, aby obě sekvence čísel ''id'' i ''uid'' byly **zároveň** monotonně neklesající.

Využití ''uid'' pro vyhledávání je bohužel poněkud krkolomné, nicméně ne nemožné. Vyžaduje znalost tzv. [[https://www.sketchengine.co.uk/documentation/cql-global-conditions/|globálních podmínek]]. Následujícím způsobem můžeme např. najít všechny výskyty lemmatu //pes// nacházející se v okolí 100 pozic nalevo i napravo od výskytu lemmatu //kočka//, přičemž obě lemmata byla vyřčena v rámci téže repliky (tj. i téhož mluvčího) a je jedno, zda se při linearizaci mezi tyto dva výskyty dostala hranice segmentu:

<code>
(meet 1:[lemma="kočka"] 2:[lemma="pes"] -100 100) & 1.uid = 2.uid
</code>

Část dotazu, která formuluje požadavek, aby pozice náležely do stejné repliky, je právě globální podmínka ''& 1.uid = 2.uid''.

Kromě proložení replikou jiného mluvčího mohou být repliky rozděleny na více segmentů i v případě, že jsou příliš dlouhé. I v takové situaci lze původní rozsah repliky identifikovat pomocí ''uid''.