AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze
Předchozí verze
seznamy:mluvene_atributy [2017/09/26 12:46] – vytvořeno davidlukesseznamy:mluvene_atributy [2017/09/26 14:28] (aktuální) Václav Cvrček
Řádek 1: Řádek 1:
 ====== Poziční atributy specifické pro některé mluvené korpusy ====== ====== Poziční atributy specifické pro některé mluvené korpusy ======
  
-V některých mluvených korpusech se objevují kromě běžných doplňkových pozičních atributů odvozených procesem [[seznamy:tagy|morfologického značkování]] ještě některé další. Souvisejí se specifickou povahou mluvených dat.+V některých [[cnk:struktura#korpusy_mluvene|mluvených korpusech]] se objevují kromě běžných doplňkových pozičních atributů odvozených procesem [[seznamy:tagy|morfologického značkování]] ještě některé další. Souvisejí se specifickou povahou mluvených dat.
  
 ===== Atributy fon, ort a dial ===== ===== Atributy fon, ort a dial =====
Řádek 20: Řádek 20:
 ===== Atribut uid ===== ===== Atribut uid =====
  
-Atribut ''uid'' (//utterance ID//) sdružuje [[pojmy:pozice|pozice (tokeny)]] vyslovené v rámci jedné promluvy, přičemž promluvu definujeme jako jeden nebo více segmentů (struktur ''<sp/>'') téhož mluvčího navazujících v těsné blízkosti za sebou. Intuitivnější než definice snad bude obrázek:+Atribut ''uid'' sdružuje [[pojmy:pozice|pozice (tokeny)]] vyslovené v rámci jedné repliky, přičemž repliku definujeme jako jeden nebo více segmentů (struktur ''<sp/>'') téhož mluvčího navazujících v těsné blízkosti za sebou. Intuitivnější než definice snad bude obrázek:
  
-[{{ :seznamy:elan_uid_segment.png?direct&600 | Promluvy (uid) a segmenty v transkripčním programu ELAN. }}]+[{{ :seznamy:elan_uid_segment.png?direct&600 | Repliky (uid) a segmenty v transkripčním programu ELAN. }}]
  
-Je patrné, že **promluva** s ''uid = 2'' je rozdělena do **dvou segmentů** (2 a 4).+Je patrné, že **replika** s ''uid = 2'' je rozdělena do **dvou segmentů** (2 a 4).
  
 Motivace pro tento atribut vychází z povahy mluveného jazyka. Zatímco psané texty jsou primárně lineární, a jakákoli narušení této linearity (textové boxy, poznámky pod čarou apod.) je možné "uzávorkovat", odstranit z textu, aniž by utrpěla jeho kontinuita, mluvené texty je spíš vhodné popisovat jako **multilineární**, sestávající z více proudů řeči((A případně i dalších forem komunikace: gesta, mimika, proxemika aj.)) od různých mluvčích, které se mohou nazvájem překrývat či doplňovat, a vypuštěním jednoho z nich vznikne text neúplný. Motivace pro tento atribut vychází z povahy mluveného jazyka. Zatímco psané texty jsou primárně lineární, a jakákoli narušení této linearity (textové boxy, poznámky pod čarou apod.) je možné "uzávorkovat", odstranit z textu, aniž by utrpěla jeho kontinuita, mluvené texty je spíš vhodné popisovat jako **multilineární**, sestávající z více proudů řeči((A případně i dalších forem komunikace: gesta, mimika, proxemika aj.)) od různých mluvčích, které se mohou nazvájem překrývat či doplňovat, a vypuštěním jednoho z nich vznikne text neúplný.
Řádek 30: Řádek 30:
 Pro zpracování v korpusu je ovšem potřeba multilineární interakci linearizovat, přičemž může vzniknout napětí mezi sledováním linie celého rozhovoru (v obrázku výše naznačené číslováním oranžových segmentů) a linie jednotlivých mluvčích (naznačené číslováním modrých ''uid''). Korpusy mluveného jazyka ČNK upřednostňují první linii, která je věrnějším obrazem původní podoby rozhovoru (paralelně vedené segmenty se objeví těsně za sebou), nicméně ta druhá zůstává dostupná právě přes atribut ''uid''. Pro zpracování v korpusu je ovšem potřeba multilineární interakci linearizovat, přičemž může vzniknout napětí mezi sledováním linie celého rozhovoru (v obrázku výše naznačené číslováním oranžových segmentů) a linie jednotlivých mluvčích (naznačené číslováním modrých ''uid''). Korpusy mluveného jazyka ČNK upřednostňují první linii, která je věrnějším obrazem původní podoby rozhovoru (paralelně vedené segmenty se objeví těsně za sebou), nicméně ta druhá zůstává dostupná právě přes atribut ''uid''.
  
-Ukažme si, jak by vypadala část sondy z obrázku výše převedená do podoby zjednodušené [[pojmy:struktura_korpusu|vertikály]], tj. podoby strukturně analogické výslednému korpusu. Segmenty jsou vymezené jako struktury ''<sp/>'', jejich čísla jsou uvedená v atributu ''id''. Ostatní řádky představují jednotlivé pozice, přičemž vždy uvádíme samotný token (v korpusech standardně označovaný atributem ''word'') a po několika mezerách pak ''uid'' promluvy, do které náleží:+Ukažme si, jak by vypadala část sondy z obrázku výše převedená do podoby zjednodušené [[pojmy:struktura_korpusu|vertikály]], tj. podoby strukturně analogické výslednému korpusu. Segmenty jsou vymezené jako struktury ''<sp/>'', jejich čísla jsou uvedená v atributu ''id''. Ostatní řádky představují jednotlivé pozice, přičemž vždy uvádíme samotný token (v korpusech standardně označovaný atributem ''word'') a po několika mezerách pak ''uid'' repliky, do které náleží:
  
 <code> <code>
Řádek 64: Řádek 64:
 Všimněte si, že pozice s ''uid = 2'' netvoří souvislou oblast vertikály, jsou přerušeny pozicemi s ''uid = 3'' ze segmentu 3. Vidíme zde výše zmíněné napětí mezi dvěma způsoby linearizace v praxi: neexistuje způsob, jak segmenty za sebe poskládat tak, aby obě sekvence čísel ''id'' i ''uid'' byly **zároveň** monotonně neklesající. Všimněte si, že pozice s ''uid = 2'' netvoří souvislou oblast vertikály, jsou přerušeny pozicemi s ''uid = 3'' ze segmentu 3. Vidíme zde výše zmíněné napětí mezi dvěma způsoby linearizace v praxi: neexistuje způsob, jak segmenty za sebe poskládat tak, aby obě sekvence čísel ''id'' i ''uid'' byly **zároveň** monotonně neklesající.
  
-Využití ''uid'' pro vyhledávání je bohužel poněkud krkolomné, nicméně ne nemožné. Vyžaduje znalost tzv. [[https://www.sketchengine.co.uk/documentation/cql-global-conditions/|globálních podmínek]]. Následujícím způsobem můžeme např. najít všechny výskyty lemmatu //pes// nacházející se v okolí 100 pozic nalevo i napravo od výskytu lemmatu //kočka//, přičemž obě lemmata byla vyřčena v rámci téže promluvy (tj. i téhož mluvčího) a je jedno, zda se při linearizaci mezi tyto dva výskyty dostala hranice segmentu:+Využití ''uid'' pro vyhledávání je bohužel poněkud krkolomné, nicméně ne nemožné. Vyžaduje znalost tzv. [[https://www.sketchengine.co.uk/documentation/cql-global-conditions/|globálních podmínek]]. Následujícím způsobem můžeme např. najít všechny výskyty lemmatu //pes// nacházející se v okolí 100 pozic nalevo i napravo od výskytu lemmatu //kočka//, přičemž obě lemmata byla vyřčena v rámci téže repliky (tj. i téhož mluvčího) a je jedno, zda se při linearizaci mezi tyto dva výskyty dostala hranice segmentu:
  
 <code> <code>
Řádek 70: Řádek 70:
 </code> </code>
  
-Část dotazu, která formuluje požadavek, aby pozice náležely do stejné promluvy, je právě globální podmínka ''& 1.uid = 2.uid''.+Část dotazu, která formuluje požadavek, aby pozice náležely do stejné repliky, je právě globální podmínka ''& 1.uid = 2.uid''.
  
-Kromě proložení promluvou jiného mluvčího mohou být promluvy rozděleny na více segmentů i v případě, že jsou příliš dlouhé. I v takové situaci lze původní rozsah promluvy identifikovat pomocí ''uid''.+Kromě proložení replikou jiného mluvčího mohou být repliky rozděleny na více segmentů i v případě, že jsou příliš dlouhé. I v takové situaci lze původní rozsah repliky identifikovat pomocí ''uid''.