AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
kurz:hledani_v_mluvenych_korpusech [2021/01/07 10:07] – [Rozdíly ve značení textu v mluveném a psaném korpuse] Michal Škrabalkurz:hledani_v_mluvenych_korpusech [2022/06/08 16:22] Jan Křivan
Řádek 1: Řádek 1:
-====== Specifika vyhledávání v mluvených korpusech ======+====== Specifika vyhledávání v mluvených korpusech: ORAL ======
  
 Vyhledávání v mluvených korpusech neprobíhá bezprostředně v originálních datech, jak je tomu u korpusů psaných,((Byť i u psaných korpusů je potřeba uvážit jistou míru zprostředkovanosti -- [[pojmy:segmentace#segmentace|tokenizace]] a [[pojmy:segmentace#segmentace_vetna|větná segmentace]], [[pojmy:tag|značkování]] -- ovšem nesrovnatelně menší.)) ale v **transkriptu** zvukové nahrávky. Jedná se tedy o určitou interpretaci "zvukové" skutečnosti zachycené v nahrávkách.  Vyhledávání v mluvených korpusech neprobíhá bezprostředně v originálních datech, jak je tomu u korpusů psaných,((Byť i u psaných korpusů je potřeba uvážit jistou míru zprostředkovanosti -- [[pojmy:segmentace#segmentace|tokenizace]] a [[pojmy:segmentace#segmentace_vetna|větná segmentace]], [[pojmy:tag|značkování]] -- ovšem nesrovnatelně menší.)) ale v **transkriptu** zvukové nahrávky. Jedná se tedy o určitou interpretaci "zvukové" skutečnosti zachycené v nahrávkách. 
Řádek 32: Řádek 32:
 Zajímá-li nás například lexém jako celek, ne jen jeden tvar z jeho paradigmatu, je potřeba **ručně** ošetřit vyhledávání **různých tvarů v rámci paradigmatu** (a to **včetně nářečních, nespisovných variant**, které se v přepisech také mohou vyskytnout). Dokonce i pokud nás zajímá pouze jedna položka z paradigmatu, musíme uvážit, že může mít různé varianty, srov. //jsou -- sou -- sú -- só//. Zajímá-li nás například lexém jako celek, ne jen jeden tvar z jeho paradigmatu, je potřeba **ručně** ošetřit vyhledávání **různých tvarů v rámci paradigmatu** (a to **včetně nářečních, nespisovných variant**, které se v přepisech také mohou vyskytnout). Dokonce i pokud nás zajímá pouze jedna položka z paradigmatu, musíme uvážit, že může mít různé varianty, srov. //jsou -- sou -- sú -- só//.
  
-Nejjednodušší způsob, jak tohoto dosáhnout, je přepnout v rozhraní KonText **[[kurz:prvni_dotaz#shrnutinac_je_ktery_typ_dotazu_vhodny|typ dotazu]]** na **CQL** a zadat dotaz v následujícím tvaru:+Nejjednodušší způsob, jak tohoto dosáhnout, je přepnout v rozhraní KonText na **Pokročilý dotaz** a zadat dotaz v následujícím tvaru:
  
 ''[word=%%"%%jsou|sou|sú|só%%"%%]'' ''[word=%%"%%jsou|sou|sú|só%%"%%]''
Řádek 309: Řádek 309:
  
 [{{ :kurz:konk_with_sp_num_prekryv.png?direct | Konkordance z korpusu ORAL2013 vč. struktury ''<sp/>'' a strukturních atributů ''sp.num'' a ''sp.prekryv'' }}] [{{ :kurz:konk_with_sp_num_prekryv.png?direct | Konkordance z korpusu ORAL2013 vč. struktury ''<sp/>'' a strukturních atributů ''sp.num'' a ''sp.prekryv'' }}]
 +
 +Mnohem přehlednější je však pracovat s replikami dialogu v náhledu Promluvy (viz výše), jež se zobrazí po kliknutí na [[pojmy:kwic|KWIC]]. Také v tomto režimu lze jednotlivé repliky pohodlně přehrát.
 +