Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:hledani_v_mluvenych_korpusech [2018/12/17 16:40] – Jan Kocek | kurz:hledani_v_mluvenych_korpusech [2022/06/08 16:22] – Jan Křivan |
---|
====== Specifika vyhledávání v mluvených korpusech ====== | ====== Specifika vyhledávání v mluvených korpusech: ORAL ====== |
| |
Vyhledávání v mluvených korpusech neprobíhá bezprostředně v originálních datech, jak je tomu u korpusů psaných,((Byť i u psaných korpusů je potřeba uvážit jistou míru zprostředkovanosti -- [[pojmy:segmentace#segmentace|tokenizace]] a [[pojmy:segmentace#segmentace_vetna|větná segmentace]], [[pojmy:tag|značkování]] -- ovšem nesrovnatelně menší.)) ale v **transkriptu** zvukové nahrávky. Jedná se tedy o určitou interpretaci "zvukové" skutečnosti zachycené v nahrávkách. | Vyhledávání v mluvených korpusech neprobíhá bezprostředně v originálních datech, jak je tomu u korpusů psaných,((Byť i u psaných korpusů je potřeba uvážit jistou míru zprostředkovanosti -- [[pojmy:segmentace#segmentace|tokenizace]] a [[pojmy:segmentace#segmentace_vetna|větná segmentace]], [[pojmy:tag|značkování]] -- ovšem nesrovnatelně menší.)) ale v **transkriptu** zvukové nahrávky. Jedná se tedy o určitou interpretaci "zvukové" skutečnosti zachycené v nahrávkách. |
===== Rozdíly ve značení textu v mluveném a psaném korpuse ===== | ===== Rozdíly ve značení textu v mluveném a psaném korpuse ===== |
U psaného korpusu se doplňující informace týkají především díla samotného -- textu, jeho členění, roku vydání atp. U mluveného textu (transkriptu) máme základní informace o jeho autorovi (mluvčím) (viz [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|strukturu]]). | U psaného korpusu se doplňující informace týkají především díla samotného -- textu, jeho členění, roku vydání atp. U mluveného textu (transkriptu) máme základní informace o jeho autorovi (mluvčím) (viz [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|strukturu]]). |
Transkript je ve všech mluvených korpusech členěn podle replik jednotlivých mluvčích; pouze korpus [[cnk:oral2013|ORAL2013]] zachycuje i souběžnou mluvu dvou mluvčích, tzv. "překryvy", a dělí repliky na menší části, tzv. segmenty, které jsou spojeny se zvukem a lze je přehrát. | Transkript je ve všech mluvených korpusech členěn podle replik jednotlivých mluvčích; pouze korpus [[cnk:oral2013|ORAL2013]] zachycuje i souběžnou mluvu dvou mluvčích, tzv. „překryvy“, a dělí repliky na menší části, tzv. segmenty, které jsou spojeny se zvukem a lze je přehrát. |
| |
V následujícím textu chceme upozornit na odlišnosti při vyhledávání v psaném a v mluveném jazyce a na [[#strucna_charakteristika_transkripce_korpusu_rady_oral|odlišnosti transkripce jednotlivých korpusů řady ORAL]], jejichž neznalost by mohla způsobit špatnou interpretaci nalezených výsledků. | V následujícím textu chceme upozornit na odlišnosti při vyhledávání v psaném a v mluveném jazyce a na [[#strucna_charakteristika_transkripce_korpusu_rady_oral|odlišnosti transkripce jednotlivých korpusů řady ORAL]], jejichž neznalost by mohla způsobit špatnou interpretaci nalezených výsledků. |
| |
Vyhledávání v mluvených korpusech je v hlavních obrysech stejné jako u psaných korpusů série [[cnk:syn|SYN]] (stejné [[kurz:prvni_dotaz#typy_dotazu|základní typy dotazů]], stejný dotazovací jazyk [[kurz:cql|CQL]]); pokud jste v korpusu nikdy nehledali, projděte si tedy prosím nejprve [[kurz:prvni_dotaz|rychlokurz v dotazování]], zbytek textu předpokládá jeho znalost. V některých ohledech se ale způsob vyhledávání liší, a to zejména v těchto: | Vyhledávání v mluvených korpusech je v hlavních obrysech stejné jako u psaných korpusů série [[cnk:syn|SYN]] (stejné základní [[manualy:kontext:novy_dotaz#typy_dotazu|dva typy dotazů]], stejný dotazovací jazyk [[pojmy:dotazovaci_jazyk|CQL]]); pokud jste v korpusu nikdy nehledali, projděte si tedy prosím nejprve [[kurz:prvni_dotaz|rychlokurz v dotazování]], zbytek textu předpokládá jeho znalost. V některých ohledech se ale způsob vyhledávání liší, a to zejména v těchto: |
| |
- v mluvených korpusech je **větší variabilita forem** -- existují různé transkripční varianty stejného slova, nářeční varianty (//sme -- zme//) apod., | - v mluvených korpusech je **větší variabilita forem** -- existují různé transkripční varianty stejného slova, nářeční varianty (//sme -- zme//) apod., |
Zajímá-li nás například lexém jako celek, ne jen jeden tvar z jeho paradigmatu, je potřeba **ručně** ošetřit vyhledávání **různých tvarů v rámci paradigmatu** (a to **včetně nářečních, nespisovných variant**, které se v přepisech také mohou vyskytnout). Dokonce i pokud nás zajímá pouze jedna položka z paradigmatu, musíme uvážit, že může mít různé varianty, srov. //jsou -- sou -- sú -- só//. | Zajímá-li nás například lexém jako celek, ne jen jeden tvar z jeho paradigmatu, je potřeba **ručně** ošetřit vyhledávání **různých tvarů v rámci paradigmatu** (a to **včetně nářečních, nespisovných variant**, které se v přepisech také mohou vyskytnout). Dokonce i pokud nás zajímá pouze jedna položka z paradigmatu, musíme uvážit, že může mít různé varianty, srov. //jsou -- sou -- sú -- só//. |
| |
Nejjednodušší způsob, jak tohoto dosáhnout, je přepnout v rozhraní KonText **[[kurz:prvni_dotaz#shrnutinac_je_ktery_typ_dotazu_vhodny|typ dotazu]]** na **CQL** a zadat dotaz v následujícím tvaru: | Nejjednodušší způsob, jak tohoto dosáhnout, je přepnout v rozhraní KonText na **Pokročilý dotaz** a zadat dotaz v následujícím tvaru: |
| |
''[word=%%"%%jsou|sou|sú|só%%"%%]'' | ''[word=%%"%%jsou|sou|sú|só%%"%%]'' |
| |
[{{ :kurz:konk_with_sp_num_prekryv.png?direct | Konkordance z korpusu ORAL2013 vč. struktury ''<sp/>'' a strukturních atributů ''sp.num'' a ''sp.prekryv'' }}] | [{{ :kurz:konk_with_sp_num_prekryv.png?direct | Konkordance z korpusu ORAL2013 vč. struktury ''<sp/>'' a strukturních atributů ''sp.num'' a ''sp.prekryv'' }}] |
| |
| Mnohem přehlednější je však pracovat s replikami dialogu v náhledu Promluvy (viz výše), jež se zobrazí po kliknutí na [[pojmy:kwic|KWIC]]. Také v tomto režimu lze jednotlivé repliky pohodlně přehrát. |
| |
| |
| |