Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
kurz:hledani_v_mluvenych_korpusech [2022/04/22 08:27] – [ORAL2013] michalskrabal | kurz:hledani_v_mluvenych_korpusech [2022/08/25 19:24] (aktuální) – jankrivan |
---|
====== Specifika vyhledávání v mluvených korpusech ====== | ====== Specifika vyhledávání v mluvených korpusech: řada ORAL ====== |
| |
Vyhledávání v mluvených korpusech neprobíhá bezprostředně v originálních datech, jak je tomu u korpusů psaných,((Byť i u psaných korpusů je potřeba uvážit jistou míru zprostředkovanosti -- [[pojmy:segmentace#segmentace|tokenizace]] a [[pojmy:segmentace#segmentace_vetna|větná segmentace]], [[pojmy:tag|značkování]] -- ovšem nesrovnatelně menší.)) ale v **transkriptu** zvukové nahrávky. Jedná se tedy o určitou interpretaci "zvukové" skutečnosti zachycené v nahrávkách. | Vyhledávání v mluvených korpusech neprobíhá bezprostředně v originálních datech, jak je tomu u korpusů psaných,((Byť i u psaných korpusů je potřeba uvážit jistou míru zprostředkovanosti -- [[pojmy:segmentace#segmentace|tokenizace]] a [[pojmy:segmentace#segmentace_vetna|větná segmentace]], [[pojmy:tag|značkování]] -- ovšem nesrovnatelně menší.)) ale v **transkriptu** zvukové nahrávky. Jedná se tedy o určitou interpretaci "zvukové" skutečnosti zachycené v nahrávkách. |
| |
===== Rozdíly ve značení textu v mluveném a psaném korpuse ===== | ===== Rozdíly ve značení textu v mluveném a psaném korpuse ===== |
U psaného korpusu se doplňující informace týkají především díla samotného -- textu, jeho členění, roku vydání atp. U mluveného textu (transkriptu) máme základní informace o jeho autorovi (mluvčím) (viz [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|strukturu]]). | U psaného korpusu se doplňující informace týkají především díla samotného -- textu, jeho členění, roku vydání atp. U mluveného textu (transkriptu) máme základní informace o jeho autorovi (mluvčím) (viz [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|strukturu]]). |
Transkript je ve všech mluvených korpusech členěn podle replik jednotlivých mluvčích; pouze korpus [[cnk:oral2013|ORAL2013]] zachycuje i souběžnou mluvu dvou mluvčích, tzv. „překryvy“, a dělí repliky na menší části, tzv. segmenty, které jsou spojeny se zvukem a lze je přehrát. | Transkript je ve všech mluvených korpusech členěn podle replik jednotlivých mluvčích; pouze korpus [[cnk:oral2013|ORAL2013]] zachycuje i souběžnou mluvu dvou mluvčích, tzv. „překryvy“, a dělí repliky na menší části, tzv. segmenty, které jsou spojeny se zvukem a lze je přehrát. |
| |
- v mluvených korpusech je **větší variabilita forem** -- existují různé transkripční varianty stejného slova, nářeční varianty (//sme -- zme//) apod., | - v mluvených korpusech je **větší variabilita forem** -- existují různé transkripční varianty stejného slova, nářeční varianty (//sme -- zme//) apod., |
- mluvené korpusy převážně nedisponují [[pojmy:lemma|lemmatizací]] a [[pojmy:tag|morfologickým značkováním]] (varianty //sme -- zme// tedy nejde dohledat pomocí kombinace lemmatu //být// a značky odkazující k 1. os. mn. č. přítomného času, ale pouze zadáním konkrétní formy, tedy buď //sme//, anebo //zme//), | - mluvené korpusy převážně nedisponují [[pojmy:lemma|lemmatizací]] a [[pojmy:tag|morfologickým značkováním]] (varianty //sme -- zme// tedy nejde dohledat pomocí kombinace lemmatu //být// a značky odkazující k 1. os. mn. č. přítomného času, ale pouze zadáním konkrétní formy, tedy buď //sme//, anebo //zme//), |
- mají jinou [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|strukturu]] (viz též [[pojmy:struktura_korpusu#vertikala_korpusy_mluveneho_jazyka|vertikála mluveného korpusu]]) a obsahují jiné [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|atributy/metainformace]], | - mají jinou [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|strukturu]] (viz též [[pojmy:struktura_korpusu#vertikala_korpusy_mluveneho_jazyka|vertikála mluveného korpusu]]) a obsahují jiné [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|atributy/metainformace]], |
- z povahy materiálu vyplývá, že je o něco složitější zorientovat se v konkordanci. | - z povahy materiálu vyplývá, že je o něco složitější zorientovat se v konkordanci. |
| |
==== Omezení hledání ==== | ==== Omezení hledání ==== |
| |
KonText také umožňuje [[manualy:kontext:novy_dotaz#omezit_hledani|omezit vyhledávání]] pouze na promluvy mluvčích, jejichž metainformace (věk, pohlaví apod.) splňují jistá kritéria. V zaklikávacím menu jsou dostupné metainformace ''sp.pohlavi'', ''sp.vek'', ''sp.vzdelani'', ''sp.vzdelanityp'' a ''sp.oblast'' (viz též [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|přehled metainformací v korpusech mluveného jazyka]]); ostatní metainformace lze specifikovat pouze pomocí dotazu v jazyce CQL (viz níže). | KonText také umožňuje [[manualy:kontext:novy_dotaz#omezit_hledani|omezit vyhledávání]] pouze na promluvy mluvčích, jejichž metainformace (věk, pohlaví apod.) splňují jistá kritéria. V zaklikávacím menu jsou dostupné metainformace ''sp.pohlavi'', ''sp.vek'', ''sp.vzdelani'', ''sp.vzdelanityp'' a ''sp.oblast'' (viz též [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|přehled metainformací v korpusech mluveného jazyka]]); ostatní metainformace lze specifikovat pouze pomocí dotazu v jazyce CQL (viz níže). |
| |
Např. dotaz specifikovaný podle obrázku níže se bude vyhledávat pouze v promluvách (resp. strukturách ''<sp/>''), které pronesla žena (''Z'') starší 35 let (''V'') základního nebo středoškolského vzdělání (''B'') ze středočeské či česko-moravské nářeční oblasti. | Např. dotaz specifikovaný podle obrázku níže se bude vyhledávat pouze v promluvách (resp. strukturách ''<sp/>''), které pronesla žena (''Z'') starší 35 let (''V'') základního nebo středoškolského vzdělání (''B'') ze středočeské či česko-moravské nářeční oblasti. |
===== CQL ===== | ===== CQL ===== |
| |
Jazyk CQL nabízí při prohledávání některé možnosti, které v rozhraní KonText jednoduše "naklikat" nejdou (nezapomeňte si při tom přepnout na správný [[manualy:kontext:novy_dotaz|typ dotazu]]). Pro zadávání takovýchto složitějších dotazů je nutné mít představu o tom, jak je korpus [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|strukturován]], zejména jak je lineárně reprezentován v tzv. [[pojmy:struktura_korpusu#vertikala_korpusy_mluveneho_jazyka|vertikále]]. Než se pustíte do dotazů v jazyce CQL v rámci korpusů mluveného jazyka, projděte si [[kurz:pokrocile_dotazy|lekci v Kurzu práce s ČNK]], kde si tento typ dotazů osvojíte na psaných korpusech. | Jazyk CQL nabízí při prohledávání některé možnosti, které v rozhraní KonText jednoduše "naklikat" nejdou (nezapomeňte si při tom přepnout na správný [[manualy:kontext:novy_dotaz|typ dotazu]]). Pro zadávání takovýchto složitějších dotazů je nutné mít představu o tom, jak je korpus [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|strukturován]], zejména jak je lineárně reprezentován v tzv. [[pojmy:struktura_korpusu#vertikala_korpusy_mluveneho_jazyka|vertikále]]. Než se pustíte do dotazů v jazyce CQL v rámci korpusů mluveného jazyka, projděte si [[kurz:pokrocile_dotazy|lekci v Kurzu práce s ČNK]], kde si tento typ dotazů osvojíte na psaných korpusech. |
| |
Pokud si potřebujete strukturu mluvených korpusů jen osvěžit, následuje rychlý přehled. Mluvené korpusy se člení na struktury ''<doc/>'', které představují jednotlivé sondy (ucelené rozhovory v rámci jedné komunikační situace), a ty jsou dále rozdělené na struktury ''<sp/>''. V korpusech ORAL2006 a ORAL2008 představuje jednotka ''<sp/>'' ucelenou promluvu jednoho mluvčího, v korpusu ORAL2013 jsou z technických důvodů hranice ''<sp/>'' i v místech, kde dochází k překrývání mluvčích, a neexistuje jednoduchý způsob, jak určit, která hranice ''<sp/>'' je lingvisticky relevantní (tj. představuje skutečný začátek/konec promluvy) a která je pouze technickou nutností. | Pokud si potřebujete strukturu mluvených korpusů jen osvěžit, následuje rychlý přehled. Mluvené korpusy se člení na struktury ''<doc/>'', které představují jednotlivé sondy (ucelené rozhovory v rámci jedné komunikační situace), a ty jsou dále rozdělené na struktury ''<sp/>''. V korpusech ORAL2006 a ORAL2008 představuje jednotka ''<sp/>'' ucelenou promluvu jednoho mluvčího, v korpusu ORAL2013 jsou z technických důvodů hranice ''<sp/>'' i v místech, kde dochází k překrývání mluvčích, a neexistuje jednoduchý způsob, jak určit, která hranice ''<sp/>'' je lingvisticky relevantní (tj. představuje skutečný začátek/konec promluvy) a která je pouze technickou nutností. |
==== Zúžení prohledávaných struktur podle metainformací ==== | ==== Zúžení prohledávaných struktur podle metainformací ==== |
| |
Množinu struktur (''doc'' nebo ''sp'', viz [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|Struktura korpusů mluvené češtiny]]), které budou v rámci dotazu prohledány, lze omezit tím, že specifikujeme, jakých hodnot musí, nebo naopak nesmějí některé atributy těchto struktur nabývat (atributy, s nimiž lze v korpusech řady ORAL pracovat, jsou shrnuty [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|zde]]). K tomu slouží operátory [[pojmy:within]] nebo [[pojmy:containing]]. Oba operátory se liší pouze syntaxí -- ''X within Y'' je totéž co ''Y containing X'' -- a [[pojmy:containing#vysledek|způsobem zobrazení výsledné konkordance]]. | Množinu struktur (''doc'' nebo ''sp'', viz [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|Struktura korpusů mluvené češtiny]]), které budou v rámci dotazu prohledány, lze omezit tím, že specifikujeme, jakých hodnot musí, nebo naopak nesmějí některé atributy těchto struktur nabývat (atributy, s nimiž lze v korpusech řady ORAL pracovat, jsou shrnuty [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|zde]]). K tomu slouží operátory [[pojmy:within]] nebo [[pojmy:containing]]. Oba operátory se liší pouze syntaxí -- ''X within Y'' je totéž co ''Y containing X'' -- a [[pojmy:containing#vysledek|způsobem zobrazení výsledné konkordance]]. |
| |
Obecný úvod do problematiky podmínek ''within'' je k dispozici [[kurz:subkorpusy#Podmínky within – hledání v rámci určitých struktur|v jedné z předchozích lekcí]]; zde se omezíme na pár příkladů využívajících struktury a atributy korpusů mluveného jazyka. Mohli bychom chtít hledat např.: | Obecný úvod do problematiky podmínek ''within'' je k dispozici [[kurz:subkorpusy#Podmínky within – hledání v rámci určitých struktur|v jedné z předchozích lekcí]]; zde se omezíme na pár příkladů využívajících struktury a atributy korpusů mluveného jazyka. Mohli bychom chtít hledat např.: |
[{{ :kurz:konk_with_sp_num_prekryv.png?direct | Konkordance z korpusu ORAL2013 vč. struktury ''<sp/>'' a strukturních atributů ''sp.num'' a ''sp.prekryv'' }}] | [{{ :kurz:konk_with_sp_num_prekryv.png?direct | Konkordance z korpusu ORAL2013 vč. struktury ''<sp/>'' a strukturních atributů ''sp.num'' a ''sp.prekryv'' }}] |
| |
Mnohem přehlednější je však pracovat s replikami dialogu v náhledu Promluvy, jež se zobrazí po kliknutí na [[pojmy:kwic|KWIC]]. Také v tomto režimu lze jednotlivé repliky pohodlně přehrát. | Mnohem přehlednější je však pracovat s replikami dialogu v náhledu Promluvy (viz výše), jež se zobrazí po kliknutí na [[pojmy:kwic|KWIC]]. Také v tomto režimu lze jednotlivé repliky pohodlně přehrát. |
| |
FIXME Honzo, sem obrázek toho náhledu, ideálně ze stejného dialogu jako výše | |
| |
| |