Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
kurz:hledani_v_mluvenych_korpusech [2018/12/17 16:17] – [Metainformace u KWIC] jankocek | kurz:hledani_v_mluvenych_korpusech [2022/08/25 19:24] (aktuální) – jankrivan |
---|
====== Specifika vyhledávání v mluvených korpusech ====== | ====== Specifika vyhledávání v mluvených korpusech: řada ORAL ====== |
| |
Vyhledávání v mluvených korpusech neprobíhá bezprostředně v originálních datech, jak je tomu u korpusů psaných,((Byť i u psaných korpusů je potřeba uvážit jistou míru zprostředkovanosti -- [[pojmy:segmentace#segmentace|tokenizace]] a [[pojmy:segmentace#segmentace_vetna|větná segmentace]], [[pojmy:tag|značkování]] -- ovšem nesrovnatelně menší.)) ale v **transkriptu** zvukové nahrávky. Jedná se tedy o určitou interpretaci "zvukové" skutečnosti zachycené v nahrávkách. | Vyhledávání v mluvených korpusech neprobíhá bezprostředně v originálních datech, jak je tomu u korpusů psaných,((Byť i u psaných korpusů je potřeba uvážit jistou míru zprostředkovanosti -- [[pojmy:segmentace#segmentace|tokenizace]] a [[pojmy:segmentace#segmentace_vetna|větná segmentace]], [[pojmy:tag|značkování]] -- ovšem nesrovnatelně menší.)) ale v **transkriptu** zvukové nahrávky. Jedná se tedy o určitou interpretaci "zvukové" skutečnosti zachycené v nahrávkách. |
| |
===== Rozdíly ve značení textu v mluveném a psaném korpuse ===== | ===== Rozdíly ve značení textu v mluveném a psaném korpuse ===== |
U psaného korpusu se doplňující informace týkají především díla samotného -- textu, jeho členění, roku vydání atp. U mluveného textu (transkriptu) máme základní informace o jeho autorovi (mluvčím) (viz [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|strukturu]]). | U psaného korpusu se doplňující informace týkají především díla samotného -- textu, jeho členění, roku vydání atp. U mluveného textu (transkriptu) máme základní informace o jeho autorovi (mluvčím) (viz [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|strukturu]]). |
Transkript je ve všech mluvených korpusech členěn podle replik jednotlivých mluvčích; pouze korpus [[cnk:oral2013|ORAL2013]] zachycuje i souběžnou mluvu dvou mluvčích, tzv. "překryvy", a dělí repliky na menší části, tzv. segmenty, které jsou spojeny se zvukem a lze je přehrát. | Transkript je ve všech mluvených korpusech členěn podle replik jednotlivých mluvčích; pouze korpus [[cnk:oral2013|ORAL2013]] zachycuje i souběžnou mluvu dvou mluvčích, tzv. „překryvy“, a dělí repliky na menší části, tzv. segmenty, které jsou spojeny se zvukem a lze je přehrát. |
| |
V následujícím textu chceme upozornit na odlišnosti při vyhledávání v psaném a v mluveném jazyce a na [[#strucna_charakteristika_transkripce_korpusu_rady_oral|odlišnosti transkripce jednotlivých korpusů řady ORAL]], jejichž neznalost by mohla způsobit špatnou interpretaci nalezených výsledků. | V následujícím textu chceme upozornit na odlišnosti při vyhledávání v psaném a v mluveném jazyce a na [[#strucna_charakteristika_transkripce_korpusu_rady_oral|odlišnosti transkripce jednotlivých korpusů řady ORAL]], jejichž neznalost by mohla způsobit špatnou interpretaci nalezených výsledků. |
| |
Vyhledávání v mluvených korpusech je v hlavních obrysech stejné jako u psaných korpusů série [[cnk:syn|SYN]] (stejné [[kurz:prvni_dotaz#typy_dotazu|základní typy dotazů]], stejný dotazovací jazyk [[kurz:cql|CQL]]); pokud jste v korpusu nikdy nehledali, projděte si tedy prosím nejprve [[kurz:prvni_dotaz|rychlokurz v dotazování]], zbytek textu předpokládá jeho znalost. V některých ohledech se ale způsob vyhledávání liší, a to zejména v těchto: | Vyhledávání v mluvených korpusech je v hlavních obrysech stejné jako u psaných korpusů série [[cnk:syn|SYN]] (stejné základní [[manualy:kontext:novy_dotaz#typy_dotazu|dva typy dotazů]], stejný dotazovací jazyk [[pojmy:dotazovaci_jazyk|CQL]]); pokud jste v korpusu nikdy nehledali, projděte si tedy prosím nejprve [[kurz:prvni_dotaz|rychlokurz v dotazování]], zbytek textu předpokládá jeho znalost. V některých ohledech se ale způsob vyhledávání liší, a to zejména v těchto: |
| |
- v mluvených korpusech je **větší variabilita forem** -- existují různé transkripční varianty stejného slova, nářeční varianty (//sme -- zme//) apod., | - v mluvených korpusech je **větší variabilita forem** -- existují různé transkripční varianty stejného slova, nářeční varianty (//sme -- zme//) apod., |
- mluvené korpusy převážně nedisponují [[pojmy:lemma|lemmatizací]] a [[pojmy:tag|morfologickým značkováním]] (varianty //sme -- zme// tedy nejde dohledat pomocí kombinace lemmatu //být// a značky odkazující k 1. os. mn. č. přítomného času, ale pouze zadáním konkrétní formy, tedy buď //sme//, anebo //zme//), | - mluvené korpusy převážně nedisponují [[pojmy:lemma|lemmatizací]] a [[pojmy:tag|morfologickým značkováním]] (varianty //sme -- zme// tedy nejde dohledat pomocí kombinace lemmatu //být// a značky odkazující k 1. os. mn. č. přítomného času, ale pouze zadáním konkrétní formy, tedy buď //sme//, anebo //zme//), |
- mají jinou [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|strukturu]] (viz též [[pojmy:struktura_korpusu#vertikala_korpusy_mluveneho_jazyka|vertikála mluveného korpusu]]) a obsahují jiné [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|atributy/metainformace]], | - mají jinou [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|strukturu]] (viz též [[pojmy:struktura_korpusu#vertikala_korpusy_mluveneho_jazyka|vertikála mluveného korpusu]]) a obsahují jiné [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|atributy/metainformace]], |
- z povahy materiálu vyplývá, že je o něco složitější zorientovat se v konkordanci. | - z povahy materiálu vyplývá, že je o něco složitější zorientovat se v konkordanci. |
| |
Zajímá-li nás například lexém jako celek, ne jen jeden tvar z jeho paradigmatu, je potřeba **ručně** ošetřit vyhledávání **různých tvarů v rámci paradigmatu** (a to **včetně nářečních, nespisovných variant**, které se v přepisech také mohou vyskytnout). Dokonce i pokud nás zajímá pouze jedna položka z paradigmatu, musíme uvážit, že může mít různé varianty, srov. //jsou -- sou -- sú -- só//. | Zajímá-li nás například lexém jako celek, ne jen jeden tvar z jeho paradigmatu, je potřeba **ručně** ošetřit vyhledávání **různých tvarů v rámci paradigmatu** (a to **včetně nářečních, nespisovných variant**, které se v přepisech také mohou vyskytnout). Dokonce i pokud nás zajímá pouze jedna položka z paradigmatu, musíme uvážit, že může mít různé varianty, srov. //jsou -- sou -- sú -- só//. |
| |
Nejjednodušší způsob, jak tohoto dosáhnout, je přepnout v rozhraní KonText **[[kurz:prvni_dotaz#shrnutinac_je_ktery_typ_dotazu_vhodny|typ dotazu]]** na **CQL** a zadat dotaz v následujícím tvaru: | Nejjednodušší způsob, jak tohoto dosáhnout, je přepnout v rozhraní KonText na **Pokročilý dotaz** a zadat dotaz v následujícím tvaru: |
| |
''[word=%%"%%jsou|sou|sú|só%%"%%]'' | ''[word=%%"%%jsou|sou|sú|só%%"%%]'' |
Např. bychom mohli chtít dohledat výskyty slova //to//, které v okolí ±5 pozic obsahují kterékoli ze slov //teda//, //jo//, //ne// nebo //fakt//: | Např. bychom mohli chtít dohledat výskyty slova //to//, které v okolí ±5 pozic obsahují kterékoli ze slov //teda//, //jo//, //ne// nebo //fakt//: |
| |
[{{ :kurz:kontext_kontext.png?direct&700 | Specifikace kontextu v rozhraní KonText FIXME}}] | [{{ :kurz:kontext_kontext.png?direct&700 | Specifikace kontextu v rozhraní KonText }}] |
| |
Ve výsledné konkordanci budou výskyty kontextově požadovaných slov zvýrazněné, což usnadní jejich identifikaci: | Ve výsledné konkordanci budou výskyty kontextově požadovaných slov zvýrazněné, což usnadní jejich identifikaci: |
==== Omezení hledání ==== | ==== Omezení hledání ==== |
| |
KonText také umožňuje [[manualy:kontext:novy_dotaz#omezit_hledani|omezit vyhledávání]] pouze na promluvy mluvčích, jejichž metainformace (věk, pohlaví apod.) splňují jistá kritéria. V zaklikávacím menu jsou dostupné metainformace ''sp.pohlavi'', ''sp.vek'', ''sp.vzdelani'', ''sp.vzdelanityp'' a ''sp.oblast'' (viz též [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|přehled metainformací v korpusech mluveného jazyka]]); ostatní metainformace lze specifikovat pouze pomocí dotazu v jazyce CQL (viz níže). | KonText také umožňuje [[manualy:kontext:novy_dotaz#omezit_hledani|omezit vyhledávání]] pouze na promluvy mluvčích, jejichž metainformace (věk, pohlaví apod.) splňují jistá kritéria. V zaklikávacím menu jsou dostupné metainformace ''sp.pohlavi'', ''sp.vek'', ''sp.vzdelani'', ''sp.vzdelanityp'' a ''sp.oblast'' (viz též [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|přehled metainformací v korpusech mluveného jazyka]]); ostatní metainformace lze specifikovat pouze pomocí dotazu v jazyce CQL (viz níže). |
| |
Např. dotaz specifikovaný podle obrázku níže se bude vyhledávat pouze v promluvách (resp. strukturách ''<sp/>''), které pronesla žena (''Z'') starší 35 let (''V'') základního nebo středoškolského vzdělání (''B'') ze středočeské či česko-moravské nářeční oblasti. | Např. dotaz specifikovaný podle obrázku níže se bude vyhledávat pouze v promluvách (resp. strukturách ''<sp/>''), které pronesla žena (''Z'') starší 35 let (''V'') základního nebo středoškolského vzdělání (''B'') ze středočeské či česko-moravské nářeční oblasti. |
| |
[{{ kurz:kontext_metainformace.png?direct&600 | Výběr textů v rozhraní KonText FIXME}}] | [{{ kurz:kontext_metainformace.png?direct&600 | Výběr textů v rozhraní KonText }}] |
| |
===== CQL ===== | ===== CQL ===== |
| |
Jazyk CQL nabízí při prohledávání některé možnosti, které v rozhraní KonText jednoduše "naklikat" nejdou (nezapomeňte si při tom přepnout na správný [[manualy:kontext:novy_dotaz|typ dotazu]]). Pro zadávání takovýchto složitějších dotazů je nutné mít představu o tom, jak je korpus [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|strukturován]], zejména jak je lineárně reprezentován v tzv. [[pojmy:struktura_korpusu#vertikala_korpusy_mluveneho_jazyka|vertikále]]. Než se pustíte do dotazů v jazyce CQL v rámci korpusů mluveného jazyka, projděte si [[kurz:pokrocile_dotazy|lekci v Kurzu práce s ČNK]], kde si tento typ dotazů osvojíte na psaných korpusech. | Jazyk CQL nabízí při prohledávání některé možnosti, které v rozhraní KonText jednoduše "naklikat" nejdou (nezapomeňte si při tom přepnout na správný [[manualy:kontext:novy_dotaz|typ dotazu]]). Pro zadávání takovýchto složitějších dotazů je nutné mít představu o tom, jak je korpus [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|strukturován]], zejména jak je lineárně reprezentován v tzv. [[pojmy:struktura_korpusu#vertikala_korpusy_mluveneho_jazyka|vertikále]]. Než se pustíte do dotazů v jazyce CQL v rámci korpusů mluveného jazyka, projděte si [[kurz:pokrocile_dotazy|lekci v Kurzu práce s ČNK]], kde si tento typ dotazů osvojíte na psaných korpusech. |
| |
Pokud si potřebujete strukturu mluvených korpusů jen osvěžit, následuje rychlý přehled. Mluvené korpusy se člení na struktury ''<doc/>'', které představují jednotlivé sondy (ucelené rozhovory v rámci jedné komunikační situace), a ty jsou dále rozdělené na struktury ''<sp/>''. V korpusech ORAL2006 a ORAL2008 představuje jednotka ''<sp/>'' ucelenou promluvu jednoho mluvčího, v korpusu ORAL2013 jsou z technických důvodů hranice ''<sp/>'' i v místech, kde dochází k překrývání mluvčích, a neexistuje jednoduchý způsob, jak určit, která hranice ''<sp/>'' je lingvisticky relevantní (tj. představuje skutečný začátek/konec promluvy) a která je pouze technickou nutností. | Pokud si potřebujete strukturu mluvených korpusů jen osvěžit, následuje rychlý přehled. Mluvené korpusy se člení na struktury ''<doc/>'', které představují jednotlivé sondy (ucelené rozhovory v rámci jedné komunikační situace), a ty jsou dále rozdělené na struktury ''<sp/>''. V korpusech ORAL2006 a ORAL2008 představuje jednotka ''<sp/>'' ucelenou promluvu jednoho mluvčího, v korpusu ORAL2013 jsou z technických důvodů hranice ''<sp/>'' i v místech, kde dochází k překrývání mluvčích, a neexistuje jednoduchý způsob, jak určit, která hranice ''<sp/>'' je lingvisticky relevantní (tj. představuje skutečný začátek/konec promluvy) a která je pouze technickou nutností. |
==== Zúžení prohledávaných struktur podle metainformací ==== | ==== Zúžení prohledávaných struktur podle metainformací ==== |
| |
Množinu struktur (''doc'' nebo ''sp'', viz [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|Struktura korpusů mluvené češtiny]]), které budou v rámci dotazu prohledány, lze omezit tím, že specifikujeme, jakých hodnot musí, nebo naopak nesmějí některé atributy těchto struktur nabývat (atributy, s nimiž lze v korpusech řady ORAL pracovat, jsou shrnuty [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|zde]]). K tomu slouží operátory [[pojmy:within]] nebo [[pojmy:containing]]. Oba operátory se liší pouze syntaxí -- ''X within Y'' je totéž co ''Y containing X'' -- a [[pojmy:containing#vysledek|způsobem zobrazení výsledné konkordance]]. | Množinu struktur (''doc'' nebo ''sp'', viz [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|Struktura korpusů mluvené češtiny]]), které budou v rámci dotazu prohledány, lze omezit tím, že specifikujeme, jakých hodnot musí, nebo naopak nesmějí některé atributy těchto struktur nabývat (atributy, s nimiž lze v korpusech řady ORAL pracovat, jsou shrnuty [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|zde]]). K tomu slouží operátory [[pojmy:within]] nebo [[pojmy:containing]]. Oba operátory se liší pouze syntaxí -- ''X within Y'' je totéž co ''Y containing X'' -- a [[pojmy:containing#vysledek|způsobem zobrazení výsledné konkordance]]. |
| |
Obecný úvod do problematiky podmínek ''within'' je k dispozici [[kurz:subkorpusy#Podmínky within – hledání v rámci určitých struktur|v jedné z předchozích lekcí]]; zde se omezíme na pár příkladů využívajících struktury a atributy korpusů mluveného jazyka. Mohli bychom chtít hledat např.: | Obecný úvod do problematiky podmínek ''within'' je k dispozici [[kurz:subkorpusy#Podmínky within – hledání v rámci určitých struktur|v jedné z předchozích lekcí]]; zde se omezíme na pár příkladů využívajících struktury a atributy korpusů mluveného jazyka. Mohli bychom chtít hledat např.: |
| |
[{{ :kurz:konk_with_sp_num_prekryv.png?direct | Konkordance z korpusu ORAL2013 vč. struktury ''<sp/>'' a strukturních atributů ''sp.num'' a ''sp.prekryv'' }}] | [{{ :kurz:konk_with_sp_num_prekryv.png?direct | Konkordance z korpusu ORAL2013 vč. struktury ''<sp/>'' a strukturních atributů ''sp.num'' a ''sp.prekryv'' }}] |
| |
| Mnohem přehlednější je však pracovat s replikami dialogu v náhledu Promluvy (viz výše), jež se zobrazí po kliknutí na [[pojmy:kwic|KWIC]]. Také v tomto režimu lze jednotlivé repliky pohodlně přehrát. |
| |
| |
| |
Zdrojem velmi zajímavých sociolingvistických analýz mohou být frekvenční distribuce vytvořené na základě metainformací v menu [[manualy:kontext:frekvence#vlastni_nastaveni_frekvencni_distribuce|Frekvence → Vlastní]]. S jejich pomocí je možné zjistit, zda hledaný výraz na pozici KWIC používají více ženy, či muži, mladší, či starší mluvčí, případně zda má nějaká regionální specifika, či se naopak zdá být sdílený všemi mluvčími češtiny bez rozdílů. | Zdrojem velmi zajímavých sociolingvistických analýz mohou být frekvenční distribuce vytvořené na základě metainformací v menu [[manualy:kontext:frekvence#vlastni_nastaveni_frekvencni_distribuce|Frekvence → Vlastní]]. S jejich pomocí je možné zjistit, zda hledaný výraz na pozici KWIC používají více ženy, či muži, mladší, či starší mluvčí, případně zda má nějaká regionální specifika, či se naopak zdá být sdílený všemi mluvčími češtiny bez rozdílů. |
| |
[{{ :kurz:frek_dist_meta_zadani.png | Frekvenční distribuce podle metainformací: může nás např. zajímat rozložení podle pohlaví -- užívají daný výraz více ženy, nebo muži? FIXME}}] | [{{ :kurz:frek_dist_meta_zadani.png | Frekvenční distribuce podle metainformací: může nás např. zajímat rozložení podle pohlaví -- užívají daný výraz více ženy, nebo muži? }}] |
| |
[{{ :kurz:frek_dist_meta_vysledek.png?direct | Frekvenční distribuce dotazu ''[word=%%"(?i)koč(ič|k).*"%%]'' podle pohlaví: zdá se, že alespoň v korpusu ORAL2013 o kočkách, kočičkách ap. mluví více ženy než muži FIXME}}] | [{{ :kurz:frek_dist_meta_vysledek.png?direct | Frekvenční distribuce dotazu ''[word=%%"(?i)koč(ič|k).*"%%]'' podle pohlaví: zdá se, že alespoň v korpusu ORAL2013 o kočkách, kočičkách ap. mluví více ženy než muži }}] |
====== Některé zajímavé dotazy ====== | ====== Některé zajímavé dotazy ====== |
| |
Na to, jak je slovo //protože// v mluvené řeči běžné, je až nepohodlně dlouhé (3 slabiky!). Není proto divu, že se jej mluvčí často snaží různými způsoby výslovnostně ošidit a artikulační úsilí raději věnovat slovům, která nesou více obsahu a nejsou tak snadno odhadnutelná. V korpusu ORAL2013 se v přepisu vyskytují následující výslovnostní((Korpus ORAL2013 nebyl primárně vytvořen pro fonetický výzkum, jednotlivé varianty a jejich frekvence je tudíž potřeba brát s jistou rezervou. Poskytnou ale velmi dobrý základní přehled o šířce variace.)) varianty výrazu //protože//: | Na to, jak je slovo //protože// v mluvené řeči běžné, je až nepohodlně dlouhé (3 slabiky!). Není proto divu, že se jej mluvčí často snaží různými způsoby výslovnostně ošidit a artikulační úsilí raději věnovat slovům, která nesou více obsahu a nejsou tak snadno odhadnutelná. V korpusu ORAL2013 se v přepisu vyskytují následující výslovnostní((Korpus ORAL2013 nebyl primárně vytvořen pro fonetický výzkum, jednotlivé varianty a jejich frekvence je tudíž potřeba brát s jistou rezervou. Poskytnou ale velmi dobrý základní přehled o šířce variace.)) varianty výrazu //protože//: |
| |
[{{ :kurz:varianty_protoze_oral2013.png?direct | Varianty //protože// v korpusu ORAL2013 FIXME}}] | [{{ :kurz:varianty_protoze_oral2013.png?direct | Varianty //protože// v korpusu ORAL2013 }}] |
| |
Zkuste si některé z nich vyhledat. Odhalí [[manualy:kontext:frekvencni_distribuce#frekvencni_distribuce_podle_strukturnich_atributu|frekvenční distribuce]] podle sociolingvistických metainformací nějaké vzorce v jejich užívání? | Zkuste si některé z nich vyhledat. Odhalí [[manualy:kontext:frekvencni_distribuce#frekvencni_distribuce_podle_strukturnich_atributu|frekvenční distribuce]] podle sociolingvistických metainformací nějaké vzorce v jejich užívání? |