Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:hledani_v_mluvenych_korpusech [2018/08/08 17:09] – [Orientace v konkordanci] vaclavcvrcek | kurz:hledani_v_mluvenych_korpusech [2018/08/08 17:34] – [Metainformace u KWIC] vaclavcvrcek |
---|
====== Orientace v konkordanci ====== | ====== Orientace v konkordanci ====== |
| |
Jak již bylo zmíněno v úvodu, z povahy materiálu vyplývá, že zorientovat se v konkordančních řádcích z mluveného korpusu bývá těžší než u korpusu psaného, ať už kvůli střídání mluvčích, syntaktické a tématické roztříštěnosti, velké závislosti promluv na sdíleném kontextu, který nelze badateli jednoduše zprostředkovat, nebo kvůli tomu, že přepis je při nejlepší vůli jen značně ochuzeným odrazem původní promluvy a některé lingvisticky relevantní a pro porozumění důležité informace v něm mohou chybět (intonace, detailní temporální struktura promluvy, která může naznačovat např. váhání, apod.). Obecně platí, že je dobrý nápad v [[manualy:kontext:zobrazeni#obecne_volby_zobrazeni_konkordance|obecných volbách zobrazení konkordance]] rozšířit kontext [[pojmy:kwic|KWIC]] na větší počet [[pojmy:pozice|pozic]], aby bylo možné si promluvu zasadit do širšího rámce. K témuž účelu poslouží kliknutí na KWIC, které vám zobrazí okénko s delším kusem dialogu. Pro lepší orientaci ve struktuře dialogu je lepší přepnout toto rozšířené okno z Výchozího zobrazení na Promluvy (viz obrázek). Každý mluvčí je barevně odlišen a jeho promluvu je možné si pustit pomocí symbolu reproduktoru. Toto zobrazení také umožňuje lepší přehled o překryvech, kterou jsou signalizovány spojením obou mluvčích pomocí +. | Jak již bylo zmíněno v úvodu, z povahy materiálu vyplývá, že zorientovat se v konkordančních řádcích z mluveného korpusu bývá těžší než u korpusu psaného, ať už kvůli střídání mluvčích, syntaktické a tématické roztříštěnosti, velké závislosti promluv na sdíleném kontextu, který nelze badateli jednoduše zprostředkovat, nebo kvůli tomu, že přepis je při nejlepší vůli jen značně ochuzeným odrazem původní promluvy a některé lingvisticky relevantní a pro porozumění důležité informace v něm mohou chybět (intonace, detailní temporální struktura promluvy, která může naznačovat např. váhání, apod.). Obecně platí, že je dobrý nápad v [[manualy:kontext:zobrazeni#obecne_volby_zobrazeni|obecných volbách zobrazení]] rozšířit kontext [[pojmy:kwic|KWIC]] na větší počet [[pojmy:pozice|pozic]], aby bylo možné si promluvu zasadit do širšího rámce. K témuž účelu poslouží kliknutí na KWIC, které vám zobrazí okénko s delším kusem dialogu. Pro lepší orientaci ve struktuře dialogu je lepší přepnout toto rozšířené okno z **Výchozího zobrazení** na **Promluvy** (viz obrázek). Každý mluvčí je barevně odlišen a jeho promluvu je možné si pustit pomocí symbolu reproduktoru. Toto zobrazení také umožňuje lepší přehled o překryvech, kterou jsou signalizovány spojením obou mluvčích pomocí +. |
| |
[{{ :kurz:dialog_mluv.png?direct | Zobrazení promluv a překryvu v dialogu}}] | [{{ :kurz:dialog_mluv.png?direct | Zobrazení promluv a překryvu v dialogu}}] |
==== ORAL2006 a ORAL2008 ==== | ==== ORAL2006 a ORAL2008 ==== |
| |
Jak jsme si řekli [[#CQL|výše]], byla v přepisu pro korpusy ORAL2006 a ORAL2008 snaha překrývající se repliky více mluvčích "rozplést" do samostatných ucelených promluv. Když se takový přepis zobrazí linearizovaný do jednoho konkordančního řádku, mělo by tedy být možné jej číst relativně pohodlně. Aby bylo možné určit hranice promluv jednotlivých mluvčích, je ovšem nutné v [[manualy:kontext:moznosti_zobrazeni#atributy_struktury_a_metainformace|zobrazení atributů, struktur a metainformací]] zaškrtnout zobrazení struktury ''<sp/>'', která tyto hranice značí. Je dobré zde rovnou zaškrtnout též poziční atribut ''sp.num'', který umožní odlišit v rámci sondy jednotlivé mluvčí. | Jak jsme si řekli [[#CQL|výše]], byla v přepisu pro korpusy ORAL2006 a ORAL2008 snaha překrývající se repliky více mluvčích "rozplést" do samostatných ucelených promluv. Když se takový přepis zobrazí linearizovaný do jednoho konkordančního řádku, mělo by tedy být možné jej číst relativně pohodlně. Aby bylo možné určit hranice promluv jednotlivých mluvčích, je ovšem nutné v [[manualy:kontext:zobrazeni#pozicni_atributy|zobrazení atributů, struktur a metainformací]] zaškrtnout zobrazení struktury ''<sp/>'', která tyto hranice značí. Je dobré zde rovnou zaškrtnout též poziční atribut ''sp.num'', který umožní odlišit v rámci sondy jednotlivé mluvčí. |
| |
[{{ :kurz:strukt_sp_num.png?direct | Volba zobrazení struktury ''<sp/>'' a strukturního atributu ''sp.num''}}] | [{{ :kurz:strukt_sp_num.png?direct | Volba zobrazení struktury ''<sp/>'' a strukturního atributu ''sp.num''}}] |
| |
Možnost přehrát si k replice odpovídající zvukovou nahrávku v těchto dvou korpusech není k dispozici. | Možnost přehrát si k replice odpovídající zvukovou nahrávku v těchto dvou korpusech není k dispozici. |
| |
==== ORAL2013 ==== | ==== ORAL2013 ==== |
| |
==== Vizualizace v externím nástroji MluvKonk ==== | ==== Vizualizace v externím nástroji MluvKonk ==== |
| |
U složitějších dialogů může být luštění linearizovaných konkordancí poněkud náročné, nemluvě o tom, že je těžké na jejich základě nějak intuitivně nahlédnout strukturu dialogu. Pokud je pro vás právě tento aspekt dat důležitý, můžete zkusit konkordanci nahrát do externího nástroje [[https://trnka.korpus.cz/~lukes/mluvkonk/|MluvKonk]] a analýzu provést v něm. | U složitějších dialogů může být luštění linearizovaných konkordancí poněkud náročné, nemluvě o tom, že je těžké na jejich základě nějak intuitivně nahlédnout strukturu dialogu. Pokud je pro vás právě tento aspekt dat důležitý, můžete zkusit konkordanci nahrát do externího nástroje [[https://trnka.korpus.cz/~lukes/mluvkonk/|MluvKonk]] FIXME a analýzu provést v něm. |
| |
MluvKonk umí konkordanční řádek | MluvKonk umí konkordanční řádek |
| |
Takové zobrazení může být užitečné zejména u složitějších dialogů s množstvím překryvů pocházejících z korpusu ORAL2013. Doplnění podobné funkce do KonTextu je ve stadiu plánování. | Takové zobrazení může být užitečné zejména u složitějších dialogů s množstvím překryvů pocházejících z korpusu ORAL2013. Doplnění podobné funkce do KonTextu je ve stadiu plánování. |
| |
===== Metainformace u KWIC ===== | ===== Metainformace u KWIC ===== |
| |
[{{ :kurz:metainformace_v_konkordanci_oral.png?direct | Metainformace se zobrazují na levém kraji konkordanci a vždy se vztahují ke KWIC, nicméně jde o stejný údaj jako u odpovídajícího strukturního atributu (zde např. hodnota ''sp.prekryv'') }}] | [{{ :kurz:metainformace_v_konkordanci_oral.png?direct | Metainformace se zobrazují na levém kraji konkordanci a vždy se vztahují ke KWIC, nicméně jde o stejný údaj jako u odpovídajícího strukturního atributu (zde např. hodnota ''sp.prekryv'') }}] |
| |
Nezapomínejme také na to, že zdrojem velmi zajímavých sociolingvistických analýz mohou být frekvenční distribuce vytvořené na základě metainformací v menu [[manualy:kontext:frekvencni_distribuce#frekvencni_distribuce_podle_strukturnich_atributu|Frekvence → Vlastní]]. S jejich pomocí je možné zjistit, zda hledaný výraz na pozici KWIC používají více ženy, či muži, mladší, či starší mluvčí, případně zda má nějaká regionální specifika, či se naopak zdá být sdílený všemi mluvčími češtiny bez rozdílů. | Zdrojem velmi zajímavých sociolingvistických analýz mohou být frekvenční distribuce vytvořené na základě metainformací v menu [[manualy:kontext:frekvence#vlastni_nastaveni_frekvencni_distribuce|Frekvence → Vlastní]]. S jejich pomocí je možné zjistit, zda hledaný výraz na pozici KWIC používají více ženy, či muži, mladší, či starší mluvčí, případně zda má nějaká regionální specifika, či se naopak zdá být sdílený všemi mluvčími češtiny bez rozdílů. |
| |
[{{ :kurz:frek_dist_meta_zadani.png?direct | Frekvenční distribuce podle metainformací: může nás např. zajímat rozložení podle pohlaví -- užívají daný výraz více ženy, nebo muži? FIXME}}] | [{{ :kurz:frek_dist_meta_zadani.png?direct | Frekvenční distribuce podle metainformací: může nás např. zajímat rozložení podle pohlaví -- užívají daný výraz více ženy, nebo muži? FIXME}}] |
| |
[{{ :kurz:frek_dist_meta_vysledek.png?direct | Frekvenční distribuce dotazu ''[word=%%"(?i)koč(ič|k).*"%%]'' podle pohlaví: zdá se, že alespoň v korpusu ORAL2013 o kočkách, kočičkách ap. mluví více ženy než muži}}] | [{{ :kurz:frek_dist_meta_vysledek.png?direct | Frekvenční distribuce dotazu ''[word=%%"(?i)koč(ič|k).*"%%]'' podle pohlaví: zdá se, že alespoň v korpusu ORAL2013 o kočkách, kočičkách ap. mluví více ženy než muži FIXME}}] |
====== Některé zajímavé dotazy ====== | ====== Některé zajímavé dotazy ====== |
| |