Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:subkorpusy [2018/07/30 15:43] – [Vytvoření trvalého subkorpusu] michalskrabal | kurz:subkorpusy [2018/08/08 12:12] – [Vytvoření trvalého subkorpusu] michalskrabal |
---|
====== 7. lekce: Subkorpusy a podmínky ====== | ====== 7. lekce: Subkorpusy a podmínky ====== |
| |
Už umíme [[kurz:prvni_dotaz|položit dotaz]], zobrazit si [[kurz:zobrazeni_dotazu|výsledek]], [[kurz:vyhodnoceni_dotazu|vyhodnotit]] ho, zabývali jsme se tvorbou pokročilých dotazů s pomocí [[kurz:regularni_vyrazy|regulárních výrazů]] a [[kurz:pokrocile_dotazy|CQL]], a konečně v předchozí lekci jsme si představili, jaké nástroje jsou k dispozici pro hledání [[kurz:hledani_kolokaci|kolokací]]. Spíše než tomu, jak pokládat dotazy, se v této lekci budeme věnovat tomu, **v jakých datech vyhledáváme**. | Už umíme [[kurz:prvni_dotaz|položit dotaz]], zobrazit si [[kurz:zobrazeni_dotazu|výsledek]], [[kurz:vyhodnoceni_dotazu|vyhodnotit]] ho, zabývali jsme se tvorbou pokročilých dotazů s pomocí [[kurz:regularni_vyrazy|regulárních výrazů]] a [[kurz:pokrocile_dotazy|CQL]] a konečně v předchozí lekci jsme si představili, jaké nástroje jsou k dispozici pro hledání [[kurz:hledani_kolokaci|kolokací]]. Spíše než tomu, jak pokládat dotazy, se v této lekci budeme věnovat tomu, v jakých datech vyhledáváme. |
| |
Pro dosažení optimálních výsledků totiž nestačí jen umět dotaz vytvořit, je také třeba co nejpřesněji vědět, jaká jsou data, která používáme. Před započetím jakékoli práce s korpusem bychom se proto nejdřív měli seznámit s jeho strukturou a obsahem. Pro mnoho výzkumných otázek je vhodné použít některý z [[pojmy:reprezentativnost|reprezentativních]] korpusů (nejlépe vždy ten nejnovější, např. [[cnk:syn2015|SYN2015]]). V některých případech je ovšem potřeba hledání omezit na určitý typ textů (např. pouze na beletrii, na díla starší, než je určitý rok, na díla původem česká apod.). Pomocí **výběru textů** podle metainformací nebo prostřednictvím **[[pojmy:subkorpus|trvalých subkorpusů]]** je možné zkoumat jazyk určitého typu (autorský, dobový či konkrétního žánru). | Pro dosažení optimálních výsledků totiž nestačí jen umět dotaz vytvořit, je také třeba co nejpřesněji vědět, jaká jsou data, která používáme. Před započetím jakékoli práce s korpusem bychom se proto nejdřív měli seznámit s jeho strukturou a obsahem. Pro mnoho výzkumných otázek je vhodné použít některý z [[pojmy:reprezentativnost|reprezentativních]] korpusů (nejlépe vždy ten nejnovější, např. [[cnk:syn2015|SYN2015]]). V některých případech je ovšem potřeba hledání omezit na určitý typ textů (např. pouze na beletrii, na díla starší, než je určitý rok, na díla původem česká apod.). Pomocí volby **Omezit hledání** podle metainformací nebo prostřednictvím **[[pojmy:subkorpus|trvalých subkorpusů]]** je možné zkoumat jazyk určitého typu (autorský, dobový či konkrétního žánru). |
| |
Co jsou to metainformace a kde se o nich dozvíme více? [[pojmy:metadata|Metainformace]], tj. informace o názvu, autorovi, roce vydání apod., obsahuje každý text v korpusu. Lze podle nich i vyhledávat – můžeme například najít všechny texty daného autora, texty, které jsou přeložené z konkrétního jazyka nebo které byly vydány v určitém časovém rozmezí. V mluvených korpusech lze vyhledávat podle sociolingvistických údajů týkajících se mluvčích, jako je věk, vzdělání či nářeční oblast (viz specializovaná [[kurz:hledani_v_mluvenych_korpusech#vyber_textu|bonusová lekce]]). | Co jsou to metainformace a kde se o nich dozvíme více? [[pojmy:metadata|Metainformace]], tj. informace o názvu, autorovi, roce vydání apod., obsahuje každý text v korpusu. Lze podle nich i vyhledávat – můžeme například najít všechny texty daného autora, texty, které jsou přeložené z konkrétního jazyka nebo které byly vydány v určitém časovém rozmezí. V mluvených korpusech lze vyhledávat podle sociolingvistických údajů týkajících se mluvčích, jako je věk, vzdělání či nářeční oblast (viz specializovaná [[kurz:hledani_v_mluvenych_korpusech#vyber_textu|bonusová lekce]]). |
| |
[{{ :kurz:holmes-metadata.png?direct&350|Zobrazení metadat v konkordanci}}] | [{{ :kurz:holmes-metadata.png?direct&350|Zobrazení metadat v konkordanci FIXME}}] |
| |
Kde najdeme seznam příslušných metainformací? | Kde najdeme seznam příslušných metainformací? |
Pokud chceme pouze jednorázově, tedy pro jediný dotaz, omezit vyhledávání jen na určitou skupinu textů, můžeme tuto skupinu blíže určit pomocí volby [[manualy:kontext:novy_dotaz#omezit_hledani|Omezit hledání]]. Podle typu korpusu lze zaškrtáváním vybrat skupinu textů např. podle žánru, média a jazyka originálu (SYN2015: nepřeložené učební texty z oblasti humanitních věd), podle nářeční oblasti a pohlaví mluvčích ([[cnk:oral2013|ORAL2013]]: ženy z jihozápadočeské nářeční oblasti) nebo podle období ([[cnk:diakorp|Diakorp]]: všechny texty z 16. století). | Pokud chceme pouze jednorázově, tedy pro jediný dotaz, omezit vyhledávání jen na určitou skupinu textů, můžeme tuto skupinu blíže určit pomocí volby [[manualy:kontext:novy_dotaz#omezit_hledani|Omezit hledání]]. Podle typu korpusu lze zaškrtáváním vybrat skupinu textů např. podle žánru, média a jazyka originálu (SYN2015: nepřeložené učební texty z oblasti humanitních věd), podle nářeční oblasti a pohlaví mluvčích ([[cnk:oral2013|ORAL2013]]: ženy z jihozápadočeské nářeční oblasti) nebo podle období ([[cnk:diakorp|Diakorp]]: všechny texty z 16. století). |
| |
Chceme-li např. v korpusu SYN2015 najít výskyty lemmatu //buňka// pouze v odborných textech z oboru biologie, budeme dotaz specifikovat následujícím způsobem: v kolonce **doc.txtype_group** zaškrtneme políčko **NFC: oborová**, v kolonce **doc.txtype** políčko **SCI: odborná literatura** a v kolonce **doc.genre** políčko **BIO: biologie**. Pokud chceme zjistit, kterých textů se daný výběr týká, stačí zmáčknout tlačítko **zúžit výběr**. Objeví se okénko s aplikovaným filtrem a počtem pozic v daném výběru. Není-li už náš výběr příliš omezený, lze na něj dále aplikovat další filtry, případně jej celý zrušit kliknutím na volbu **zrušit výběr**. Tak bychom mohli omezit původní filtr ještě požadavkem na výskyt pouze v příručkách referenčního typu (kolonka **doc.medium**), kam spadají např. encyklopedie, slovníky apod. Definitivní výběr by pak vypadal takto: | Chceme-li např. v korpusu SYN2015 najít výskyty lemmatu //buňka// pouze v odborných textech z oboru biologie, budeme dotaz specifikovat následujícím způsobem: v kolonce **doc.txtype_group** zaškrtneme políčko **NFC: oborová**, v kolonce **doc.txtype** políčko **SCI: odborná literatura** a v kolonce **doc.genre** políčko **BIO: biologie**. Pokud chceme zjistit, kterých textů se daný výběr týká, stačí zmáčknout tlačítko **Zúžit výběr**. Objeví se okénko s aplikovaným filtrem a počtem pozic v daném výběru. Není-li už náš výběr příliš omezený, lze na něj dále aplikovat další filtry, případně jej celý zrušit kliknutím na volbu **Zrušit výběr**. Tak bychom mohli omezit původní filtr ještě požadavkem na výskyt pouze v příručkách referenčního typu (kolonka **doc.medium**), kam spadají např. encyklopedie, slovníky apod. Definitivní výběr by pak vypadal takto: |
| |
[{{:kurz:vyber02.png?800| Výběr textů na základě metainformací}}] FIXME | [{{:kurz:vyber02.png?800| Výběr textů na základě metainformací FIXME}}] |
| |
| |
===== Vytvoření trvalého subkorpusu ===== | ===== Vytvoření trvalého subkorpusu ===== |
| |
Vytvoření **trvalého subkorpusu** se do značné míry podobá volbě [[kurz:subkorpusy#jednorazove_vyhledavani_v_urcitem_typu_textu|Omezit hledání]]. Na rozdíl od vytvoření dočasného subkorpusu, který slouží k jednorázovému vyhledávání, lze však stálý subkorpus používat opakovaně. Zůstane totiž součástí konkrétního uživatelského účtu a bude k dispozici kdekoli, kde se daný uživatel přihlásí do KonTextu. | Vytvoření **trvalého subkorpusu** se do značné míry podobá volbě [[kurz:subkorpusy#jednorazove_vyhledavani_v_urcitem_typu_textu|Omezit hledání]]. Na rozdíl od vytvoření dočasného subkorpusu, který slouží k jednorázovému vyhledávání, lze však stálý subkorpus používat opakovaně. Zůstane totiž součástí konkrétního uživatelského účtu a bude k dispozici vždy, když se daný uživatel přihlásí do KonTextu. |
| |
==== Trvalý subkorpus: vytvoření pomocí naklikání ==== | ==== Trvalý subkorpus: vytvoření pomocí naklikání ==== |