Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
kurz:subkorpusy [2018/11/02 15:01] – [Veřejné subkorpusy] vaclavcvrcek | kurz:subkorpusy [2021/04/26 14:41] (aktuální) – [Veřejné subkorpusy] michalskrabal |
---|
Už umíme [[kurz:prvni_dotaz|položit dotaz]], zobrazit si [[kurz:zobrazeni_dotazu|výsledek]], [[kurz:vyhodnoceni_dotazu|vyhodnotit]] ho, zabývali jsme se tvorbou pokročilých dotazů s pomocí [[kurz:regularni_vyrazy|regulárních výrazů]] a [[kurz:pokrocile_dotazy|CQL]] a konečně v předchozí lekci jsme si představili, jaké nástroje jsou k dispozici pro hledání [[kurz:hledani_kolokaci|kolokací]]. Spíše než tomu, jak pokládat dotazy, se v této lekci budeme věnovat tomu, v jakých datech vyhledáváme. | Už umíme [[kurz:prvni_dotaz|položit dotaz]], zobrazit si [[kurz:zobrazeni_dotazu|výsledek]], [[kurz:vyhodnoceni_dotazu|vyhodnotit]] ho, zabývali jsme se tvorbou pokročilých dotazů s pomocí [[kurz:regularni_vyrazy|regulárních výrazů]] a [[kurz:pokrocile_dotazy|CQL]] a konečně v předchozí lekci jsme si představili, jaké nástroje jsou k dispozici pro hledání [[kurz:hledani_kolokaci|kolokací]]. Spíše než tomu, jak pokládat dotazy, se v této lekci budeme věnovat tomu, v jakých datech vyhledáváme. |
| |
Pro dosažení optimálních výsledků totiž nestačí jen umět dotaz vytvořit, je také třeba co nejpřesněji vědět, jaká jsou data, která používáme. Před započetím jakékoli práce s korpusem bychom se proto nejdřív měli seznámit s jeho strukturou a obsahem. Pro mnoho výzkumných otázek je vhodné použít některý z [[pojmy:reprezentativnost|reprezentativních]] korpusů (nejlépe vždy ten nejnovější, např. [[cnk:syn2015|SYN2015]]). V některých případech je ovšem potřeba hledání omezit na určitý typ textů (např. pouze na beletrii, na díla starší, než je určitý rok, na díla původem česká apod.). Pomocí volby **Omezit hledání** podle metainformací nebo prostřednictvím **[[pojmy:subkorpus|trvalých subkorpusů]]** je možné zkoumat jazyk určitého typu (autorský, dobový či konkrétního žánru). | Pro dosažení optimálních výsledků totiž nestačí jen umět dotaz vytvořit, je také třeba co nejpřesněji vědět, jaká jsou data, která používáme. Před započetím jakékoli práce s korpusem bychom se proto nejdřív měli seznámit s jeho strukturou a obsahem. Pro mnoho výzkumných otázek je vhodné použít některý z [[pojmy:reprezentativnost|reprezentativních]] korpusů (nejlépe vždy ten nejnovější, např. [[cnk:syn2020|SYN2020]]). V některých případech je ovšem potřeba hledání omezit na určitý typ textů (např. pouze na beletrii, na díla starší, než je určitý rok, na díla původem česká apod.). Pomocí volby **Omezit hledání** podle metainformací nebo prostřednictvím **[[pojmy:subkorpus|trvalých subkorpusů]]** je možné zkoumat jazyk určitého typu (autorský, dobový či konkrétního žánru). |
| |
Co jsou to metainformace a kde se o nich dozvíme více? [[pojmy:metadata|Metainformace]], tj. informace o názvu, autorovi, roce vydání apod., obsahuje každý text v korpusu. Lze podle nich i vyhledávat – můžeme například najít všechny texty daného autora, texty, které jsou přeložené z konkrétního jazyka nebo které byly vydány v určitém časovém rozmezí. V mluvených korpusech lze vyhledávat podle sociolingvistických údajů týkajících se mluvčích, jako je věk, vzdělání či nářeční oblast (viz specializovaná [[kurz:hledani_v_mluvenych_korpusech#vyber_textu|bonusová lekce]]). | Co jsou to metainformace a kde se o nich dozvíme více? [[pojmy:metadata|Metainformace]], tj. informace o názvu, autorovi, roce vydání apod., obsahuje každý text v korpusu. Lze podle nich i vyhledávat – můžeme například najít všechny texty daného autora, texty, které jsou přeložené z konkrétního jazyka nebo které byly vydány v určitém časovém rozmezí. V mluvených korpusech lze vyhledávat podle sociolingvistických údajů týkajících se mluvčích, jako je věk, vzdělání či nářeční oblast (viz specializovaná [[kurz:hledani_v_mluvenych_korpusech#vyber_textu|bonusová lekce]]). |
| |
[{{ :kurz:holmes-metadata.png?direct&350|Zobrazení metadat v konkordanci FIXME}}] | [{{ :kurz:holmes-metadata.png?direct&350|Zobrazení metadat v konkordanci }}] |
| |
Kde najdeme seznam příslušných metainformací? | Kde najdeme seznam příslušných metainformací? |
===== Jednorázové vyhledávání v určitém typu textů ===== | ===== Jednorázové vyhledávání v určitém typu textů ===== |
| |
Pokud chceme pouze jednorázově, tedy pro jediný dotaz, omezit vyhledávání jen na určitou skupinu textů, můžeme tuto skupinu blíže určit pomocí volby [[manualy:kontext:novy_dotaz#omezit_hledani|Omezit hledání]]. Podle typu korpusu lze zaškrtáváním vybrat skupinu textů např. podle žánru, média a jazyka originálu (SYN2015: nepřeložené učební texty z oblasti humanitních věd), podle nářeční oblasti a pohlaví mluvčích ([[cnk:oral2013|ORAL2013]]: ženy z jihozápadočeské nářeční oblasti) nebo podle období ([[cnk:diakorp|Diakorp]]: všechny texty z 16. století). | Pokud chceme pouze jednorázově, tedy pro jediný dotaz, omezit vyhledávání jen na určitou skupinu textů, můžeme tuto skupinu blíže určit pomocí volby [[manualy:kontext:novy_dotaz#omezit_hledani|Omezit hledání]]. Podle typu korpusu lze zaškrtáváním vybrat skupinu textů např. podle žánru, média a jazyka originálu (SYN2020: nepřeložené učební texty z oblasti humanitních věd), podle nářeční oblasti a pohlaví mluvčích ([[cnk:oral2013|ORAL2013]]: ženy z jihozápadočeské nářeční oblasti) nebo podle období ([[cnk:diakorp|Diakorp]]: všechny texty z 16. století). |
| |
Chceme-li např. v korpusu SYN2015 najít výskyty lemmatu //buňka// pouze v odborných textech z oboru biologie, budeme dotaz specifikovat následujícím způsobem: v kolonce **doc.txtype_group** zaškrtneme políčko **NFC: oborová**, v kolonce **doc.txtype** políčko **SCI: odborná literatura** a v kolonce **doc.genre** políčko **BIO: biologie**. Pokud chceme zjistit, kterých textů se daný výběr týká, stačí zmáčknout tlačítko **Zúžit výběr**. Objeví se okénko s aplikovaným filtrem a počtem pozic v daném výběru. Není-li už náš výběr příliš omezený, lze na něj dále aplikovat další filtry, případně jej celý zrušit kliknutím na volbu **Zrušit výběr**. Tak bychom mohli omezit původní filtr ještě požadavkem na výskyt pouze v příručkách referenčního typu (kolonka **doc.medium**), kam spadají např. encyklopedie, slovníky apod. Definitivní výběr by pak vypadal takto: | Chceme-li např. v korpusu SYN2020 najít výskyty lemmatu //buňka// pouze v odborných textech z oboru biologie, budeme dotaz specifikovat následujícím způsobem: v kolonce **doc.txtype_group** zaškrtneme políčko **NFC: oborová**, v kolonce **doc.txtype** políčko **SCI: odborná literatura** a v kolonce **doc.genre** políčko **BIO: biologie**. Pokud chceme zjistit, kterých textů se daný výběr týká, stačí zmáčknout tlačítko **Zúžit výběr**. Objeví se okénko s aplikovaným filtrem a počtem pozic v daném výběru. Není-li už náš výběr příliš omezený, lze na něj dále aplikovat další filtry, případně jej celý zrušit kliknutím na volbu **Zrušit výběr**. Tak bychom mohli omezit původní filtr ještě požadavkem na výskyt pouze v příručkách referenčního typu (kolonka **doc.medium**), kam spadají např. encyklopedie, slovníky apod. Definitivní výběr by pak vypadal takto: |
| |
[{{:kurz:vyber02.png?800| Výběr textů na základě metainformací FIXME}}] | [{{:kurz:vyber03.png?direct&800| Výběr textů na základě metainformací }}] |
| |
| |
Pro jednorázovou specifikaci subkorpusu, na nějž chceme dotaz omezit, můžeme využít podmínku ''[[pojmy:within|within]]'' v rámci [[pojmy:cql|CQL]] dotazu: | Pro jednorázovou specifikaci subkorpusu, na nějž chceme dotaz omezit, můžeme využít podmínku ''[[pojmy:within|within]]'' v rámci [[pojmy:cql|CQL]] dotazu: |
| |
* Hledáme citoslovce u Karla Čapka (v nereferenčním korpusu SYN): ''[tag=%%"I.*"%%] within <opus autor=%%"Čapek, Karel"%% />'' | * Hledáme citoslovce u Karla Čapka (v nereferenčním korpusu [[cnk:syn:verze8|SYN, verze 8]]): ''[tag=%%"I.*"%%] within <doc author=%%"Čapek, Karel"%% />'' |
| |
| |
| |
* 1. krok je vždy stejný: Musíme vybrat výchozí korpus, z něhož budeme volit odpovídající podmnožinu dat. | * 1. krok je vždy stejný: Musíme vybrat výchozí korpus, z něhož budeme volit odpovídající podmnožinu dat. |
* 2. krok: V jednotlivých kolonkách strukturních typů zaškrtáme své volby příslušných kategorií. Čísla napravo od nich představují velikost textů v dané kategorii (vpravo nahoře lze přepínat mezi počty dokumentů či [[pojmy:token|tokenů]]). Na základě těchto údajů je možné vytvářet subkorpus s určitými proporcemi. Svou volbu můžeme upravovat pomocí tlačítek **Zúžit výběr** a **Zrušit výběr**. Je-li výběr dostatečně úzký, lze vybírat také přímo z konkrétních děl (**doc.title** v SYN2015, **opus.nazev** ve starších psaných korpusech). | * 2. krok: V jednotlivých kolonkách strukturních typů zaškrtáme své volby příslušných kategorií. Čísla napravo od nich představují velikost textů v dané kategorii v počtu [[pojmy:token|tokenů]]. Na základě těchto údajů je možné vytvářet subkorpus s určitými proporcemi. Svou volbu můžeme upravovat pomocí tlačítek **Zúžit výběr** a **Zrušit výběr**. Je-li výběr dostatečně úzký, lze vybírat také přímo z konkrétních děl (**doc.title** v SYN2020 a SYN2015, **opus.nazev** ve starších psaných korpusech). |
* 3. krok: Subkorpusu je potřeba přidělit jméno (tj. jednoznačný a jedinečný identifikátor, který v rámci seznamu vašich existujících subkorpusů vytvořených z daného zdrojového korpusu dosud nebyl použit). | * 3. krok: Subkorpusu je potřeba přidělit jméno (tj. jednoznačný a jedinečný identifikátor, který v rámci seznamu vašich existujících subkorpusů vytvořených z daného zdrojového korpusu dosud nebyl použit). |
| |
Poté stačí kliknout na tlačítko **Vytvořit subkorpus** a ten se stane součástí vaší nabídky dostupných korpusů. Při zadávání dotazu se ve formuláři vedle tlačítka pro volbu korpusu objeví další prvek, v němž je možné vybírat buď celý korpus, nebo libovolný subkorpus, který z něj byl vytvořen. Subkorpus je navíc možné si přidat mezi oblíbené korpusy, takže bude snadno a rychle dostupný. | Poté stačí kliknout na tlačítko **Vytvořit subkorpus** a ten se stane součástí vaší nabídky dostupných korpusů. Při zadávání dotazu se ve formuláři vedle tlačítka pro volbu korpusu objeví další prvek, v němž je možné vybírat buď celý korpus, nebo libovolný subkorpus, který z něj byl vytvořen. Subkorpus je navíc možné si přidat mezi oblíbené korpusy, takže bude snadno a rychle dostupný. |
| |
[{{:kurz:subkorpusnovy.png?400|Nejprve vybereme //Vytvořit nový subkorpus// a poté specifikujeme podmínky}}] | [{{:kurz:subkorpusnovy.png?direct&400|Nejprve vybereme //Vytvořit nový subkorpus// a poté specifikujeme podmínky}}] |
==== Trvalý subkorpus pro pokročilé: vytvoření vlastnoručním stanovením podmínek ==== | ==== Trvalý subkorpus pro pokročilé: vytvoření vlastnoručním stanovením podmínek ==== |
| |
Specifický subkorpus můžeme vytvořit i pomocí podmínky [[pojmy:within|within]], o níž jsme mluvili v rámci [[kurz:pokrocile_dotazy#hledani_v_ramci_jedne_vety|lekce o CQL]]. Výhodou této složitější cesty je to, že můžeme pracovat s celou škálou informací, které nám korpusový materiál nabízí, nevýhodou je její náročnost (je třeba znát jak struktury v různých korpusech, tak jednotlivé atributy i jejich hodnoty a konkrétní formát). | Specifický subkorpus můžeme vytvořit i pomocí podmínky [[pojmy:within|within]], o níž jsme mluvili v rámci [[kurz:pokrocile_dotazy#hledani_v_ramci_jedne_vety|lekce o CQL]]. Výhodou této složitější cesty je to, že můžeme pracovat s celou škálou informací, které nám korpusový materiál nabízí, nevýhodou je její náročnost (je třeba znát jak struktury v různých korpusech, tak jednotlivé atributy i jejich hodnoty a konkrétní formát). |
| |
V menu vyberte položku **Korpusy → Vytvořit nový subkorpus**. Na zobrazené stránce nejprve zvolte korpus, z něhož chcete texty vybírat (u psaných korpusů nejčastěji [[cnk:syn2015|SYN2015]] či daleko rozsáhlejší [[cnk:syn|SYN]]), a svůj nový subkorpus nezapomeňte pojmenovat. Poté zvolte možnost Specifikovat subkorpus pomocí volby: **Vlastní within podmínka**. To umožní vybrat do subkorpusu texty (v psaných korpusech) či např. mluvčí (v mluvených korpusech) odpovídající konkrétním podmínkám. V psaných korpusech se obvykle vybírají texty, tzv. **opusy** či struktury typu **doc**. Do prázdného políčka je třeba vyplnit konkrétní podmínku. Následující příklady pocházejí z korpusu SYN2015: | V menu vyberte položku **Korpusy → Vytvořit nový subkorpus**. Na zobrazené stránce nejprve zvolte korpus, z něhož chcete texty vybírat (u psaných korpusů nejčastěji [[cnk:syn2020|SYN2020]] či daleko rozsáhlejší [[cnk:syn|SYN]]), a svůj nový subkorpus nezapomeňte pojmenovat. Poté zvolte možnost Specifikovat subkorpus pomocí volby: **Vlastní within podmínka**. To umožní vybrat do subkorpusu texty (v psaných korpusech) či např. mluvčí (v mluvených korpusech) odpovídající konkrétním podmínkám. V psaných korpusech se obvykle vybírají texty, tzv. **opusy** či struktury typu **doc**. Do prázdného políčka je třeba vyplnit konkrétní podmínku. Následující příklady pocházejí z korpusu SYN2020: |
| |
* ''txtype_group=%%"FIC.*"%%'' – v subkorpusu budou obsaženy všechny beletristické texty z původního korpusu | * ''txtype_group=%%"FIC.*"%%'' – v subkorpusu budou obsaženy všechny beletristické texty z původního korpusu |
* ''author=%%"Hrabal, Bohumil"%%'' – v subkorpusu budou obsaženy všechny texty, jejichž autorem je B. Hrabal (u vytváření podmínky obsahující jméno autora je vždy třeba dodržet tento konkrétní formát, případně autorovo jméno zkrátit, ale např. podmínka ''author=%%"Čapek.*"%%'' vztažená na velký korpus SYN by zahrnula texty nejen od obou bratrů Čapkových, ale též od méně známé bratrské dvojice [[http://www.databazeknih.cz/zivotopis/karel-jan-capek-4910|Karla Jana]] a [[http://www.databazeknih.cz/autori/michal-capek-10857|Michala]] Čapků) | * ''author=%%"Soukupová, Petra"%%'' – v subkorpusu budou obsaženy všechny texty, jejichž autorkou je P. Soukupová (u vytváření podmínky obsahující jméno autora je vždy třeba dodržet tento konkrétní formát, případně autorovo jméno zkrátit, ale např. podmínka ''author=%%"Čapek.*"%%'' vztažená na velký korpus SYN by zahrnula texty nejen od obou bratrů Čapkových, ale též od méně známé bratrské dvojice [[http://www.databazeknih.cz/zivotopis/karel-jan-capek-4910|Karla Jana]] a [[http://www.databazeknih.cz/autori/michal-capek-10857|Michala]] Čapků) |
* ''genre=%%"BIO.*"%%'' – subkorpus zahrne všechny texty z oboru biologie | * ''genre=%%"BIO.*"%%'' – subkorpus zahrne všechny texty z oboru biologie |
* ''pubyear=%%"200[5-9]"%%'' – subkorpus bude obsahovat všechny texty z let 2005 až 2009 | * ''pubyear=%%"200[5-9]"%%'' – subkorpus bude obsahovat všechny texty z let 2005 až 2009 |
Subkorpusy můžeme spravovat a ty nepotřebné mazat v sekci **[[manualy:kontext:korpusy#prehled_existujicich_subkorpusu|Mé subkorpusy]]**. | Subkorpusy můžeme spravovat a ty nepotřebné mazat v sekci **[[manualy:kontext:korpusy#prehled_existujicich_subkorpusu|Mé subkorpusy]]**. |
| |
[{{:kurz:smazatsubkorpus.png?| Mé subkorpusy – možnost smazání subkorpusu FIXME}}] | [{{:kurz:smazatsubkorpus.png?direct&500| Mé subkorpusy – možnost smazání subkorpusu }}] |
| |
==== Veřejné subkorpusy ==== | ==== Veřejné subkorpusy ==== |
Unikátní klíč lze zobrazit, pokud si uživatel vybere vytvořený korpus k práci a nechá si zobrazit informace o něm (odkaz na začátku drobečkové navigace pod logem KonText). | Unikátní klíč lze zobrazit, pokud si uživatel vybere vytvořený korpus k práci a nechá si zobrazit informace o něm (odkaz na začátku drobečkové navigace pod logem KonText). |
| |
Korpus je pak možné vyvolat v měnu **Veřejné subkorpusy** buď zadáním unikátního klíče nebo podle příjmení autora subkorpusu (je třeba zadat alespoň 4 počáteční znaky). | Korpus je pak možné vyvolat v menu **Veřejné subkorpusy** buď zadáním unikátního klíče, nebo podle příjmení autora subkorpusu (je třeba zadat alespoň 4 počáteční znaky). |
| |
===== Vyzkoušejte si na závěr ===== | ===== Vyzkoušejte si na závěr ===== |
| |
| |
---- | |
| |
| ===== Kam dál? ===== |
| |
| |