Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:subkorpusy [2021/04/26 10:15] – [Jednorázové vyhledávání v určitém typu textů] vaclavcvrcek | kurz:subkorpusy [2021/04/26 10:28] – [Trvalý subkorpus pro pokročilé: vytvoření vlastnoručním stanovením podmínek] vaclavcvrcek |
---|
Pokud chceme pouze jednorázově, tedy pro jediný dotaz, omezit vyhledávání jen na určitou skupinu textů, můžeme tuto skupinu blíže určit pomocí volby [[manualy:kontext:novy_dotaz#omezit_hledani|Omezit hledání]]. Podle typu korpusu lze zaškrtáváním vybrat skupinu textů např. podle žánru, média a jazyka originálu (SYN2020: nepřeložené učební texty z oblasti humanitních věd), podle nářeční oblasti a pohlaví mluvčích ([[cnk:oral2013|ORAL2013]]: ženy z jihozápadočeské nářeční oblasti) nebo podle období ([[cnk:diakorp|Diakorp]]: všechny texty z 16. století). | Pokud chceme pouze jednorázově, tedy pro jediný dotaz, omezit vyhledávání jen na určitou skupinu textů, můžeme tuto skupinu blíže určit pomocí volby [[manualy:kontext:novy_dotaz#omezit_hledani|Omezit hledání]]. Podle typu korpusu lze zaškrtáváním vybrat skupinu textů např. podle žánru, média a jazyka originálu (SYN2020: nepřeložené učební texty z oblasti humanitních věd), podle nářeční oblasti a pohlaví mluvčích ([[cnk:oral2013|ORAL2013]]: ženy z jihozápadočeské nářeční oblasti) nebo podle období ([[cnk:diakorp|Diakorp]]: všechny texty z 16. století). |
| |
Chceme-li např. v korpusu SYN2015 najít výskyty lemmatu //buňka// pouze v odborných textech z oboru biologie, budeme dotaz specifikovat následujícím způsobem: v kolonce **doc.txtype_group** zaškrtneme políčko **NFC: oborová**, v kolonce **doc.txtype** políčko **SCI: odborná literatura** a v kolonce **doc.genre** políčko **BIO: biologie**. Pokud chceme zjistit, kterých textů se daný výběr týká, stačí zmáčknout tlačítko **Zúžit výběr**. Objeví se okénko s aplikovaným filtrem a počtem pozic v daném výběru. Není-li už náš výběr příliš omezený, lze na něj dále aplikovat další filtry, případně jej celý zrušit kliknutím na volbu **Zrušit výběr**. Tak bychom mohli omezit původní filtr ještě požadavkem na výskyt pouze v příručkách referenčního typu (kolonka **doc.medium**), kam spadají např. encyklopedie, slovníky apod. Definitivní výběr by pak vypadal takto: | Chceme-li např. v korpusu SYN2020 najít výskyty lemmatu //buňka// pouze v odborných textech z oboru biologie, budeme dotaz specifikovat následujícím způsobem: v kolonce **doc.txtype_group** zaškrtneme políčko **NFC: oborová**, v kolonce **doc.txtype** políčko **SCI: odborná literatura** a v kolonce **doc.genre** políčko **BIO: biologie**. Pokud chceme zjistit, kterých textů se daný výběr týká, stačí zmáčknout tlačítko **Zúžit výběr**. Objeví se okénko s aplikovaným filtrem a počtem pozic v daném výběru. Není-li už náš výběr příliš omezený, lze na něj dále aplikovat další filtry, případně jej celý zrušit kliknutím na volbu **Zrušit výběr**. Tak bychom mohli omezit původní filtr ještě požadavkem na výskyt pouze v příručkách referenčního typu (kolonka **doc.medium**), kam spadají např. encyklopedie, slovníky apod. Definitivní výběr by pak vypadal takto: |
| |
[{{:kurz:vyber02.png?direct&800| Výběr textů na základě metainformací }}] | [{{:kurz:vyber03.png?direct&800| Výběr textů na základě metainformací }}] |
| |
| |
Pro jednorázovou specifikaci subkorpusu, na nějž chceme dotaz omezit, můžeme využít podmínku ''[[pojmy:within|within]]'' v rámci [[pojmy:cql|CQL]] dotazu: | Pro jednorázovou specifikaci subkorpusu, na nějž chceme dotaz omezit, můžeme využít podmínku ''[[pojmy:within|within]]'' v rámci [[pojmy:cql|CQL]] dotazu: |
| |
* Hledáme citoslovce u Karla Čapka (v nereferenčním korpusu [[cnk:syn:verze7|SYN, verze 7]]): ''[tag=%%"I.*"%%] within <doc author=%%"Čapek, Karel"%% />'' | * Hledáme citoslovce u Karla Čapka (v nereferenčním korpusu [[cnk:syn:verze8|SYN, verze 8]]): ''[tag=%%"I.*"%%] within <doc author=%%"Čapek, Karel"%% />'' |
| |
| |
Specifický subkorpus můžeme vytvořit i pomocí podmínky [[pojmy:within|within]], o níž jsme mluvili v rámci [[kurz:pokrocile_dotazy#hledani_v_ramci_jedne_vety|lekce o CQL]]. Výhodou této složitější cesty je to, že můžeme pracovat s celou škálou informací, které nám korpusový materiál nabízí, nevýhodou je její náročnost (je třeba znát jak struktury v různých korpusech, tak jednotlivé atributy i jejich hodnoty a konkrétní formát). | Specifický subkorpus můžeme vytvořit i pomocí podmínky [[pojmy:within|within]], o níž jsme mluvili v rámci [[kurz:pokrocile_dotazy#hledani_v_ramci_jedne_vety|lekce o CQL]]. Výhodou této složitější cesty je to, že můžeme pracovat s celou škálou informací, které nám korpusový materiál nabízí, nevýhodou je její náročnost (je třeba znát jak struktury v různých korpusech, tak jednotlivé atributy i jejich hodnoty a konkrétní formát). |
| |
V menu vyberte položku **Korpusy → Vytvořit nový subkorpus**. Na zobrazené stránce nejprve zvolte korpus, z něhož chcete texty vybírat (u psaných korpusů nejčastěji [[cnk:syn2015|SYN2015]] či daleko rozsáhlejší [[cnk:syn|SYN]]), a svůj nový subkorpus nezapomeňte pojmenovat. Poté zvolte možnost Specifikovat subkorpus pomocí volby: **Vlastní within podmínka**. To umožní vybrat do subkorpusu texty (v psaných korpusech) či např. mluvčí (v mluvených korpusech) odpovídající konkrétním podmínkám. V psaných korpusech se obvykle vybírají texty, tzv. **opusy** či struktury typu **doc**. Do prázdného políčka je třeba vyplnit konkrétní podmínku. Následující příklady pocházejí z korpusu SYN2015: | V menu vyberte položku **Korpusy → Vytvořit nový subkorpus**. Na zobrazené stránce nejprve zvolte korpus, z něhož chcete texty vybírat (u psaných korpusů nejčastěji [[cnk:syn2020|SYN2020]] či daleko rozsáhlejší [[cnk:syn|SYN]]), a svůj nový subkorpus nezapomeňte pojmenovat. Poté zvolte možnost Specifikovat subkorpus pomocí volby: **Vlastní within podmínka**. To umožní vybrat do subkorpusu texty (v psaných korpusech) či např. mluvčí (v mluvených korpusech) odpovídající konkrétním podmínkám. V psaných korpusech se obvykle vybírají texty, tzv. **opusy** či struktury typu **doc**. Do prázdného políčka je třeba vyplnit konkrétní podmínku. Následující příklady pocházejí z korpusu SYN2015: |
| |
* ''txtype_group=%%"FIC.*"%%'' – v subkorpusu budou obsaženy všechny beletristické texty z původního korpusu | * ''txtype_group=%%"FIC.*"%%'' – v subkorpusu budou obsaženy všechny beletristické texty z původního korpusu |