AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
kurz:subkorpusy [2018/08/08 12:26] – [Smazání a přehled dostupných subkorpusů] Václav Cvrčekkurz:subkorpusy [2021/04/26 14:41] (aktuální) – [Veřejné subkorpusy] Michal Škrabal
Řádek 3: Řádek 3:
 Už umíme [[kurz:prvni_dotaz|položit dotaz]], zobrazit si [[kurz:zobrazeni_dotazu|výsledek]], [[kurz:vyhodnoceni_dotazu|vyhodnotit]] ho, zabývali jsme se tvorbou pokročilých dotazů s pomocí [[kurz:regularni_vyrazy|regulárních výrazů]] a [[kurz:pokrocile_dotazy|CQL]] a konečně v předchozí lekci jsme si představili, jaké nástroje jsou k dispozici pro hledání [[kurz:hledani_kolokaci|kolokací]]. Spíše než tomu, jak pokládat dotazy, se v této lekci budeme věnovat tomu, v jakých datech vyhledáváme.  Už umíme [[kurz:prvni_dotaz|položit dotaz]], zobrazit si [[kurz:zobrazeni_dotazu|výsledek]], [[kurz:vyhodnoceni_dotazu|vyhodnotit]] ho, zabývali jsme se tvorbou pokročilých dotazů s pomocí [[kurz:regularni_vyrazy|regulárních výrazů]] a [[kurz:pokrocile_dotazy|CQL]] a konečně v předchozí lekci jsme si představili, jaké nástroje jsou k dispozici pro hledání [[kurz:hledani_kolokaci|kolokací]]. Spíše než tomu, jak pokládat dotazy, se v této lekci budeme věnovat tomu, v jakých datech vyhledáváme. 
  
-Pro dosažení optimálních výsledků totiž nestačí jen umět dotaz vytvořit, je také třeba co nejpřesněji vědět, jaká jsou data, která používáme. Před započetím jakékoli práce s korpusem bychom se proto nejdřív měli seznámit s jeho strukturou a obsahem. Pro mnoho výzkumných otázek je vhodné použít některý z [[pojmy:reprezentativnost|reprezentativních]] korpusů (nejlépe vždy ten nejnovější, např. [[cnk:syn2015|SYN2015]]). V některých případech je ovšem potřeba hledání omezit na určitý typ textů (např. pouze na beletrii, na díla starší, než je určitý rok, na díla původem česká apod.). Pomocí volby **Omezit hledání** podle metainformací nebo prostřednictvím **[[pojmy:subkorpus|trvalých subkorpusů]]** je možné zkoumat jazyk určitého typu (autorský, dobový či konkrétního žánru).+Pro dosažení optimálních výsledků totiž nestačí jen umět dotaz vytvořit, je také třeba co nejpřesněji vědět, jaká jsou data, která používáme. Před započetím jakékoli práce s korpusem bychom se proto nejdřív měli seznámit s jeho strukturou a obsahem. Pro mnoho výzkumných otázek je vhodné použít některý z [[pojmy:reprezentativnost|reprezentativních]] korpusů (nejlépe vždy ten nejnovější, např. [[cnk:syn2020|SYN2020]]). V některých případech je ovšem potřeba hledání omezit na určitý typ textů (např. pouze na beletrii, na díla starší, než je určitý rok, na díla původem česká apod.). Pomocí volby **Omezit hledání** podle metainformací nebo prostřednictvím **[[pojmy:subkorpus|trvalých subkorpusů]]** je možné zkoumat jazyk určitého typu (autorský, dobový či konkrétního žánru).
  
 Co jsou to metainformace a kde se o nich dozvíme více? [[pojmy:metadata|Metainformace]], tj. informace o názvu, autorovi, roce vydání apod., obsahuje každý text v korpusu. Lze podle nich i vyhledávat – můžeme například najít všechny texty daného autora, texty, které jsou přeložené z konkrétního jazyka nebo které byly vydány v určitém časovém rozmezí. V mluvených korpusech lze vyhledávat podle sociolingvistických údajů týkajících se mluvčích, jako je věk, vzdělání či nářeční oblast (viz specializovaná [[kurz:hledani_v_mluvenych_korpusech#vyber_textu|bonusová lekce]]).  Co jsou to metainformace a kde se o nich dozvíme více? [[pojmy:metadata|Metainformace]], tj. informace o názvu, autorovi, roce vydání apod., obsahuje každý text v korpusu. Lze podle nich i vyhledávat – můžeme například najít všechny texty daného autora, texty, které jsou přeložené z konkrétního jazyka nebo které byly vydány v určitém časovém rozmezí. V mluvených korpusech lze vyhledávat podle sociolingvistických údajů týkajících se mluvčích, jako je věk, vzdělání či nářeční oblast (viz specializovaná [[kurz:hledani_v_mluvenych_korpusech#vyber_textu|bonusová lekce]]). 
  
-[{{ :kurz:holmes-metadata.png?direct&350|Zobrazení metadat v konkordanci FIXME}}]+[{{ :kurz:holmes-metadata.png?direct&350|Zobrazení metadat v konkordanci }}]
  
 Kde najdeme seznam příslušných metainformací?  Kde najdeme seznam příslušných metainformací? 
Řádek 17: Řádek 17:
 ===== Jednorázové vyhledávání v určitém typu textů ===== ===== Jednorázové vyhledávání v určitém typu textů =====
  
-Pokud chceme pouze jednorázově, tedy pro jediný dotaz, omezit vyhledávání jen na určitou skupinu textů, můžeme tuto skupinu blíže určit pomocí volby [[manualy:kontext:novy_dotaz#omezit_hledani|Omezit hledání]]. Podle typu korpusu lze zaškrtáváním vybrat skupinu textů např. podle žánru, média a jazyka originálu (SYN2015: nepřeložené učební texty z oblasti humanitních věd), podle nářeční oblasti a pohlaví mluvčích ([[cnk:oral2013|ORAL2013]]: ženy z jihozápadočeské nářeční oblasti) nebo podle období ([[cnk:diakorp|Diakorp]]: všechny texty z 16. století). +Pokud chceme pouze jednorázově, tedy pro jediný dotaz, omezit vyhledávání jen na určitou skupinu textů, můžeme tuto skupinu blíže určit pomocí volby [[manualy:kontext:novy_dotaz#omezit_hledani|Omezit hledání]]. Podle typu korpusu lze zaškrtáváním vybrat skupinu textů např. podle žánru, média a jazyka originálu (SYN2020: nepřeložené učební texty z oblasti humanitních věd), podle nářeční oblasti a pohlaví mluvčích ([[cnk:oral2013|ORAL2013]]: ženy z jihozápadočeské nářeční oblasti) nebo podle období ([[cnk:diakorp|Diakorp]]: všechny texty z 16. století). 
  
-Chceme-li např. v korpusu SYN2015 najít výskyty lemmatu //buňka// pouze v odborných textech z oboru biologie, budeme dotaz specifikovat následujícím způsobem: v kolonce **doc.txtype_group** zaškrtneme políčko **NFC: oborová**, v kolonce **doc.txtype** políčko **SCI: odborná literatura** a v kolonce **doc.genre** políčko **BIO: biologie**. Pokud chceme zjistit, kterých textů se daný výběr týká, stačí zmáčknout tlačítko **Zúžit výběr**. Objeví se okénko s aplikovaným filtrem a počtem pozic v daném výběru. Není-li už náš výběr příliš omezený, lze na něj dále aplikovat další filtry, případně jej celý zrušit kliknutím na volbu **Zrušit výběr**. Tak bychom mohli omezit původní filtr ještě požadavkem na výskyt pouze v příručkách referenčního typu (kolonka **doc.medium**), kam spadají např. encyklopedie, slovníky apod. Definitivní výběr by pak vypadal takto:+Chceme-li např. v korpusu SYN2020 najít výskyty lemmatu //buňka// pouze v odborných textech z oboru biologie, budeme dotaz specifikovat následujícím způsobem: v kolonce **doc.txtype_group** zaškrtneme políčko **NFC: oborová**, v kolonce **doc.txtype** políčko **SCI: odborná literatura** a v kolonce **doc.genre** políčko **BIO: biologie**. Pokud chceme zjistit, kterých textů se daný výběr týká, stačí zmáčknout tlačítko **Zúžit výběr**. Objeví se okénko s aplikovaným filtrem a počtem pozic v daném výběru. Není-li už náš výběr příliš omezený, lze na něj dále aplikovat další filtry, případně jej celý zrušit kliknutím na volbu **Zrušit výběr**. Tak bychom mohli omezit původní filtr ještě požadavkem na výskyt pouze v příručkách referenčního typu (kolonka **doc.medium**), kam spadají např. encyklopedie, slovníky apod. Definitivní výběr by pak vypadal takto:
  
-[{{:kurz:vyber02.png?800| Výběr textů na základě metainformací FIXME}}] +[{{:kurz:vyber03.png?direct&800| Výběr textů na základě metainformací }}] 
  
  
Řádek 30: Řádek 30:
 Pro jednorázovou specifikaci subkorpusu, na nějž chceme dotaz omezit, můžeme využít podmínku ''[[pojmy:within|within]]'' v rámci [[pojmy:cql|CQL]] dotazu:  Pro jednorázovou specifikaci subkorpusu, na nějž chceme dotaz omezit, můžeme využít podmínku ''[[pojmy:within|within]]'' v rámci [[pojmy:cql|CQL]] dotazu: 
  
-  * Hledáme citoslovce u Karla Čapka (v nereferenčním korpusu SYN): ''[tag=%%"I.*"%%] within <opus autor=%%"Čapek, Karel"%% />''+  * Hledáme citoslovce u Karla Čapka (v nereferenčním korpusu [[cnk:syn:verze8|SYN, verze 8]]): ''[tag=%%"I.*"%%] within <doc author=%%"Čapek, Karel"%% />''
  
  
Řádek 42: Řádek 42:
  
   * 1. krok je vždy stejný: Musíme vybrat výchozí korpus, z něhož budeme volit odpovídající podmnožinu dat.   * 1. krok je vždy stejný: Musíme vybrat výchozí korpus, z něhož budeme volit odpovídající podmnožinu dat.
-  * 2. krok: V jednotlivých kolonkách strukturních typů zaškrtáme své volby příslušných kategorií. Čísla napravo od nich představují velikost textů v dané kategorii (vpravo nahoře lze přepínat mezi počty dokumentů či [[pojmy:token|tokenů]]). Na základě těchto údajů je možné vytvářet subkorpus s určitými proporcemi. Svou volbu můžeme upravovat pomocí tlačítek **Zúžit výběr** a **Zrušit výběr**. Je-li výběr dostatečně úzký, lze vybírat také přímo z konkrétních děl (**doc.title** v SYN2015, **opus.nazev** ve starších psaných korpusech).+  * 2. krok: V jednotlivých kolonkách strukturních typů zaškrtáme své volby příslušných kategorií. Čísla napravo od nich představují velikost textů v dané kategorii počtu [[pojmy:token|tokenů]]. Na základě těchto údajů je možné vytvářet subkorpus s určitými proporcemi. Svou volbu můžeme upravovat pomocí tlačítek **Zúžit výběr** a **Zrušit výběr**. Je-li výběr dostatečně úzký, lze vybírat také přímo z konkrétních děl (**doc.title** v SYN2020 a SYN2015, **opus.nazev** ve starších psaných korpusech).
   * 3. krok: Subkorpusu je potřeba přidělit jméno (tj. jednoznačný a jedinečný identifikátor, který v rámci seznamu vašich existujících subkorpusů vytvořených z daného zdrojového korpusu dosud nebyl použit).   * 3. krok: Subkorpusu je potřeba přidělit jméno (tj. jednoznačný a jedinečný identifikátor, který v rámci seznamu vašich existujících subkorpusů vytvořených z daného zdrojového korpusu dosud nebyl použit).
  
 Poté stačí kliknout na tlačítko **Vytvořit subkorpus** a ten se stane součástí vaší nabídky dostupných korpusů. Při zadávání dotazu se ve formuláři vedle tlačítka pro volbu korpusu objeví další prvek, v němž je možné vybírat buď celý korpus, nebo libovolný subkorpus, který z něj byl vytvořen. Subkorpus je navíc možné si přidat mezi oblíbené korpusy, takže bude snadno a rychle dostupný. Poté stačí kliknout na tlačítko **Vytvořit subkorpus** a ten se stane součástí vaší nabídky dostupných korpusů. Při zadávání dotazu se ve formuláři vedle tlačítka pro volbu korpusu objeví další prvek, v němž je možné vybírat buď celý korpus, nebo libovolný subkorpus, který z něj byl vytvořen. Subkorpus je navíc možné si přidat mezi oblíbené korpusy, takže bude snadno a rychle dostupný.
  
-[{{:kurz:subkorpusnovy.png?400|Nejprve vybereme //Vytvořit nový subkorpus// a poté specifikujeme podmínky}}]+[{{:kurz:subkorpusnovy.png?direct&400|Nejprve vybereme //Vytvořit nový subkorpus// a poté specifikujeme podmínky}}]
 ==== Trvalý subkorpus pro pokročilé: vytvoření vlastnoručním stanovením podmínek ====  ==== Trvalý subkorpus pro pokročilé: vytvoření vlastnoručním stanovením podmínek ==== 
  
 Specifický subkorpus můžeme vytvořit i pomocí podmínky [[pojmy:within|within]], o níž jsme mluvili v rámci [[kurz:pokrocile_dotazy#hledani_v_ramci_jedne_vety|lekce o CQL]]. Výhodou této složitější cesty je to, že můžeme pracovat s celou škálou informací, které nám korpusový materiál nabízí, nevýhodou je její náročnost (je třeba znát jak struktury v různých korpusech, tak jednotlivé atributy i jejich hodnoty a konkrétní formát).  Specifický subkorpus můžeme vytvořit i pomocí podmínky [[pojmy:within|within]], o níž jsme mluvili v rámci [[kurz:pokrocile_dotazy#hledani_v_ramci_jedne_vety|lekce o CQL]]. Výhodou této složitější cesty je to, že můžeme pracovat s celou škálou informací, které nám korpusový materiál nabízí, nevýhodou je její náročnost (je třeba znát jak struktury v různých korpusech, tak jednotlivé atributy i jejich hodnoty a konkrétní formát). 
  
-V menu vyberte položku **Korpusy → Vytvořit nový subkorpus**. Na zobrazené stránce nejprve zvolte korpus, z něhož chcete texty vybírat (u psaných korpusů nejčastěji [[cnk:syn2015|SYN2015]] či daleko rozsáhlejší [[cnk:syn|SYN]]), a svůj nový subkorpus nezapomeňte pojmenovat. Poté zvolte možnost Specifikovat subkorpus pomocí volby: **Vlastní within podmínka**. To umožní vybrat do subkorpusu texty (v psaných korpusech) či např. mluvčí (v mluvených korpusech) odpovídající konkrétním podmínkám. V psaných korpusech se obvykle vybírají texty, tzv. **opusy** či struktury typu **doc**. Do prázdného políčka je třeba vyplnit konkrétní podmínku. Následující příklady pocházejí z korpusu SYN2015:+V menu vyberte položku **Korpusy → Vytvořit nový subkorpus**. Na zobrazené stránce nejprve zvolte korpus, z něhož chcete texty vybírat (u psaných korpusů nejčastěji [[cnk:syn2020|SYN2020]] či daleko rozsáhlejší [[cnk:syn|SYN]]), a svůj nový subkorpus nezapomeňte pojmenovat. Poté zvolte možnost Specifikovat subkorpus pomocí volby: **Vlastní within podmínka**. To umožní vybrat do subkorpusu texty (v psaných korpusech) či např. mluvčí (v mluvených korpusech) odpovídající konkrétním podmínkám. V psaných korpusech se obvykle vybírají texty, tzv. **opusy** či struktury typu **doc**. Do prázdného políčka je třeba vyplnit konkrétní podmínku. Následující příklady pocházejí z korpusu SYN2020:
  
   * ''txtype_group=%%"FIC.*"%%'' – v subkorpusu budou obsaženy všechny beletristické texty z původního korpusu   * ''txtype_group=%%"FIC.*"%%'' – v subkorpusu budou obsaženy všechny beletristické texty z původního korpusu
-  * ''author=%%"HrabalBohumil"%%'' – v subkorpusu budou obsaženy všechny texty, jejichž autorem je BHrabal (u vytváření podmínky obsahující jméno autora je vždy třeba dodržet tento konkrétní formát, případně autorovo jméno zkrátit, ale např. podmínka ''author=%%"Čapek.*"%%'' vztažená na velký korpus SYN by zahrnula texty nejen od obou bratrů Čapkových, ale též od méně známé bratrské dvojice [[http://www.databazeknih.cz/zivotopis/karel-jan-capek-4910|Karla Jana]] a [[http://www.databazeknih.cz/autori/michal-capek-10857|Michala]] Čapků)+  * ''author=%%"SoukupováPetra"%%'' – v subkorpusu budou obsaženy všechny texty, jejichž autorkou je PSoukupová (u vytváření podmínky obsahující jméno autora je vždy třeba dodržet tento konkrétní formát, případně autorovo jméno zkrátit, ale např. podmínka ''author=%%"Čapek.*"%%'' vztažená na velký korpus SYN by zahrnula texty nejen od obou bratrů Čapkových, ale též od méně známé bratrské dvojice [[http://www.databazeknih.cz/zivotopis/karel-jan-capek-4910|Karla Jana]] a [[http://www.databazeknih.cz/autori/michal-capek-10857|Michala]] Čapků)
   * ''genre=%%"BIO.*"%%'' – subkorpus zahrne všechny texty z oboru biologie    * ''genre=%%"BIO.*"%%'' – subkorpus zahrne všechny texty z oboru biologie 
   * ''pubyear=%%"200[5-9]"%%'' – subkorpus bude obsahovat všechny texty z let 2005 až 2009    * ''pubyear=%%"200[5-9]"%%'' – subkorpus bude obsahovat všechny texty z let 2005 až 2009 
Řádek 76: Řádek 76:
 Subkorpusy můžeme spravovat a ty nepotřebné mazat v sekci **[[manualy:kontext:korpusy#prehled_existujicich_subkorpusu|Mé subkorpusy]]**.  Subkorpusy můžeme spravovat a ty nepotřebné mazat v sekci **[[manualy:kontext:korpusy#prehled_existujicich_subkorpusu|Mé subkorpusy]]**. 
  
-[{{:kurz:smazatsubkorpus.png?| Mé subkorpusy – možnost smazání subkorpusu FIXME}}]+[{{:kurz:smazatsubkorpus.png?direct&500| Mé subkorpusy – možnost smazání subkorpusu }}]
  
 +==== Veřejné subkorpusy ====
  
 +Veřejné subkorpusy slouží ke zpřístupnění subkorpusu dalším uživatelům (např. z výukových či referenčních důvodů). V menu **Mé subkorpusy** lze vytvořit veřejné subkorpusy (pomocí volby **Veřejně přístupný**). Zaškrtnutím této volby se pro daný subkorpus vygeneruje jedinečný klíč, pomocí něhož ho budou moct vyvolat a používat i další uživatelé (za předpokladu, že mají práva používat výchozí korpus). Pro zveřejnění je rovněž potřeba vyplnit textovou specifikaci subkorpusu; vřele doporučujeme tuto část vytváření subkorpusu nepodceňovat, protože často je tento popis pro potenciální uživatele vašeho subkorpusu jedinou indicií, podle které můžou odhadnout jeho složení a účel. 
  
 +Unikátní klíč lze zobrazit, pokud si uživatel vybere vytvořený korpus k práci a nechá si zobrazit informace o něm (odkaz na začátku drobečkové navigace pod logem KonText).
 +
 +Korpus je pak možné vyvolat v menu **Veřejné subkorpusy** buď zadáním unikátního klíče, nebo podle příjmení autora subkorpusu (je třeba zadat alespoň 4 počáteční znaky). 
  
 ===== Vyzkoušejte si na závěr ===== ===== Vyzkoušejte si na závěr =====
Řádek 90: Řádek 95:
  
  
-----+ 
 + 
 +===== Kam dál? =====
  
  
Řádek 98: Řádek 105:
   * specifika [[kurz:hledani_v_mluvenych_korpusech|hledání v mluvených korpusech]]   * specifika [[kurz:hledani_v_mluvenych_korpusech|hledání v mluvených korpusech]]
   * specifika [[kurz:hledani_v_diachronnim_korpusu|hledání v diachronním korpusu]]   * specifika [[kurz:hledani_v_diachronnim_korpusu|hledání v diachronním korpusu]]
 +  * specifika [[kurz:syntakticka_analyza|hledání v syntakticky anotovaném korpusu]]