AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
kurz:subkorpusy [2018/08/08 12:23] vaclavcvrcekkurz:subkorpusy [2018/12/14 13:18] jankocek
Řádek 7: Řádek 7:
 Co jsou to metainformace a kde se o nich dozvíme více? [[pojmy:metadata|Metainformace]], tj. informace o názvu, autorovi, roce vydání apod., obsahuje každý text v korpusu. Lze podle nich i vyhledávat – můžeme například najít všechny texty daného autora, texty, které jsou přeložené z konkrétního jazyka nebo které byly vydány v určitém časovém rozmezí. V mluvených korpusech lze vyhledávat podle sociolingvistických údajů týkajících se mluvčích, jako je věk, vzdělání či nářeční oblast (viz specializovaná [[kurz:hledani_v_mluvenych_korpusech#vyber_textu|bonusová lekce]]).  Co jsou to metainformace a kde se o nich dozvíme více? [[pojmy:metadata|Metainformace]], tj. informace o názvu, autorovi, roce vydání apod., obsahuje každý text v korpusu. Lze podle nich i vyhledávat – můžeme například najít všechny texty daného autora, texty, které jsou přeložené z konkrétního jazyka nebo které byly vydány v určitém časovém rozmezí. V mluvených korpusech lze vyhledávat podle sociolingvistických údajů týkajících se mluvčích, jako je věk, vzdělání či nářeční oblast (viz specializovaná [[kurz:hledani_v_mluvenych_korpusech#vyber_textu|bonusová lekce]]). 
  
-[{{ :kurz:holmes-metadata.png?direct&350|Zobrazení metadat v konkordanci FIXME}}]+[{{ :kurz:holmes-metadata.png?direct&350|Zobrazení metadat v konkordanci }}]
  
 Kde najdeme seznam příslušných metainformací?  Kde najdeme seznam příslušných metainformací? 
Řádek 21: Řádek 21:
 Chceme-li např. v korpusu SYN2015 najít výskyty lemmatu //buňka// pouze v odborných textech z oboru biologie, budeme dotaz specifikovat následujícím způsobem: v kolonce **doc.txtype_group** zaškrtneme políčko **NFC: oborová**, v kolonce **doc.txtype** políčko **SCI: odborná literatura** a v kolonce **doc.genre** políčko **BIO: biologie**. Pokud chceme zjistit, kterých textů se daný výběr týká, stačí zmáčknout tlačítko **Zúžit výběr**. Objeví se okénko s aplikovaným filtrem a počtem pozic v daném výběru. Není-li už náš výběr příliš omezený, lze na něj dále aplikovat další filtry, případně jej celý zrušit kliknutím na volbu **Zrušit výběr**. Tak bychom mohli omezit původní filtr ještě požadavkem na výskyt pouze v příručkách referenčního typu (kolonka **doc.medium**), kam spadají např. encyklopedie, slovníky apod. Definitivní výběr by pak vypadal takto: Chceme-li např. v korpusu SYN2015 najít výskyty lemmatu //buňka// pouze v odborných textech z oboru biologie, budeme dotaz specifikovat následujícím způsobem: v kolonce **doc.txtype_group** zaškrtneme políčko **NFC: oborová**, v kolonce **doc.txtype** políčko **SCI: odborná literatura** a v kolonce **doc.genre** políčko **BIO: biologie**. Pokud chceme zjistit, kterých textů se daný výběr týká, stačí zmáčknout tlačítko **Zúžit výběr**. Objeví se okénko s aplikovaným filtrem a počtem pozic v daném výběru. Není-li už náš výběr příliš omezený, lze na něj dále aplikovat další filtry, případně jej celý zrušit kliknutím na volbu **Zrušit výběr**. Tak bychom mohli omezit původní filtr ještě požadavkem na výskyt pouze v příručkách referenčního typu (kolonka **doc.medium**), kam spadají např. encyklopedie, slovníky apod. Definitivní výběr by pak vypadal takto:
  
-[{{:kurz:vyber02.png?800| Výběr textů na základě metainformací FIXME}}] +[{{:kurz:vyber02.png?800| Výběr textů na základě metainformací }}] 
  
  
Řádek 57: Řádek 57:
   * ''author=%%"Hrabal, Bohumil"%%'' – v subkorpusu budou obsaženy všechny texty, jejichž autorem je B. Hrabal (u vytváření podmínky obsahující jméno autora je vždy třeba dodržet tento konkrétní formát, případně autorovo jméno zkrátit, ale např. podmínka ''author=%%"Čapek.*"%%'' vztažená na velký korpus SYN by zahrnula texty nejen od obou bratrů Čapkových, ale též od méně známé bratrské dvojice [[http://www.databazeknih.cz/zivotopis/karel-jan-capek-4910|Karla Jana]] a [[http://www.databazeknih.cz/autori/michal-capek-10857|Michala]] Čapků)   * ''author=%%"Hrabal, Bohumil"%%'' – v subkorpusu budou obsaženy všechny texty, jejichž autorem je B. Hrabal (u vytváření podmínky obsahující jméno autora je vždy třeba dodržet tento konkrétní formát, případně autorovo jméno zkrátit, ale např. podmínka ''author=%%"Čapek.*"%%'' vztažená na velký korpus SYN by zahrnula texty nejen od obou bratrů Čapkových, ale též od méně známé bratrské dvojice [[http://www.databazeknih.cz/zivotopis/karel-jan-capek-4910|Karla Jana]] a [[http://www.databazeknih.cz/autori/michal-capek-10857|Michala]] Čapků)
   * ''genre=%%"BIO.*"%%'' – subkorpus zahrne všechny texty z oboru biologie    * ''genre=%%"BIO.*"%%'' – subkorpus zahrne všechny texty z oboru biologie 
-  * ''pubyear=%%"200[5-9]"%%'' – subkorpusu bude obsahovat všechny texty z let 2005 až 2009 +  * ''pubyear=%%"200[5-9]"%%'' – subkorpus bude obsahovat všechny texty z let 2005 až 2009 
  
 Podmínky lze i kombinovat, stejně jako [[kurz:pokrocile_dotazy#logicke_operatorykombinace_podminek_v_ramci_jedne_pozice|v rámci jedné pozice]], případně přidat další podmínku pomocí tlačítka + v modrém rámečku: Podmínky lze i kombinovat, stejně jako [[kurz:pokrocile_dotazy#logicke_operatorykombinace_podminek_v_ramci_jedne_pozice|v rámci jedné pozice]], případně přidat další podmínku pomocí tlačítka + v modrém rámečku:
  
-  * ''genre_group=%%"NAT.*"%% & medium=%%"TXB.*"%%'' – subkorpusu budou učební texty z oblasti přírodních věd +  * ''genre_group=%%"NAT.*"%% & medium=%%"TXB.*"%%'' – do subkorpusu budou zahrnuty učební texty z oblasti přírodních věd 
-  * ''txtype=%%"NOV.*"%% & srclang=%%"en.*"%% & pubyear=%%"2..."%% & authsex=%%"F.*"%%'' – v subkorpusu budou romány napsané ženami autorkami a přeložené z anglického originálu, které vyšly po roce 2000 (včetně)+  * ''txtype=%%"NOV.*"%% & srclang=%%"en.*"%% & pubyear=%%"2..."%% & authsex=%%"F.*"%%'' – subkorpus bude obsahovat romány napsané ženami a přeložené z anglického originálu, které vyšly po roce 2000 (včetně)
  
 V mluvených korpusech pak můžeme subkorpusy vytvářet např. podle pohlaví mluvčích či podle nářeční oblasti, odkud pocházejí. V rámci podmínky within vyberte strukturní jednotku **sp**, tedy mluvčí (//speaker//) a do prázdného políčka vyplňte konkrétní podmínku či kombinaci podmínek, např.: V mluvených korpusech pak můžeme subkorpusy vytvářet např. podle pohlaví mluvčích či podle nářeční oblasti, odkud pocházejí. V rámci podmínky within vyberte strukturní jednotku **sp**, tedy mluvčí (//speaker//) a do prázdného políčka vyplňte konkrétní podmínku či kombinaci podmínek, např.:
   * ''pohlavi=%%"Z"%% & oblast=%%"slezská"%%'' – v subkorpusu budou promluvy od žen ze slezské nářeční oblasti   * ''pohlavi=%%"Z"%% & oblast=%%"slezská"%%'' – v subkorpusu budou promluvy od žen ze slezské nářeční oblasti
-  * ''vzdelanityp=%%"VŠ"%% & oblast=%%"středočeská"%%'' – v subkorpusu budou promluvy vysokoškoláků ze středočeské oblasti+  * ''vzdelanityp=%%"VŠ"%% & oblast=%%"středočeská"%%'' – vznikne subkorpus promluv vysokoškoláků ze středočeské oblasti
  
 Pokud jste si oba subkorpusy vyzkoušeli vytvořit z korpusu ORAL2013, měl by první z nich mít velikost přes 180 tisíc pozic, zatímco ten druhý přes 441 tisíc. Pokud jste si oba subkorpusy vyzkoušeli vytvořit z korpusu ORAL2013, měl by první z nich mít velikost přes 180 tisíc pozic, zatímco ten druhý přes 441 tisíc.
Řádek 74: Řádek 74:
 ==== Smazání a přehled dostupných subkorpusů ==== ==== Smazání a přehled dostupných subkorpusů ====
  
-Subkorpusy můžeme spravovat a ty nepotřebné mazat v sekci **[[manualy:kontext:subkorpus#prehled_existujicich_subkorpusu|Mé subkorpusy]]**. +Subkorpusy můžeme spravovat a ty nepotřebné mazat v sekci **[[manualy:kontext:korpusy#prehled_existujicich_subkorpusu|Mé subkorpusy]]**. 
  
-[{{:kurz:smazatsubkorpus.png?| Mé subkorpusy – možnost smazání subkorpusu}}]+[{{:kurz:smazatsubkorpus.png?| Mé subkorpusy – možnost smazání subkorpusu }}]
  
 +==== Veřejné subkorpusy ====
  
 +Veřejné subkorpusy slouží ke zpřístupnění subkorpusu dalším uživatelům (např. z výukových či referenčních důvodů). V menu **Mé subkorpusy** lze vytvořit veřejné subkorpusy (pomocí volby **Veřejně přístupný**). Zaškrtnutím této volby se pro daný subkorpus vygeneruje jedinečný klíč, pomocí něhož ho budou moct vyvolat a používat i další uživatelé (za předpokladu, že mají práva používat výchozí korpus). Pro zveřejnění je rovněž potřeba vyplnit textovou specifikaci subkorpusu; vřele doporučujeme tuto část vytváření subkorpusu nepodceňovat, protože často je tento popis pro potenciální uživatele vašeho subkorpusu jedinou indicií, podle které můžou odhadnout jeho složení a účel. 
  
 +Unikátní klíč lze zobrazit, pokud si uživatel vybere vytvořený korpus k práci a nechá si zobrazit informace o něm (odkaz na začátku drobečkové navigace pod logem KonText).
 +
 +Korpus je pak možné vyvolat v měnu **Veřejné subkorpusy** buď zadáním unikátního klíče, nebo podle příjmení autora subkorpusu (je třeba zadat alespoň 4 počáteční znaky). 
  
 ===== Vyzkoušejte si na závěr ===== ===== Vyzkoušejte si na závěr =====
Řádek 98: Řádek 103:
   * specifika [[kurz:hledani_v_mluvenych_korpusech|hledání v mluvených korpusech]]   * specifika [[kurz:hledani_v_mluvenych_korpusech|hledání v mluvených korpusech]]
   * specifika [[kurz:hledani_v_diachronnim_korpusu|hledání v diachronním korpusu]]   * specifika [[kurz:hledani_v_diachronnim_korpusu|hledání v diachronním korpusu]]
 +  * specifika [[kurz:syntakticka_analyza|hledání v syntakticky anotovaném korpusu]]