Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
kurz:subkorpusy [2018/11/02 15:01]
Václav Cvrček [Veřejné subkorpusy]
kurz:subkorpusy [2019/05/22 12:50] (aktuální)
Václav Cvrček [Trvalý subkorpus: vytvoření pomocí naklikání]
Řádek 7: Řádek 7:
 Co jsou to metainformace a kde se o nich dozvíme více? [[pojmy:​metadata|Metainformace]],​ tj. informace o názvu, autorovi, roce vydání apod., obsahuje každý text v korpusu. Lze podle nich i vyhledávat – můžeme například najít všechny texty daného autora, texty, které jsou přeložené z konkrétního jazyka nebo které byly vydány v určitém časovém rozmezí. V mluvených korpusech lze vyhledávat podle sociolingvistických údajů týkajících se mluvčích, jako je věk, vzdělání či nářeční oblast (viz specializovaná [[kurz:​hledani_v_mluvenych_korpusech#​vyber_textu|bonusová lekce]]). ​ Co jsou to metainformace a kde se o nich dozvíme více? [[pojmy:​metadata|Metainformace]],​ tj. informace o názvu, autorovi, roce vydání apod., obsahuje každý text v korpusu. Lze podle nich i vyhledávat – můžeme například najít všechny texty daného autora, texty, které jsou přeložené z konkrétního jazyka nebo které byly vydány v určitém časovém rozmezí. V mluvených korpusech lze vyhledávat podle sociolingvistických údajů týkajících se mluvčích, jako je věk, vzdělání či nářeční oblast (viz specializovaná [[kurz:​hledani_v_mluvenych_korpusech#​vyber_textu|bonusová lekce]]). ​
  
-[{{ :​kurz:​holmes-metadata.png?​direct&​350|Zobrazení metadat v konkordanci ​FIXME}}]+[{{ :​kurz:​holmes-metadata.png?​direct&​350|Zobrazení metadat v konkordanci }}]
  
 Kde najdeme seznam příslušných metainformací? ​ Kde najdeme seznam příslušných metainformací? ​
Řádek 21: Řádek 21:
 Chceme-li např. v korpusu SYN2015 najít výskyty lemmatu //buňka// pouze v odborných textech z oboru biologie, budeme dotaz specifikovat následujícím způsobem: v kolonce **doc.txtype_group** zaškrtneme políčko **NFC: oborová**, v kolonce **doc.txtype** políčko **SCI: odborná literatura** a v kolonce **doc.genre** políčko **BIO: biologie**. Pokud chceme zjistit, kterých textů se daný výběr týká, stačí zmáčknout tlačítko **Zúžit výběr**. Objeví se okénko s aplikovaným filtrem a počtem pozic v daném výběru. Není-li už náš výběr příliš omezený, lze na něj dále aplikovat další filtry, případně jej celý zrušit kliknutím na volbu **Zrušit výběr**. Tak bychom mohli omezit původní filtr ještě požadavkem na výskyt pouze v příručkách referenčního typu (kolonka **doc.medium**),​ kam spadají např. encyklopedie,​ slovníky apod. Definitivní výběr by pak vypadal takto: Chceme-li např. v korpusu SYN2015 najít výskyty lemmatu //buňka// pouze v odborných textech z oboru biologie, budeme dotaz specifikovat následujícím způsobem: v kolonce **doc.txtype_group** zaškrtneme políčko **NFC: oborová**, v kolonce **doc.txtype** políčko **SCI: odborná literatura** a v kolonce **doc.genre** políčko **BIO: biologie**. Pokud chceme zjistit, kterých textů se daný výběr týká, stačí zmáčknout tlačítko **Zúžit výběr**. Objeví se okénko s aplikovaným filtrem a počtem pozic v daném výběru. Není-li už náš výběr příliš omezený, lze na něj dále aplikovat další filtry, případně jej celý zrušit kliknutím na volbu **Zrušit výběr**. Tak bychom mohli omezit původní filtr ještě požadavkem na výskyt pouze v příručkách referenčního typu (kolonka **doc.medium**),​ kam spadají např. encyklopedie,​ slovníky apod. Definitivní výběr by pak vypadal takto:
  
-[{{:​kurz:​vyber02.png?​800| Výběr textů na základě metainformací ​FIXME}}] +[{{:​kurz:​vyber02.png?​800| Výběr textů na základě metainformací }}] 
  
  
Řádek 30: Řádek 30:
 Pro jednorázovou specifikaci subkorpusu, na nějž chceme dotaz omezit, můžeme využít podmínku ''​[[pojmy:​within|within]]''​ v rámci [[pojmy:​cql|CQL]] dotazu: ​ Pro jednorázovou specifikaci subkorpusu, na nějž chceme dotaz omezit, můžeme využít podmínku ''​[[pojmy:​within|within]]''​ v rámci [[pojmy:​cql|CQL]] dotazu: ​
  
-  * Hledáme citoslovce u Karla Čapka (v nereferenčním korpusu SYN): ''​[tag=%%"​I.*"​%%] within <opus autor=%%"​Čapek,​ Karel"​%% />''​+  * Hledáme citoslovce u Karla Čapka (v nereferenčním korpusu ​[[cnk:​syn:​verze7|SYN, verze 7]]): ''​[tag=%%"​I.*"​%%] within <doc author=%%"​Čapek,​ Karel"​%% />''​
  
  
Řádek 42: Řádek 42:
  
   * 1. krok je vždy stejný: Musíme vybrat výchozí korpus, z něhož budeme volit odpovídající podmnožinu dat.   * 1. krok je vždy stejný: Musíme vybrat výchozí korpus, z něhož budeme volit odpovídající podmnožinu dat.
-  * 2. krok: V jednotlivých kolonkách strukturních typů zaškrtáme své volby příslušných kategorií. Čísla napravo od nich představují velikost textů v dané kategorii ​(vpravo nahoře lze přepínat mezi počty dokumentů či [[pojmy:​token|tokenů]]). Na základě těchto údajů je možné vytvářet subkorpus s určitými proporcemi. Svou volbu můžeme upravovat pomocí tlačítek **Zúžit výběr** a **Zrušit výběr**. Je-li výběr dostatečně úzký, lze vybírat také přímo z konkrétních děl (**doc.title** v SYN2015, **opus.nazev** ve starších psaných korpusech).+  * 2. krok: V jednotlivých kolonkách strukturních typů zaškrtáme své volby příslušných kategorií. Čísla napravo od nich představují velikost textů v dané kategorii ​počtu [[pojmy:​token|tokenů]]. Na základě těchto údajů je možné vytvářet subkorpus s určitými proporcemi. Svou volbu můžeme upravovat pomocí tlačítek **Zúžit výběr** a **Zrušit výběr**. Je-li výběr dostatečně úzký, lze vybírat také přímo z konkrétních děl (**doc.title** v SYN2015, **opus.nazev** ve starších psaných korpusech).
   * 3. krok: Subkorpusu je potřeba přidělit jméno (tj. jednoznačný a jedinečný identifikátor,​ který v rámci seznamu vašich existujících subkorpusů vytvořených z daného zdrojového korpusu dosud nebyl použit).   * 3. krok: Subkorpusu je potřeba přidělit jméno (tj. jednoznačný a jedinečný identifikátor,​ který v rámci seznamu vašich existujících subkorpusů vytvořených z daného zdrojového korpusu dosud nebyl použit).
  
Řádek 76: Řádek 76:
 Subkorpusy můžeme spravovat a ty nepotřebné mazat v sekci **[[manualy:​kontext:​korpusy#​prehled_existujicich_subkorpusu|Mé subkorpusy]]**. ​ Subkorpusy můžeme spravovat a ty nepotřebné mazat v sekci **[[manualy:​kontext:​korpusy#​prehled_existujicich_subkorpusu|Mé subkorpusy]]**. ​
  
-[{{:​kurz:​smazatsubkorpus.png?​| Mé subkorpusy – možnost smazání subkorpusu ​FIXME}}]+[{{:​kurz:​smazatsubkorpus.png?​| Mé subkorpusy – možnost smazání subkorpusu }}]
  
 ==== Veřejné subkorpusy ==== ==== Veřejné subkorpusy ====