AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Menu: Korpusy

Dostupné korpusy

Seznam všech korpusů, které jsou danému uživateli dostupné, je přístupný přes položku menu Korpusy → Dostupné korpusy. Tato stránka je určena pro zobrazení všech korpusů zveřejněných v rámci ČNK, tedy i těch hostovaných. Vzhledem k velkému počtu korpusů (v řádu desítek) se při prvním přihlášení uživateli zobrazí předfiltrovaný seznam korpusů se štítkem „čeština“ (zahrnující jak korpusy řady SYN, tak ORAL a mnohé specializované a hostované korpusy). Kompletní seznam všech korpusů v abecedním pořadí se zobrazí po kliknutí na „Zrušit výběr“. Vedle korpusů, na něž se vztahuje nějaké publikační omezení, je ikona v podobě zámečku. Pokud má uživatel zájem o přístup k takovému korpusu, po kliknutí na ikonu o něj může zažádat a korpus mu bude, umožňují-li to licenční ujednání, zpřístupněn.

Podobně jako při volbě korpusu (tady prosím místo volbě korpusu link na tu druhou stránku) před vyhledáváním lze seznam korpusů libovolně filtrovat podle různých kritérií. Jednou z možností je využití tzv. štítků charakterizujících každý korpus, dále je možné filtrovat také podle jména korpusu (i části jména) nebo jeho velikosti (záložka pokročilé). Kliknutím na hvězdičku v pravém sloupci zařadíme korpus mezi oblíbené, jejím zhasnutím korpus z oblíbených naopak vyřadíme.

Subkorpusy a paralelní korpusy na seznamu oblíbených

Za oblíbenou položku je možné označit nejenom celý samostatný korpus, ale také korpus včetně subkorpusu nebo zarovnané dvojice či trojice korpusů v rámci paralelního korpusu InterCorp. Vzhledem k tomu, že se všechny možné subkorpusy ani zarovnané paralelní korpusy v seznamu korpusů z pochopitelných důvodů neobjevují, je nutné je vložit mezi oblíbené při práci s nimi, tedy v okamžiku, kdy jsou zvoleny jako aktuální korpus pro vyhledávání. Po kliknutí na hvězdičku vedle názvu korpusu (subkorpusu) se do oblíbených automaticky uloží celé nastavení, tedy včetně zadaného subkorpusu nebo zarovnaných korpusů různých jazyků.

Práce se subkorpusy

Vytváření virtuálních subkorpusů (tj. podmnožin textů z výchozího korpusu) je v rozhraní KonText soustředěno do druhé položky hlavního menu. Zde je možné jednak vytvářet vlastní subkorpus a jednak spravovat stávající subkorpusy (prohlížení, mazání apod.).

Subkorpusy jsou vázané na uživatelský účet. Virtuální subkorpus má tak registrovaný uživatel přístupný na všech počítačích, kde se přihlásí svým přístupovým jménem a heslem.

V obecné rovině je subkorpus pouze dodatečná podmínka, která se při hledání aplikuje na všechny dotazy. Hledáme-li např. lemma dřevo v beletristickém subkorpusu SYN2010:beletrie, znamená to, že za dotaz bude automaticky připojena podmínka within, která specifikuje, v jakých textech korpusu SYN2010 se má hledání provést.

Vytvoření nového subkorpusu

Vytváření nového subkorpusu

V případě, že chceme dlouhodobě pracovat jenom s určitou skupinou textů v daném výchozím korpusu, se vyplatí vytvořit a na serveru uložit vlastní subkorpus (v opačném případě, při ad hoc hledání v podmnožině textů, je lepší využít volbu Specifikovat dotaz podle metainformací při zadávání nového dotazu).

Zvolíme-li v menu Subkorpus → Vytvořit nový, zobrazí se formulář pro vytváření permanentního virtuálního subkorpusu. Při tvorbě subkorpusu je třeba specifikovat:

  1. výchozí korpus, z něhož budeme vybírat texty
  2. jméno subkorpusu, jednoznačný identifikátor, který v rámci seznamu existujících subkorpusů ještě nebyl použit
  3. podmínku, na základě které vybereme texty do subkorpusu

Podmínku je možné specifikovat buď CQL dotazem pomocí příkazu within, nebo výběrem hodnot strukturních atributů z připravené nabídky. V seznamu hodnot strukturních atributů jsou uvedena čísla reprezentující velikost textů v dané kategorii (údaj se týká počtu slov nebo počtu dokumentů v dané kategorii). Na základě těchto údajů je možné vytvářet subkorpus s určitými proporcemi.

V rámci tohoto formuláře je možné zaškrtnout ty hodnoty vybraných strukturních atributů, které nás zajímají. Formulář neobsahuje všechny strukturní atributy, pouze ty nejpoužívanější v daném korpusu (např. při hledání v SYN2010 jsou to txtype_group, txtype, genre, med, srclang). Použité zkratky je možné dohledat v příslušné sekci seznamů.

Výběr se řídí stejnými principy jako v případě specifikace dotazu na základě metainformací (viz popis položky Dotaz) V posledním sloupci se objevuje seznam konkrétních opusů nebo dokumentů (v závislosti na zvoleném korpusu), které odpovídají specifikované podmínce. Pokud by takový seznam byl příliš dlouhý, je v daném sloupci uveden pouze počet položek. V případě, že si z nabídky zvolíme nějaké kategorie, můžeme si zobrazit soupis textů, které takovéto podmínce odpovídají, pomocí tlačítka zúžit výběr (vlevo dole). Sloupec se seznamem textů se přepočítá podle aktuálně zaškrtnutých kritérií. Takto můžeme pokračovat do té doby, než budeme spokojeni s vymezením dat, která k hledání chceme použít.

Přehled existujících subkorpusů

Přehled existujících uživatelových subkorpusů

Sekce Subkorpus → Mé subkorpusy přináší přehled všech uživatelem definovaných subkorpusů. V tabulce je vedle jejich jména i jejich velikost (v počtu pozic) a datum vytvoření. Zároveň zde má uživatel možnost smazat subkorpusy, které už nepoužívá.

Ve výpisu se objevují všechny korpusy uživatele. Je třeba ovšem připomenout, že subkorpusy jsou vždy svázané s výchozím korpusem. Pokud tedy vytvoříme beletristický subkorpus z korpusu SYN2010 na základě obecné podmínky nebo výběrem z možností, neznamená to, že budeme mít k dispozici také analogický subkorpus beletrie z korpusu SYN2005.

Používání subkorpusu

Vyhledání ve vytvořeném subkorpusu můžeme iniciovat jednak kliknutím na daný subkorpus v nabídce Subkorpus → Mé subkorpusy nebo výběrem zdrojového korpusu při zadávání dotazu a následnou volbou v roletovém menu umístěném vedle specifikace korpusu.