AplikaceAplikace
Nastavení

This is an old revision of the document!


Menu: Corpora

FIXME The first menu item Available corpora opens a page where the user can search for all corpora to which he has access.

The remaining three items are dedicated to virtual sub-corpora (i.e. subsets of texts from the initial corpus). Here it is possible both to create your own subcorpus and to manage existing subcorpora (work with the subcorpus draft, view finished subcorpora, archive them, delete them, etc.).

Subcorpora are tied to the user account. Virtual subcorpora are therefore available to registered users from any computer, provided that they sign in with their username and password. The search results in each individual subcorpus are also visible to other users (e.g. by sending a link to concordances or frequency distribution tables created on the subcorpus data). The entire subcorpus can also be published among public subcorpora if the user fills in the public subcorpus description field. FIXME

Generally speaking, a subcorpus is only an additional condition which is applied to all queries in the search. For example, if we are searching for the lemma dřevo in the fiction subcorpus SYN2020:beletrie, the query will automatically add the condition within, which specifies the texts of the corpus SYN2020 in which the search is to be conducted.

Available Corpora

A list of all the corpora available to the user are accessible via the menu item Corpora → Available corpora. Due to the large number of corpora and their respective versions, following the first login, the user is shown a pre-filtered list of corpora with the label “Czech” (containing both the SYN series corpora, and the ORAL series, and many specialized and hosted corpora). A complete list of all corpora in alphabetical order appears after clicking on the label “Reset,“ on the far left. With all following visits the KonText interface will remember the user’s most recent settings and will display a list just as how the user had himself compiled it during his last visit.

Next to corpora which are limited in some way, usually due to licensing, there is an icon in the shape of a lock. If the user is interested in gaining access to such a corpus, he can put in his request by clicking on the icon and the corpus will be, if possible, made accessible to him.

Similarly as with corpus selection, the list of corpora can be filtered based on various criteria before the search itself. One of the possibilities is the use of the so-called labels characterizing each corpus. Furthermore it is possible to filter by the name of the corpus or its part, or according to its size (bookmark Advanced). By clicking on the star in the right-hand column we can add the corpus to our Favourites, on the other hand by turning it off we remove the corpus from the favourites.

Subcorpora and parallel corpora in the favourites list

As a favourite item we may label not only an entire independent corpus, but also a corpus including Subcorpora or aligned groups of two or three corpora within a parallel corpus InterCorp, which significantly speeds up our work. Owing to the fact that not all combinations of Subcorpora and/or aligned corpora can appear in the list of available corpora, it is necessary to add them to the Favourites list when they are selected as the current corpus. It is generally the case that by clicking on the star next to the corpus (subcorpus) name at a time when the given corpus (subcorpus) is selected as current for searching, the entire combination is added to the Favourites (including aligned corpora if there are any).

Create a new subcorpus

Creating a new subcorpus

In the case that we want to, in the long term, work only with a specific group of texts in the given corpus, it pays off to create and save our own subcorpus on the server (on the other hand, with ad hoc searches in a subgroup of texts it is better to select the option Specify query according to the meta-information when typing a new query).

If we select Corpora → Create new subcorpus in the menu, a form for creating a permanent virtual subcorpus will appear. When creating a subcorpus it is necessary to specify:

  1. a default corpus, from which the text will be selected
  2. a subcorpus name, an unambiguous identifier which has not been previously used in the list of existing subcorpora
  3. FIXME v případě, že si přejeme, aby byl subkorpus dohledatelný pomocí stránky Korpusy → Veřejné subkorpusy, vyplníme veřejný popis (pokud zůstane pole prázdné, bude subkorpus jako celek nedohledatelný)
  4. a condition based on which we select the text for the subcorpus

The condition can be specified with a CQL query using the command within, or by selecting values of structural attributes from the ready selection. On the list of structural attribute values are numbers representing the text’s size in the given category (the number refers to the number of words or number of documents in the given category). Based on these numbers it is possible to create subcorpora with specific proportions.

Within this form it is possible to select those structural attribute values that interest us. The form does not contain all the structural attributes, but only those most frequently used in the given corpus (e.g. when searching in SYN2015 or SYN2020 it is txtype_group, txtype, genre, med, srclang). The abbreviations used can be found in the relevant section of lists.

Selection is governed by the same principles as in the case of query specification according to metainformation (see description of item Query). In the last column, a list of specific opuses or documents appears (based on the selected corpus), and these meet a specified condition. If such a list should be too long, the given column contains only the number of items. If we select several categories out of the options, we can then view a list of texts meeting these conditions with the button refine (bottom left). The column containing the list of texts will update itself according to the currently selected criteria. We can continue thus until we are satisfied with the specification of the date which we want to use for our search.

Subkorpus vytvořený podle vlastních kritérií FIXME

FIXME Je-li subkorpus vytvořen pomocí výběru hodnot strukturních atributů, lze výsledný subkorpus kombinovat v konkordančním dotazu s ad hoc výběrem hodnot typů textu, kdy se na začátku automaticky předvyberou hodnoty odpovídající obsahu zvoleného subkorpusu. Díky tomu je možné v subkorpusu dále upřesnit požadované typy textů.

Další možností je namíchat si subkorpus podle vlastních kritérií (např. 50 % textů z beletrie a 50 % z publicistiky). Chceme-li tuto funkci využít, zaškrtneme si při vytváření subkorpusu rovnou požadované typy textů v rámci vybraného atributu a teprve pak klikneme na Zúžit výběr. Tím se zpřístupní funkce Vlastní poměry typů textů. Pokud tedy například chceme subkorpus publicistiky ze SYN2015, který bude obsahovat 50 % celostátního tisku a 50 % regionálního tisku (defaultně je v korpusu celostátního tisku 75 % a regionálního jen 25 %), zaškrtneme v políčku doc.genre oba požadované žánry – NTW: celostátní tisk a REG: regionální tisk – a zúžíme výběr. Poté zvolíme funkci Vlastní poměry typů textů a změníme poměr na 50 % a 50 %. Výsledný subkorpus bude obsahovat náhodně vybrané texty z obou žánrů v námi zvoleném poměru.

Berte prosím na vědomí, že použití více než jednoho strukturního atributu může snadno vést k zadání, jimž nelze vyhovět žádným výběrem textů z výchozího korpusu. V takovém případě subkorpus nebude vytvořen.

Creating a subcorpus draft on the concordance query page

FIXME The subcorpus can also be created directly on the concordance query page under the Restrict search option. After checking the selected segments just click on the Save as a subcorpus draft option. Aby byl subkorpus aktivní, je potřeba přejít do menu Korpusy → Mé subkorpusy, najít koncept subkorpusu v tabulce a pomocí ikonky ozubeného kola otevřít vlastnosti subkorpusu a následně ho dokončit (viz následující oddíl).

My subcorpora

A list of the user’s existing subcorpora

FIXME The section Corpora → My Subcorpora provides a list of all the subcorpora (nebo jejich připravených konceptů) defined by the user. Next to their name in the table is also their size (in the number of positions) and the date they were created. Simultaneously Na každém řádku lze pomocí ikonky ozubeného kolečka otevřít zvláštní nabídku a měnit zde vlastnosti daného subkorpusu:

  1. Pokud je subkorpus ve stavu konceptu, lze dokončit jeho nastavení (upravit jeho strukturu, případně doplnit jeho veřejný popis) a převést ho do aktivního stavu volbou Dokončit subkorpus na úvodní liště Soubor.
  2. Změnit výběr textů daného subkorpusu pomocí lišty Struktura subkorpusu lze pouze u konceptu subkorpusu. Pokud však uživatel změní strukturu u již vytvořeného subkorpusu, je následně možné pomocí volby Uložit jako… nastavení jednoduše zkopírovat do nového subkorpusu s novým názvem.
  3. U každého subkorpusu lze měnit jeho název a také veřejnou dohledatelnost doplněním či smazáním popisu na liště Název a veřejný popis.
  4. Pokud již uživatel neplánuje se subkorpusem aktivně pracovat, může ho archivovat (pomocí tlačítka Archivovat na úvodní liště Soubor). Subkorpus bude v takovém případě skryt v seznamu mých subkorpusů, nebude se nabízet na stránkách s vyhledáváním ani nebude veřejně dohledatelný. Vytvořené URL adresy výsledků hledání však budou nadále fungovat. V případě potřeby lze archivovaný subkorpus v seznamu mých subkorpusů i později zobrazit (zaškrtnutím volby Zobrazit i archivované korpusy) a obnovit ho do původního stavu.
  5. Subkorpusy lze také nevratně smazat kliknutím na tlačítko Odstranit na úvodní liště Soubor. V takovém případě již dojde k fyzickému odstranění všech dat subkorpusu, čímž přestanou platit i existující URL adresy. Tento postup je tedy vhodný spíše pro subkorpusy, které doposud nebyly mezi uživateli sdíleny, případně je-li vážný důvod k jejich odstranění.

FIXME The list contains all of the user’s corpora, zároveň je lze filtrovat podle jednotlivých výchozích korpusů. However, it must be repeated that subcorpora ale always tied to the default (original) corpus. Therefore, if we create a fiction subcorpus from the corpus SYN2020 based on a general condition or by selecting one of the options, it doesn’t mean that we will also have at our disposition an analogical subcorpus of fiction from the corpus SYN2015.

Using subcorpora

Searching in the created subcorpus can by initiated by one click in the subcorpus in the menu Corpora → My subcorpora or by selecting a source corpus for the query and subsequently selecting in the drop-down menu, which is found next to the corpus specification.

Public subcorpora

FIXME Výsledky vyhledávání v subkorpusech lze zpřístupnit ostatním uživatelům jednoduchým odesláním odkazu (za předpokladu, že uživatelé mají přístup ke zdrojovému korpusu, z něhož je subkorpus vytvořen). Subkorpusy je však možné sdílet i jako celek, a to v případě, že uživatel při vytváření korpusu (na stránce Korpusy → Vytvořit nový subkorpus) nebo při jeho editaci (v nabídce na stránce Korpusy → Mé subkorpusy) vyplní pole Veřejný popis subkorpusu.

Každému subkorpusu je přiřazen unikátní klíč (např. 7e06d19af7), který je možné sdílet a podle něhož lze korpus v rámci menu Korpus > Veřejné subkorpusy vyvolat. Alternativně je možné veřejný subkorpus vyhledat rovněž podle příjmení autora. Unikátní klíč lze zobrazit ve vlastnostech korpusu na stránce Korpusy → Mé subkorpusy, nebo pokud si uživatel vybere vytvořený korpus k práci a nechá si zobrazit informace o něm (odkaz na začátku drobečkové navigace pod logem KonText).


Menu: QueryCorporaSaveConcordanceFilterFrequencyCollocationViewHelp