AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
manualy:kontext:novy_dotaz [2021/10/23 15:04] – [Podmínka nikdy a vždy] vaclavcvrcekmanualy:kontext:novy_dotaz [2024/02/12 15:48] (aktuální) jankocek
Řádek 1: Řádek 1:
 ====== Menu: Dotaz ====== ====== Menu: Dotaz ======
  
-[{{:manualy:kontext:novy_dotaz.png?direct&350 |Formulář pro vytváření dotazu }}]+Základním způsobem dotazování v korpusu je dotaz syntagmatický, jehož výsledkem je [[pojmy:konkordance|konkordance]], tjseznam všech výskytů ([[pojmy:token|tokenů]]) odpovídajících dotazu spolu s jejich textovým okolím. Spouští se pomocí volby **Dotaz → Konkordance**.
  
-Pomocí volby **Dotaz → Zadat nový dotaz** je možné kdykoli začít nové hledání v korpusech. Kliknutím na tuto volbu opustíme předchozí vyhledaný dotazpřípadně výsledky na m vytvořené, a začínáme s novým hledáním. Následující text se zabývá edevším pokládáním dotazu do jednojazyčných korpusů, specifika zadávání dotazů do paralelního korpusu [[cnk:intercorp|InterCorp]] popisuje podrobněji [[kurz:hledani_v_paralelnim_korpusu#paralelni_korpusy_v_rozhrani_kontext|bonusová lekce]] základního kurzu práce s ČNK.+Rozšířením dotazu syntagmatického je [[pojmy:paradigmaticky|hledání paradigmatické]]jež je vlastně kombinací kolika dílčích syntagmatických dotazů a ináší průnik jejich frekvenčních distribucí. Výsledkem paradigmatického dotazování je tak množina [[pojmy:typ|typů]], které odpovídají //všem// jednotlivým syntagmatickým dotazům. Spouští se pomocí volby **Dotaz → Paradigmatický dotaz**.
  
-Po kliknutí na položku **Zadat nový dotaz** se uživateli zobrazí základní menu pro dotazování. V rámci tohoto formuláře je možné zvolit korpus, v němž se bude vyhledávat, a ve vstupním řádku pod ním zadat dotaz. Pomocí přepínače lze aktivovat funkci Pokročilý dotaz, která pracuje s dotazovacím jazykem [[pojmy:cql|CQL]]. Součástí formuláře je i interaktivní mezinárodní **klávesnice** pro zápis speciálních znaků (zejména pro vyhledávání v nečeských textech a pro vkládání speciálních znaků jazyka CQL). Dříve položené dotazy je možné vyvolat jednak přímo v menujednak pomocí odkazu **Předchozí dotazy** nad dotazovacím řádkem. Poslední položkou v liště nad řádkem je **Interpretace dotazu**kde uživatel zjistí, jak bude jeho dotaz vyhodnocen (de facto přeložen do CQL) a zda je tato interpretace v souladu jeho záměrem. Tato funkce ztrácí smysl při přepnutí do režimu **pokročilého dotazu**, místo ní je však možné přímo vkládat interaktivně generované [[pojmy:tag|morfologické značky]] (u korpusůkteré jsou takto značkovány) či podmínky specifikující texty, v nichž se má hledat (podmínka [[pojmy:within]]) -- viz položky **Vložit tag** a **Vložit within**.+Další rozšiřující funkce umožňuje vytvořit seznam různých slov (typů), které dotazu odpovídajíspolu jejich absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] nebo počtem dokumentů, v němž se hledaný jev vyskytuje. Spouští se pomocí volby **Dotaz → Seznam slov**.
  
-===== Volba korpusu =====+ 
 + 
 +===== Konkordance ===== 
 + 
 +[{{:manualy:kontext:novy_dotaz.png?direct&350 |Formulář pro vytváření dotazu}}] 
 + 
 +Pomocí volby **Dotaz → Konkordance** je možné kdykoli začít nové hledání v korpusech. Kliknutím na tuto volbu opustíme předchozí vyhledaný dotaz, případně výsledky na něm vytvořené, a začínáme s novým hledáním. Následující text se zabývá především pokládáním dotazu do jednojazyčných korpusů, specifika zadávání dotazů do paralelního korpusu [[cnk:intercorp|InterCorp]] popisuje podrobněji [[kurz:hledani_v_paralelnim_korpusu#paralelni_korpusy_v_rozhrani_kontext|bonusová lekce]] základního kurzu práce s ČNK. 
 + 
 +Po kliknutí na položku **Konkordance** se uživateli zobrazí základní menu pro dotazování. V rámci tohoto formuláře je možné zvolit korpus, v němž se bude vyhledávat, a ve vstupním řádku pod ním zadat dotaz. Pomocí přepínače lze aktivovat funkci Pokročilý dotaz, která pracuje s dotazovacím jazykem [[pojmy:cql|CQL]]. Součástí formuláře je i interaktivní mezinárodní **klávesnice** pro zápis speciálních znaků (zejména pro vyhledávání v nečeských textech a pro vkládání speciálních znaků jazyka CQL). Dříve položené dotazy je možné vyvolat jednak přímo v menu, jednak pomocí odkazu **Předchozí dotazy** nad dotazovacím řádkem. Poslední položkou v liště nad řádkem je **Interpretace dotazu**, kde uživatel zjistí, jak bude jeho dotaz vyhodnocen (de facto přeložen do CQL) a zda je tato interpretace v souladu s jeho záměrem. Tato funkce ztrácí smysl při přepnutí do režimu **pokročilého dotazu**, místo ní je však možné přímo vkládat interaktivně generované [[pojmy:tag|morfologické značky]] (u korpusů, které jsou takto značkovány) či podmínky specifikující texty, v nichž se má hledat (podmínka [[pojmy:within]]) -- viz položky **Vložit tag** a **Vložit within**. 
 + 
 +==== Volba korpusu ====
  
 Volba [[pojmy:korpus|korpusu]] vhodného pro řešení dané výzkumné otázky je důležité rozhodnutí, které je nutné učinit ještě před samotným započetím výzkumu. [[cnk:uvod|Spektrum korpusů]] dostupných v projektu ČNK se neustále rozšiřuje, způsob výběru korpusu v rozhraní KonText proto kombinuje rychlý přístup k personalizovanému výběru (oblíbeným korpusům) spolu s výběrem pomocí tzv. štítků, které charakterizují jejich hlavní vlastnosti. Volba [[pojmy:korpus|korpusu]] vhodného pro řešení dané výzkumné otázky je důležité rozhodnutí, které je nutné učinit ještě před samotným započetím výzkumu. [[cnk:uvod|Spektrum korpusů]] dostupných v projektu ČNK se neustále rozšiřuje, způsob výběru korpusu v rozhraní KonText proto kombinuje rychlý přístup k personalizovanému výběru (oblíbeným korpusům) spolu s výběrem pomocí tzv. štítků, které charakterizují jejich hlavní vlastnosti.
Řádek 20: Řádek 30:
 **Příklad**: Uživatel hledá v záložce **Všechny korpusy** současnou verzi anglické části paralelního korpusu [[cnk:intercorp|InterCorp]]. Zvolí nejprve štítky ''InterCorp'' a ''současná verze'' (pro výběr více štítků je třeba zároveň stisknout klávesu Ctrl/Command), v seznamu se objeví prvních 25 korpusů vyhovujících zadané podmínce, ačkoli InterCorp zahrnuje mnohem více jazyků. K nezobrazeným korpusům se lze dostat dalším filtrováním pomocí zadání části názvu či jazyka (pozor: názvy jednotlivých jazykových mutací korpusu InterCorp jsou anglicky!). Nalezený korpus lze kliknutím vybrat a začít v něm vyhledávat. Pomocí hvězdičky jej lze zároveň označit jako oblíbený; tím je tento korpus zařazen na seznam oblíbených korpusů a lze se k němu rychle a snadno dostat na jedno kliknutí. **Příklad**: Uživatel hledá v záložce **Všechny korpusy** současnou verzi anglické části paralelního korpusu [[cnk:intercorp|InterCorp]]. Zvolí nejprve štítky ''InterCorp'' a ''současná verze'' (pro výběr více štítků je třeba zároveň stisknout klávesu Ctrl/Command), v seznamu se objeví prvních 25 korpusů vyhovujících zadané podmínce, ačkoli InterCorp zahrnuje mnohem více jazyků. K nezobrazeným korpusům se lze dostat dalším filtrováním pomocí zadání části názvu či jazyka (pozor: názvy jednotlivých jazykových mutací korpusu InterCorp jsou anglicky!). Nalezený korpus lze kliknutím vybrat a začít v něm vyhledávat. Pomocí hvězdičky jej lze zároveň označit jako oblíbený; tím je tento korpus zařazen na seznam oblíbených korpusů a lze se k němu rychle a snadno dostat na jedno kliknutí.
  
-===== Typy dotazů =====+==== Typy dotazů ====
  
 Současná verze KonTextu rozlišuje pouze dva typy dotazu: **jednoduchý** a **pokročilý**. Současná verze KonTextu rozlišuje pouze dva typy dotazu: **jednoduchý** a **pokročilý**.
Řádek 28: Řádek 38:
 </WRAP> </WRAP>
  
-Výchozím nastavením je **jednoduchý dotaz**, v němž je dále implicitně nastaveno nerozlišování velikosti písmen (přepínač **Shoda velikosti písmen** je vypnutý), není povoleno použití regulárních výrazů (přepínač **Povolit regulární výrazy** je vypnutý) a vyhledávání je nastaveno podle **výchozího atributu** ''lemma|word'' (v SYN2020 ''lemma|sublemma|word''), čímž se vyhledá nejen uvedený tvar (podle atributu ''word''), ale i další tvary slova (podle atributů ''lemma'' nebo ''sublemma''), pokud je zadaný tvar zároveň lemmatem nebo sublemmatem (poznámka: oproti předchozím verzím KonTextu nejde o změnu, jen o zobecnění chování původního základního dotazu). Do vstupního řádku je možné kromě jednotlivých slov zadávat i celé fráze. Vyhledávání lze na jednotlivých pozicích upřesnit jednak pomocí našeptávače (zatím jen v SYN2020, viz další oddíl), jednak změnou výchozího atributu (atribut je pak platný pro všechny pozice) a/nebo přepnutím shody velikosti písmen. Složitější dotazy je možné pokládat i v rámci jednoduchého dotazu, pokud uživatel využije volby Povolit regulární výrazy.+Výchozím nastavením je **jednoduchý dotaz**, v němž je dále implicitně nastaveno nerozlišování velikosti písmen (přepínač **Shoda velikosti písmen** je vypnutý), není povoleno použití regulárních výrazů (přepínač **Povolit regulární výrazy** je vypnutý) a vyhledávání je nastaveno podle **výchozího atributu** ''lemma|word'' (v nových synchronních korpusech počínaje SYN2020 ''lemma|sublemma|word''), čímž se vyhledá nejen uvedený tvar (podle atributu ''word''), ale i další tvary slova (podle atributů ''lemma'' nebo ''sublemma''), pokud je zadaný tvar zároveň lemmatem nebo sublemmatem (poznámka: oproti předchozím verzím KonTextu nejde o změnu, jen o zobecnění chování původního základního dotazu). Do vstupního řádku je možné kromě jednotlivých slov zadávat i celé fráze. Vyhledávání lze na jednotlivých pozicích upřesnit jednak pomocí našeptávače (zatím jen v nových synchronních korpusech, viz další oddíl), jednak změnou výchozího atributu (atribut je pak platný pro všechny pozice) a/nebo přepnutím shody velikosti písmen. Složitější dotazy je možné pokládat i v rámci jednoduchého dotazu, pokud uživatel využije volby Povolit regulární výrazy.
  
 **Pokročilý dotaz** se aktivuje spínačem nad vstupním řádkem a plně odpovídá dotazu typu CQL předchozích verzí KonTextu. Při zadávání dotazovacího jazyka [[pojmy:cql|CQL]] KonText automaticky kontroluje a zvýrazňuje syntax dotazu. V případě, že dotaz není validní, KonText na to uživatele upozorní a umožní mu dotaz před vyhodnocením opravit. Vzhledem k širokým možnostem CQL dotazování však není kontrola správnosti dotazu vždy přesná, výjimečně se tak může stát, že se varování objeví i v případě validního dotazu. **Pokročilý dotaz** se aktivuje spínačem nad vstupním řádkem a plně odpovídá dotazu typu CQL předchozích verzí KonTextu. Při zadávání dotazovacího jazyka [[pojmy:cql|CQL]] KonText automaticky kontroluje a zvýrazňuje syntax dotazu. V případě, že dotaz není validní, KonText na to uživatele upozorní a umožní mu dotaz před vyhodnocením opravit. Vzhledem k širokým možnostem CQL dotazování však není kontrola správnosti dotazu vždy přesná, výjimečně se tak může stát, že se varování objeví i v případě validního dotazu.
  
-Je-li zadán dotaz, je možné spustit vyhledávání buď kliknutím na tlačítko **Hledat**, nebo stisknutím klávesy Enter (kurzor musí být umístěn ve vstupním řádku).+Je-li zadán dotaz, je možné spustit vyhledávání buď kliknutím na tlačítko **Hledat**, nebo stisknutím klávesy Enter (kurzor musí být umístěn ve vstupním řádku). 
  
-===== Našeptávač =====+Vedle tlačítka **Hledat** je zároveň umístěna volba **Promíchat konkordanční řádky**. Tuto volbu je vhodné mít stále zapnutou, protože zobrazuje konkordance v náhodném pořadí, což je klíčové pro správnou a nezavádějící interpretaci výsledku. Podrobněji viz na stránce [[manualy:kontext:konkordance#promichat|Konkordance]].
  
-[{{ :manualy:kontext:dotaz_naseptavac.png?direct&400|Našeptávač}}] 
  
-Pro korpusy s tzv. [[cnk:syn2020:lemmatizace|dvouúrovňovou lemmatizací]] (aktuálně je to pouze [[cnk:syn2020|SYN2020]]) je k dispozici tzv. našeptávač, nástroj nabízející další možné varianty zadávaného slova (pokud existují) a umožňující tak vhodnější specifikaci dotazu. Při aktivaci našeptávače se slova, k nimž jsou v daném korpusu registrovány varianty, ve vstupním řádku barevně zvýrazní, zprava vedle nich se pak objeví ikonka otazníku. Klikne-li uživatel na daný výraz a současně stiskne klávesu Ctrl/Command, objeví se možné varianty v podobě lemmat či sublemmat, z nichž je možné vybrat tu nejvhodnější, která pak zadané slovo nahradí. Dojde tak ke změně původní interpretace daného slova, která je indikována zčervenáním volby **Interpretace dotazu** nad dotazovacím řádkem.+=== Vyhodnocení dotazu ===
  
-Např. při vložení slova //filozof// nás našeptávač upozorní, že toto lemma zahrnuje v SYN2020 dvě sublemmata, pravopisné varianty //filozof// a //filosof// (totéž by platilo i o slovech odvozených). Na uživateli pak je, které varianty do svého dotazu zahrne. Podobně našeptávač upozorňuje i na lemmata a sublemmata lišící se velikostí písmen (např. //Procházka// oproti //procházka//). Další příklady zpracování variant v SYN2020 najdete [[cnk:syn2020:lemmatizace|zde]].+Pokud je hledání úspěšné, zobrazí se stránka s konkordančním seznamemjejíž ovládání je podrobně popsáno na stránce [[manualy:kontext:konkordance|Konkordance]].
  
-===== Upřesnit parametry =====+==== Našeptávač ==== 
 + 
 +[{{ :manualy:kontext:dotaz_naseptavac_brejli.png?direct&400|Našeptávač}}] 
 + 
 +Pro korpusy s tzv. [[cnk:syn2020:lemmatizace|dvouúrovňovou lemmatizací]] (zatím české synchronní korpusy počínaje [[cnk:syn2020|SYN2020]] a [[cnk:syn:verze9|SYN verze 9]]) je k dispozici tzv. našeptávač, nástroj nabízející na základě zadaného slovního tvaru další možné způsoby hledání slova (nebo i více slov), k němuž tento tvar náleží. Při aktivaci našeptávače se slovní tvary, které jsou v daném korpusu rozpoznány, ve vstupním řádku barevně zvýrazní, zprava vedle nich se pak objeví ikonka otazníku. Klikne-li uživatel na daný výraz a současně stiskne klávesu Ctrl/Command, objeví se nabídka výrazů v podobě lemmat, sublemmat a lc (tvarů nezávislých na velikosti písmen), z nichž je možné vybrat ten nejvhodnější, který pak zadaný tvar nahradí. Dojde tak ke změně původní interpretace daného výrazu, která je indikována zčervenáním volby **Interpretace dotazu** nad dotazovacím řádkem. 
 + 
 +Např. při vložení tvaru //brejlí// nás našeptávač upozorní, že tento tvar je v korpusu SYN2020 anotován v závislosti na kontextu pod dvěma různými lemmaty (//brejlit// a //brýle//), a navíc nám ukáže, že lemma //brýle// zahrnuje dvě sublemmata, stylistické varianty //brýle// a //brejle//. Uživatel má tedy možnost dotaz upravit tak, že bude hledat buď (i) všechny tvary vybraného slova nezávisle na variantě (sloupec **lemma**, např. //brýle//), nebo (ii) jen tvary slova patřící pod danou variantu (sloupec **sublemma**, např. //brejle//), nebo (iii) jen tvar nezávislý na velikosti písmen patřící pod lemma uvedené na řádku (sloupec **lc**, např. //brejlí// pod lemmatem //brýle//). Podobně našeptávač upozorňuje i na lemmata a sublemmata lišící se velikostí písmen (např. //Procházka// oproti //procházka//). Příklady zpracování variant v SYN2020 najdete [[cnk:syn2020:lemmatizace|zde]]. 
 + 
 +==== Upřesnit parametry ====
  
 Jak již bylo uvedeno výše, lze při zadávání dotazu specifikovat také další parametry, které ovlivňují jeho interpretaci: jde jednak o výchozí [[pojmy:atributy_pozicni|poziční atribut]], v režimu jednoduchého dotazu je to dále zohlednění velikosti písmen (case-sensitivity) a také povolení použití [[pojmy:regularni_vyrazy|regulárních výrazů]]. Jak již bylo uvedeno výše, lze při zadávání dotazu specifikovat také další parametry, které ovlivňují jeho interpretaci: jde jednak o výchozí [[pojmy:atributy_pozicni|poziční atribut]], v režimu jednoduchého dotazu je to dále zohlednění velikosti písmen (case-sensitivity) a také povolení použití [[pojmy:regularni_vyrazy|regulárních výrazů]].
  
-===== Specifikovat kontext =====+==== Specifikovat kontext ====
  
 [{{:manualy:kontext:hledani_kontext.png?direct&300 |Formulář pro hledání v kontextu }}] [{{:manualy:kontext:hledani_kontext.png?direct&300 |Formulář pro hledání v kontextu }}]
Řádek 56: Řádek 73:
 Obecně je možné říci, že libovolné hledání v kontextu lze převést na běžné hledání a následné filtrování (pomocí pozitivního nebo negativního filtru). Filtrování je však také možné uskutečnit pomocí [[pojmy:dotazovaci_jazyk|dotazovacího jazyka]] a provést totožnou operaci v rámci jediného kroku. Platí tedy, že k jednomu výsledku vede vícero cest a záleží plně na uživateli, kterou možnost považuje za nejpohodlnější. Obecně je možné říci, že libovolné hledání v kontextu lze převést na běžné hledání a následné filtrování (pomocí pozitivního nebo negativního filtru). Filtrování je však také možné uskutečnit pomocí [[pojmy:dotazovaci_jazyk|dotazovacího jazyka]] a provést totožnou operaci v rámci jediného kroku. Platí tedy, že k jednomu výsledku vede vícero cest a záleží plně na uživateli, kterou možnost považuje za nejpohodlnější.
  
-===== Omezit hledání =====+==== Omezit hledání ====
  
-[{{ :manualy:kontext:hledani_subkorpus.png?direct&300|Formulář pro hledání v ad hoc vytvořeném subkorpusu }}]+[{{ :manualy:kontext:hledani_subkorpus.png?direct&300|Formulář pro hledání v ad hoc vytvářeném subkorpusu }}]
  
 Potřebujeme-li hledat jen v úzce vymezené skupině textů z celého korpusu, máme dvě možnosti. Buď vytvoříme vlastní virtuální [[manualy:kontext:korpusy|subkorpus]], který bude pak možné vybrat v rámci nabídky korpusů, nebo dotaz omezíme nějakými podmínkami (typicky pomocí příkazu [[pojmy:within|within]]). První možnost volíme zpravidla v situacích, kdy víme, že subkorpus budeme potřebovat delší dobu, nebo když je jeho specifikace složitá. Druhou možnost pak užíváme při ad hoc hledání v rámci nějakých jasně daných kategorií textů, které jsou specifikovány základními [[pojmy:atributy_strukturni|strukturními atributy]]. Potřebujeme-li hledat jen v úzce vymezené skupině textů z celého korpusu, máme dvě možnosti. Buď vytvoříme vlastní virtuální [[manualy:kontext:korpusy|subkorpus]], který bude pak možné vybrat v rámci nabídky korpusů, nebo dotaz omezíme nějakými podmínkami (typicky pomocí příkazu [[pojmy:within|within]]). První možnost volíme zpravidla v situacích, kdy víme, že subkorpus budeme potřebovat delší dobu, nebo když je jeho specifikace složitá. Druhou možnost pak užíváme při ad hoc hledání v rámci nějakých jasně daných kategorií textů, které jsou specifikovány základními [[pojmy:atributy_strukturni|strukturními atributy]].
  
-Formulář nového dotazu poskytuje zjednodušení ve formě dodatečného formuláře **Omezit hledání**, který je umístěn pod kontextovým hledáním a aktivuje se podobně jako (výše popsaná) specifikace kontextu kliknutím.+Vyhledávací formulář poskytuje zjednodušení ve formě dodatečného formuláře **Omezit hledání**, který je umístěn pod kontextovým hledáním a aktivuje se podobně jako (výše popsaná) specifikace kontextu kliknutím.
  
 V rámci tohoto formuláře je možné zaškrtnout ty hodnoty vybraných strukturních atributů, které nás zajímají. Formulář neobsahuje všechny strukturní atributy, pouze ty nejpoužívanější v daném korpusu (např. při hledání v [[cnk:syn2020|SYN2020]] jsou to [[pojmy:txtype_group|txtype_group]], [[pojmy:txtype|txtype]], [[pojmy:genre|genre]], [[pojmy:srclang|srclang]]). Použité zkratky je možné dohledat v příslušné sekci [[seznamy:index|seznamů]]. V rámci tohoto formuláře je možné zaškrtnout ty hodnoty vybraných strukturních atributů, které nás zajímají. Formulář neobsahuje všechny strukturní atributy, pouze ty nejpoužívanější v daném korpusu (např. při hledání v [[cnk:syn2020|SYN2020]] jsou to [[pojmy:txtype_group|txtype_group]], [[pojmy:txtype|txtype]], [[pojmy:genre|genre]], [[pojmy:srclang|srclang]]). Použité zkratky je možné dohledat v příslušné sekci [[seznamy:index|seznamů]].
  
-V jednom ze sloupců se objevuje seznam konkrétních textů ([[pojmy:opus|opusů]] nebo [[pojmy:doc|dokumentů]]), které odpovídají specifikované podmínce.  V případě, že si z nabídky zvolíme nějaké kategorie, můžeme si zobrazit soupis textů, které takovéto podmínce odpovídají, pomocí tlačítka **Zúžit výběr** (pokud odpovídající seznam textů není příliš dlouhý). Sloupec se seznamem textů se přepočítá podle aktuálně zaškrtnutých kritérií. Takto můžeme pokračovat do té doby, než budeme spokojeni s vymezením dat, která k hledání chceme použít.+V jednom ze sloupců se objevuje seznam konkrétních textů ([[pojmy:opus|opusů]] nebo [[pojmy:doc|dokumentů]]), které odpovídají specifikované podmínce.  V případě, že si z nabídky zvolíme nějaké kategorie, můžeme si zobrazit soupis textů, které takovéto podmínce odpovídají, pomocí tlačítka **Zúžit výběr** (pokud odpovídající seznam textů není příliš dlouhý). Sloupec se seznamem textů se přepočítá podle aktuálně zaškrtnutých kritérií. Takto můžeme pokračovat do té doby, než budeme spokojeni s vymezením dat, která k hledání chceme použít. Lze se přitom vracet (volba **Krok zpět**), případně celý výběr stornovat (volba **Zrušit výběr**). Daný výběr je také možné uložit pro pozdější využití (volba **Uložit jako koncept subkorpus**) a vytvořit tak nový virtuální [[pojmy:subkorpus|subkorpus]]. Mimoto lze snadno získat seznam dokumentů v aktuálním výběru (volba **Uložit seznam dokumentů**), což může být praktické, např. chcete-li zjistit, která beletristická díla figurují v paralelním korpusu InterCorp pro ten který jazyk.
  
-Pro podrobnější specifikaci je třeba buď použít podmínku [[pojmy:within|within]] v rámci [[kurz:pokrocile_dotazy#dotazovaci_jazyk|CQL]] dotazu, nebo vytvořit nový virtuální [[pojmy:subkorpus|subkorpus]].+Pro podrobnější specifikaci je třeba použít podmínku [[pojmy:within|within]] v rámci [[kurz:pokrocile_dotazy#dotazovaci_jazyk|CQL]] dotazu.
  
-====== Paradigmatický dotaz =====+===== Paradigmatický dotaz ====
  
-[{{ :manualy:kontext:paradigmaticky_dotaz.png?direct&400|FIXME (roletka Realizace typu!!)}}]+[{{ :manualy:kontext:paradigmaticky_dotaz.png?direct&400| Paradigmatický dotaz }}]
  
 Vedle výše popsaného syntagmatického dotazu (hledáme množinu [[pojmy:token|tokenů]] tvořících [[pojmy:kwic|KWIC]], které zobrazíme spolu s okolním kontextem v podobě [[pojmy:konkordance|konkordance]]) lze využít rovněž [[pojmy:paradigmaticky|hledání paradigmatické]], jež je vlastně kombinací několika dílčích syntagmatických dotazů a přináší průnik jejich frekvenčních distribucí. Výsledkem paradigmatického dotazování je tak množina [[pojmy:token|typů]], které odpovídají //všem// jednotlivým syntagmatickým dotazům.  Vedle výše popsaného syntagmatického dotazu (hledáme množinu [[pojmy:token|tokenů]] tvořících [[pojmy:kwic|KWIC]], které zobrazíme spolu s okolním kontextem v podobě [[pojmy:konkordance|konkordance]]) lze využít rovněž [[pojmy:paradigmaticky|hledání paradigmatické]], jež je vlastně kombinací několika dílčích syntagmatických dotazů a přináší průnik jejich frekvenčních distribucí. Výsledkem paradigmatického dotazování je tak množina [[pojmy:token|typů]], které odpovídají //všem// jednotlivým syntagmatickým dotazům. 
  
  
-[{{ :manualy:kontext:paradigma_vysledek.png?direct&400|FIXME Vyhodnocení paradigmatického dotazu}}]+[{{ :manualy:kontext:paradigma_vysledek.png?direct&400| Vyhodnocení paradigmatického dotazu}}]
  
 V dotazovacím formuláři zadáváme dílčí syntagmatické dotazy do jednotlivých okének, příp. lze další okénka přidat pomocí tlačítka vespod či ubrat kliknutím na ikonku koše vpravo. Dále můžeme specifikovat parametry jako výchozí atribut, minimální frekvenci jednotlivých dílčích syntagmatických dotazů a pozici, na níž bude u každého z nich uplatňována frekvenční distribuce.  V dotazovacím formuláři zadáváme dílčí syntagmatické dotazy do jednotlivých okének, příp. lze další okénka přidat pomocí tlačítka vespod či ubrat kliknutím na ikonku koše vpravo. Dále můžeme specifikovat parametry jako výchozí atribut, minimální frekvenci jednotlivých dílčích syntagmatických dotazů a pozici, na níž bude u každého z nich uplatňována frekvenční distribuce. 
Řádek 95: Řádek 112:
  
 Ve výsledcích najdeme adjektiva jako //nový//, //celý//, //velký//, dále zájmena a číslovky s adjektivním skloňováním //každý//, //druhý//, //který//, ale také slova s jiným skloňováním, která vykazují formální podobnost se zadaným dotazem, např. //svůj// (do jehož paradigmatu patří mj. tvary //svý//, //svá//, //své//). Nenajdou se naopak lemmata, která jeden z tvarů doložen nemají (např. //šestatřicetiletý// nemá doložen tvar //šestatřicetileté//, resp. má ho v korpusu doložen pouze třikrát, což je pod stanovenou mezí minimální frekvence). Ve výsledcích najdeme adjektiva jako //nový//, //celý//, //velký//, dále zájmena a číslovky s adjektivním skloňováním //každý//, //druhý//, //který//, ale také slova s jiným skloňováním, která vykazují formální podobnost se zadaným dotazem, např. //svůj// (do jehož paradigmatu patří mj. tvary //svý//, //svá//, //své//). Nenajdou se naopak lemmata, která jeden z tvarů doložen nemají (např. //šestatřicetiletý// nemá doložen tvar //šestatřicetileté//, resp. má ho v korpusu doložen pouze třikrát, což je pod stanovenou mezí minimální frekvence).
- 
- 
- 
- 
  
 ==== Podmínka nikdy a vždy ==== ==== Podmínka nikdy a vždy ====
Řádek 110: Řádek 123:
 najdeme pouze taková lemmata s adjektivní deklinací, která nemají tvar odpovídající nom. pl.: např. //každý//, //celkový//, //dostatečný//, u nichž nejsou doloženy s nadlimitní frekvencí podoby //*každí//, //*celkoví// a //*dostateční//. najdeme pouze taková lemmata s adjektivní deklinací, která nemají tvar odpovídající nom. pl.: např. //každý//, //celkový//, //dostatečný//, u nichž nejsou doloženy s nadlimitní frekvencí podoby //*každí//, //*celkoví// a //*dostateční//.
  
-Podmínka **vždy** vymezuje nadmnožinu typů, z nichž se ve výsledku vyberou pouze ty, které jsou plně určeny dílčími dotazy, tj. nemají výskyty mimo tyto dotazy a mimo specifikovanou nadmnožinu. Ve výsledku se tak nemohou vyskytovat typy, které mají realizace, nepostižené alespoň jedním dílčím dotazem. Pokud k příkladu výše přidáme čtvrtou podmínku se specifikací **Omezit hledání na (podmínka "vždy")** a hodnotou+Podmínka **vždy** vymezuje nadmnožinu typů, z nichž se vyberou pouze ty, které jsou plně určeny dílčími dotazy, tj. nemají výskyty mimo tyto dotazy a mimo specifikovanou nadmnožinu. Ve výsledku se tak nemohou vyskytovat typy, které mají realizace, nepostižené alespoň jedním dílčím dotazem. Pokud k příkladu výše přidáme čtvrtou podmínku se specifikací **Omezit hledání na (podmínka "vždy")** a hodnotou
  
 **4.** ''%%[lemma=".+ý"]%%'' **4.** ''%%[lemma=".+ý"]%%''
Řádek 116: Řádek 129:
 najdeme pouze taková lemmata končící na //-ý//, která jsou v úplnosti určena podmínkami 1-3, tzn. nemají žádné jiné realizace, které by těmito dílčími dotazy zůstávaly nepostiženy. Tomu odpovídá lemma //odmaštěný//, které se v SYN2020 vyskytuje pouze v podobách //odmaštěný//, //odmaštěná//, //odmaštěné// a všechny mají alespoň čtyři výskyty. najdeme pouze taková lemmata končící na //-ý//, která jsou v úplnosti určena podmínkami 1-3, tzn. nemají žádné jiné realizace, které by těmito dílčími dotazy zůstávaly nepostiženy. Tomu odpovídá lemma //odmaštěný//, které se v SYN2020 vyskytuje pouze v podobách //odmaštěný//, //odmaštěná//, //odmaštěné// a všechny mají alespoň čtyři výskyty.
  
-Podmínky vždy i nikdy můžeme aplikovat striktně nebo lze jejich působení zmírnit uvedení maximálního procenta výjimek ve výsledku. Hledáme-li např. slova, která se **nikdy** nevyskytují v imperativu, můžeme zvýšením podílu výjimek na 1 % do výsledku zařadit i slovesa, v nichž je imperativ zastoupen maximálně jedním procentem jeho tvarů.+Podmínky vždy i nikdy můžeme aplikovat striktně nebo lze jejich působení zmírnit uvedením maximálního procenta výjimek ve výsledku (pole //max. poměr výjimek// nad dotazovacím řádkem). Hledáme-li např. slova, která se **nikdy** nevyskytují v imperativu, můžeme zvýšením podílu výjimek na 1 % (údaj je potřeba vepsat ve formě 0.01) do výsledku zařadit i slovesa, v nichž je imperativ zastoupen maximálně jedním procentem jeho tvarů.
  
-====== Předchozí dotazy ======+===== Seznam slov =====
  
-Položka zobrazí přehled posledních kladených dotazů (zkrácený seznam dříve kladených dotazů je přístupný i přímo z dotazovacího formuláře prostřednictvím odkazu nad vstupním řádkem). Tyto dotazy lze filtrovat podle aktuálně používaného korpusu či podle typu dotazu a také lze zobrazit pouze dotazy archivované. Kliknutím na odkaz **Upravit a vyhledat** vložíme dříve specifikované zadání do dotazovacího formuláře a dotaz můžeme buď beze změny ihned vyhodnotit, nebo jej dále modifikovat (např. změnit korpus, na němž bude vyhodnocen, typ dotazu nebo specifikovat jeho kontext). Kliknutí na volbu **Archivovat** umožňuje dotaz pojmenovat a trvale jej uložit do archivu položených dotazů. +Základním výstupem jakéhokoli dotazu je [[pojmy:konkordance|konkordance]], tj. seznam všech výskytů ([[pojmy:token|tokenů]]) odpovídajících dotazu spolu s jejich textovým okolím. Funkce **Seznam slov** naproti tomu vyhodnocuje dotaz tak, že výsledkem je seznam různých slov ([[pojmy:typ|typů]]), které dotazu odpovídají, spolu s jejich absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] nebo počtem dokumentů, v němž se hledaný jev vyskytuje. Funkce Seznam slov je tak analogická [[manualy:kontext:frekvencni_distribuce|frekvenční distribuci]], její výhodou je však rychlost a výpočetní nenáročnost, protože mezikrok přes konkordanci tu není potřeba.
- +
-====== Seznam slov ====== +
- +
-Základním výstupem jakéhokoli dotazu je [[pojmy:konkordance|konkordance]], tj. seznam všech výskytů ([[pojmy:token|tokenů]]) odpovídajících dotazu spolu s jejich textovým okolím. Funkce **Seznam slov** naproti tomu vyhodnocuje dotaz tak, že výsledkem je seznam různých slov ([[pojmy:typ|typů]]), které dotazu odpovídají, spolu s jejich absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] nebo počtem dokumentů, v němž se hledaný jev vyskytuje. Funkce Seznam slov je tak analogická [[manualy:kontext:frekvencni_distribuce|frekvenční distribuci]], její výhodou je však rychlost a výpočetní nenáročnost, protože mezikrok přes konkordanci není u Seznamu slov potřeba.+
  
 [{{ :manualy:kontext:seznam_slov_slovesa.png?direct&300|Formulář pro vytváření seznamu slov }}] [{{ :manualy:kontext:seznam_slov_slovesa.png?direct&300|Formulář pro vytváření seznamu slov }}]
  
 Ve formuláři je možné nastavit různé parametry hledání: Ve formuláři je možné nastavit různé parametry hledání:
-  * korpus (příp. jeho subkorpus), kterém budeme seznam slov vytvářet+  * korpus (příp. jeho subkorpus), ve kterém budeme seznam slov vytvářet
   * atribut ([[pojmy:atributy_pozicni|poziční]] nebo [[pojmy:atributy_strukturni|strukturní]]), který má být v seznamu vypsán   * atribut ([[pojmy:atributy_pozicni|poziční]] nebo [[pojmy:atributy_strukturni|strukturní]]), který má být v seznamu vypsán
   * regulární výraz, kterému mají výsledná slova odpovídat (není-li zadán, seznam bude obsahovat všechny položky v korpusu, pokud odpovídají ostatním specifikacím ve formuláři)   * regulární výraz, kterému mají výsledná slova odpovídat (není-li zadán, seznam bude obsahovat všechny položky v korpusu, pokud odpovídají ostatním specifikacím ve formuláři)
   * minimální frekvence   * minimální frekvence
 +  * včetně číslic a interpunkce -- volba rozšiřující hledání i na slova, která nejsou složena pouze z alfabetických znaků
   * výrazy pro pozitivní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání, nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem předvybraných slov, která ve výsledném seznamu chceme vidět (tzv. whitelist)   * výrazy pro pozitivní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání, nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem předvybraných slov, která ve výsledném seznamu chceme vidět (tzv. whitelist)
   * výrazy pro negativní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání, nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem předvybraných slov, která z výsledného seznamu chceme vyloučit (tzv. blacklist)   * výrazy pro negativní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání, nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem předvybraných slov, která z výsledného seznamu chceme vyloučit (tzv. blacklist)
-  * včetně číslic a interpunkce -- volba rozšiřující hledání i na slova, která nejsou složena pouze z alfabetických znaků +  
 Mezi nastaveními druhu výstupu najdeme kromě volby mezi absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] a počtem dokumentů také volbu konkrétního výstupního atributu či atributů. Tyto atributy přitom **nemusejí** být shodné s pozičním atributem zvoleným v horní části formuláře, na který jsou aplikovány všechny výše uvedené filtry. To umožňuje vytvořit např. frekvenční seznam všech sloves tak, že v horní části zadáme atribut [[pojmy:tag|tag]], na něj podmínku na sloveso jako [[seznamy:tagy#pozice_1_-_slovni_druh|V.*]], a zvolíme typ výstupu [[pojmy:lemma|lemma]] -- příklad takového zadání ukazuje obrázek. Mezi nastaveními druhu výstupu najdeme kromě volby mezi absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] a počtem dokumentů také volbu konkrétního výstupního atributu či atributů. Tyto atributy přitom **nemusejí** být shodné s pozičním atributem zvoleným v horní části formuláře, na který jsou aplikovány všechny výše uvedené filtry. To umožňuje vytvořit např. frekvenční seznam všech sloves tak, že v horní části zadáme atribut [[pojmy:tag|tag]], na něj podmínku na sloveso jako [[seznamy:tagy#pozice_1_-_slovni_druh|V.*]], a zvolíme typ výstupu [[pojmy:lemma|lemma]] -- příklad takového zadání ukazuje obrázek.
  
Řádek 143: Řádek 152:
 </WRAP> </WRAP>
  
 +===== Analýza klíčových slov =====
 +
 +[{{ :manualy:kontext:analyza_k_slov.png?direct&400| Seznam klíčových slovních tvarů v korpusu ORAL v1 v porovnání s referenčním korpusem SYN2020}}]
 +Rozhraní KonText dokáže vygenerovat soupis tzv. [[pojmy:keyword|klíčových slov]] (keywords), tedy takových tvarů či lemmat, která se ve vybraném (sub)korpusu objevují nápadně častěji než v (sub)korpusu referenčním, odrážejícím běžný jazykový úzus. (Analýzu klíčových slov //ve vlastních textech// umožňuje [[manualy:kwords|specializovaná aplikace KWords]].)
 +
 +Vedle korpusu, v němž chceme dané výrazy najít, musíme zadat také [[pojmy:referencni|referenční korpus]] (příp. též [[pojmy:subkorpus|subkorpus]], např. chceme-li nějaký korpus tvořený převážně publicistickými texty, tj. korpusy řady SYN, konfrontovat se subkorpusem beletristických textů: SYN2020-BEL). Dále určíme, podle kterého [[pojmy:atributy_pozicni|pozičního atributu]] se výrazy mají vyhledávat, podle které metriky mají být tříděny (v nabídce jsou tři: [[pojmy:asociacni_miry#log_likelihood|Log-likelihood]], [[pojmy:chi2|Chi-square]] a [[pojmy:din|Difference index]]), eventuálně zadáme i požadovanou minimální či maximální frekvenci. Hledané výrazy lze dále vyfiltrovat pomocí [[pojmy:regularni_vyrazy|regulárního výrazu]]; defaultně nastavený výraz ''.*'' zobrazí všechny výsledky (resp. prvních 1000 výskytů).
 +
 +Výsledný seznam klíčových slov ve formě tabulky je seřazen podle zvolené metriky, přičemž zbylé dvě se zobrazují taktéž, v dalších sloupcích následují hodnoty [[pojmy:frekvence|absolutní a relativní frekvence]] v obou korpusech. Soupis vyhledaných výrazů si lze zobrazit v obou korpusech v příslušné [[pojmy:konkordance|konkordanci]] přes pozitivní filtr (<fc #4682b4>p</fc> vpravo od hodnoty absolutní frekvence).
 +
 +
 +
 +
 +===== Předchozí dotazy =====
 +
 +Položka zobrazí přehled posledních kladených dotazů (zkrácený seznam dříve kladených dotazů je přístupný i přímo z dotazovacího formuláře prostřednictvím odkazu nad vstupním řádkem). Tyto dotazy lze filtrovat podle aktuálně používaného korpusu či podle typu dotazu a také lze zobrazit pouze dotazy archivované. Kliknutím na vybraný dotaz vložíme dříve specifikované zadání do dotazovacího formuláře a dotaz můžeme buď beze změny ihned vyhodnotit, nebo jej dále modifikovat (např. změnit korpus, na němž bude vyhodnocen, typ dotazu nebo specifikovat jeho kontext).
 +
 +Kliknutí na ozubené kolo a následně na volbu **Archivovat** umožňuje dotaz pojmenovat a trvale jej uložit do archivu položených dotazů. Ukládá se přitom kompletní stav formuláře, tedy např. i vybrané typy textů.
  
 ---- ----