AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
manualy:kontext:novy_dotaz [2022/04/06 14:16] Jan Křivanmanualy:kontext:novy_dotaz [2024/02/12 15:48] (aktuální) Jan Kocek
Řádek 1: Řádek 1:
 ====== Menu: Dotaz ====== ====== Menu: Dotaz ======
  
-[{{:manualy:kontext:novy_dotaz.png?direct&350 |Formulář pro vytváření dotazu }}]+Základním způsobem dotazování v korpusu je dotaz syntagmatický, jehož výsledkem je [[pojmy:konkordance|konkordance]], tj. seznam všech výskytů ([[pojmy:token|tokenů]]) odpovídajících dotazu spolu s jejich textovým okolím. Spouští se pomocí volby **Dotaz → Konkordance**. 
 + 
 +Rozšířením dotazu syntagmatického je [[pojmy:paradigmaticky|hledání paradigmatické]], jež je vlastně kombinací několika dílčích syntagmatických dotazů a přináší průnik jejich frekvenčních distribucí. Výsledkem paradigmatického dotazování je tak množina [[pojmy:typ|typů]], které odpovídají //všem// jednotlivým syntagmatickým dotazům. Spouští se pomocí volby **Dotaz → Paradigmatický dotaz**. 
 + 
 +Další rozšiřující funkce umožňuje vytvořit seznam různých slov (typů), které dotazu odpovídají, spolu s jejich absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] nebo počtem dokumentů, v němž se hledaný jev vyskytuje. Spouští se pomocí volby **Dotaz → Seznam slov**. 
 + 
 + 
 + 
 +===== Konkordance ===== 
 + 
 +[{{:manualy:kontext:novy_dotaz.png?direct&350 |Formulář pro vytváření dotazu}}]
  
 Pomocí volby **Dotaz → Konkordance** je možné kdykoli začít nové hledání v korpusech. Kliknutím na tuto volbu opustíme předchozí vyhledaný dotaz, případně výsledky na něm vytvořené, a začínáme s novým hledáním. Následující text se zabývá především pokládáním dotazu do jednojazyčných korpusů, specifika zadávání dotazů do paralelního korpusu [[cnk:intercorp|InterCorp]] popisuje podrobněji [[kurz:hledani_v_paralelnim_korpusu#paralelni_korpusy_v_rozhrani_kontext|bonusová lekce]] základního kurzu práce s ČNK. Pomocí volby **Dotaz → Konkordance** je možné kdykoli začít nové hledání v korpusech. Kliknutím na tuto volbu opustíme předchozí vyhledaný dotaz, případně výsledky na něm vytvořené, a začínáme s novým hledáním. Následující text se zabývá především pokládáním dotazu do jednojazyčných korpusů, specifika zadávání dotazů do paralelního korpusu [[cnk:intercorp|InterCorp]] popisuje podrobněji [[kurz:hledani_v_paralelnim_korpusu#paralelni_korpusy_v_rozhrani_kontext|bonusová lekce]] základního kurzu práce s ČNK.
Řádek 7: Řádek 17:
 Po kliknutí na položku **Konkordance** se uživateli zobrazí základní menu pro dotazování. V rámci tohoto formuláře je možné zvolit korpus, v němž se bude vyhledávat, a ve vstupním řádku pod ním zadat dotaz. Pomocí přepínače lze aktivovat funkci Pokročilý dotaz, která pracuje s dotazovacím jazykem [[pojmy:cql|CQL]]. Součástí formuláře je i interaktivní mezinárodní **klávesnice** pro zápis speciálních znaků (zejména pro vyhledávání v nečeských textech a pro vkládání speciálních znaků jazyka CQL). Dříve položené dotazy je možné vyvolat jednak přímo v menu, jednak pomocí odkazu **Předchozí dotazy** nad dotazovacím řádkem. Poslední položkou v liště nad řádkem je **Interpretace dotazu**, kde uživatel zjistí, jak bude jeho dotaz vyhodnocen (de facto přeložen do CQL) a zda je tato interpretace v souladu s jeho záměrem. Tato funkce ztrácí smysl při přepnutí do režimu **pokročilého dotazu**, místo ní je však možné přímo vkládat interaktivně generované [[pojmy:tag|morfologické značky]] (u korpusů, které jsou takto značkovány) či podmínky specifikující texty, v nichž se má hledat (podmínka [[pojmy:within]]) -- viz položky **Vložit tag** a **Vložit within**. Po kliknutí na položku **Konkordance** se uživateli zobrazí základní menu pro dotazování. V rámci tohoto formuláře je možné zvolit korpus, v němž se bude vyhledávat, a ve vstupním řádku pod ním zadat dotaz. Pomocí přepínače lze aktivovat funkci Pokročilý dotaz, která pracuje s dotazovacím jazykem [[pojmy:cql|CQL]]. Součástí formuláře je i interaktivní mezinárodní **klávesnice** pro zápis speciálních znaků (zejména pro vyhledávání v nečeských textech a pro vkládání speciálních znaků jazyka CQL). Dříve položené dotazy je možné vyvolat jednak přímo v menu, jednak pomocí odkazu **Předchozí dotazy** nad dotazovacím řádkem. Poslední položkou v liště nad řádkem je **Interpretace dotazu**, kde uživatel zjistí, jak bude jeho dotaz vyhodnocen (de facto přeložen do CQL) a zda je tato interpretace v souladu s jeho záměrem. Tato funkce ztrácí smysl při přepnutí do režimu **pokročilého dotazu**, místo ní je však možné přímo vkládat interaktivně generované [[pojmy:tag|morfologické značky]] (u korpusů, které jsou takto značkovány) či podmínky specifikující texty, v nichž se má hledat (podmínka [[pojmy:within]]) -- viz položky **Vložit tag** a **Vložit within**.
  
-===== Volba korpusu =====+==== Volba korpusu ====
  
 Volba [[pojmy:korpus|korpusu]] vhodného pro řešení dané výzkumné otázky je důležité rozhodnutí, které je nutné učinit ještě před samotným započetím výzkumu. [[cnk:uvod|Spektrum korpusů]] dostupných v projektu ČNK se neustále rozšiřuje, způsob výběru korpusu v rozhraní KonText proto kombinuje rychlý přístup k personalizovanému výběru (oblíbeným korpusům) spolu s výběrem pomocí tzv. štítků, které charakterizují jejich hlavní vlastnosti. Volba [[pojmy:korpus|korpusu]] vhodného pro řešení dané výzkumné otázky je důležité rozhodnutí, které je nutné učinit ještě před samotným započetím výzkumu. [[cnk:uvod|Spektrum korpusů]] dostupných v projektu ČNK se neustále rozšiřuje, způsob výběru korpusu v rozhraní KonText proto kombinuje rychlý přístup k personalizovanému výběru (oblíbeným korpusům) spolu s výběrem pomocí tzv. štítků, které charakterizují jejich hlavní vlastnosti.
Řádek 20: Řádek 30:
 **Příklad**: Uživatel hledá v záložce **Všechny korpusy** současnou verzi anglické části paralelního korpusu [[cnk:intercorp|InterCorp]]. Zvolí nejprve štítky ''InterCorp'' a ''současná verze'' (pro výběr více štítků je třeba zároveň stisknout klávesu Ctrl/Command), v seznamu se objeví prvních 25 korpusů vyhovujících zadané podmínce, ačkoli InterCorp zahrnuje mnohem více jazyků. K nezobrazeným korpusům se lze dostat dalším filtrováním pomocí zadání části názvu či jazyka (pozor: názvy jednotlivých jazykových mutací korpusu InterCorp jsou anglicky!). Nalezený korpus lze kliknutím vybrat a začít v něm vyhledávat. Pomocí hvězdičky jej lze zároveň označit jako oblíbený; tím je tento korpus zařazen na seznam oblíbených korpusů a lze se k němu rychle a snadno dostat na jedno kliknutí. **Příklad**: Uživatel hledá v záložce **Všechny korpusy** současnou verzi anglické části paralelního korpusu [[cnk:intercorp|InterCorp]]. Zvolí nejprve štítky ''InterCorp'' a ''současná verze'' (pro výběr více štítků je třeba zároveň stisknout klávesu Ctrl/Command), v seznamu se objeví prvních 25 korpusů vyhovujících zadané podmínce, ačkoli InterCorp zahrnuje mnohem více jazyků. K nezobrazeným korpusům se lze dostat dalším filtrováním pomocí zadání části názvu či jazyka (pozor: názvy jednotlivých jazykových mutací korpusu InterCorp jsou anglicky!). Nalezený korpus lze kliknutím vybrat a začít v něm vyhledávat. Pomocí hvězdičky jej lze zároveň označit jako oblíbený; tím je tento korpus zařazen na seznam oblíbených korpusů a lze se k němu rychle a snadno dostat na jedno kliknutí.
  
-===== Typy dotazů =====+==== Typy dotazů ====
  
 Současná verze KonTextu rozlišuje pouze dva typy dotazu: **jednoduchý** a **pokročilý**. Současná verze KonTextu rozlišuje pouze dva typy dotazu: **jednoduchý** a **pokročilý**.
Řádek 32: Řádek 42:
 **Pokročilý dotaz** se aktivuje spínačem nad vstupním řádkem a plně odpovídá dotazu typu CQL předchozích verzí KonTextu. Při zadávání dotazovacího jazyka [[pojmy:cql|CQL]] KonText automaticky kontroluje a zvýrazňuje syntax dotazu. V případě, že dotaz není validní, KonText na to uživatele upozorní a umožní mu dotaz před vyhodnocením opravit. Vzhledem k širokým možnostem CQL dotazování však není kontrola správnosti dotazu vždy přesná, výjimečně se tak může stát, že se varování objeví i v případě validního dotazu. **Pokročilý dotaz** se aktivuje spínačem nad vstupním řádkem a plně odpovídá dotazu typu CQL předchozích verzí KonTextu. Při zadávání dotazovacího jazyka [[pojmy:cql|CQL]] KonText automaticky kontroluje a zvýrazňuje syntax dotazu. V případě, že dotaz není validní, KonText na to uživatele upozorní a umožní mu dotaz před vyhodnocením opravit. Vzhledem k širokým možnostem CQL dotazování však není kontrola správnosti dotazu vždy přesná, výjimečně se tak může stát, že se varování objeví i v případě validního dotazu.
  
-Je-li zadán dotaz, je možné spustit vyhledávání buď kliknutím na tlačítko **Hledat**, nebo stisknutím klávesy Enter (kurzor musí být umístěn ve vstupním řádku).+Je-li zadán dotaz, je možné spustit vyhledávání buď kliknutím na tlačítko **Hledat**, nebo stisknutím klávesy Enter (kurzor musí být umístěn ve vstupním řádku). 
  
-===== Našeptávač =====+Vedle tlačítka **Hledat** je zároveň umístěna volba **Promíchat konkordanční řádky**. Tuto volbu je vhodné mít stále zapnutou, protože zobrazuje konkordance v náhodném pořadí, což je klíčové pro správnou a nezavádějící interpretaci výsledku. Podrobněji viz na stránce [[manualy:kontext:konkordance#promichat|Konkordance]]. 
 + 
 + 
 +=== Vyhodnocení dotazu === 
 + 
 +Pokud je hledání úspěšné, zobrazí se stránka s konkordančním seznamem, jejíž ovládání je podrobně popsáno na stránce [[manualy:kontext:konkordance|Konkordance]]. 
 + 
 +==== Našeptávač ====
  
 [{{ :manualy:kontext:dotaz_naseptavac_brejli.png?direct&400|Našeptávač}}] [{{ :manualy:kontext:dotaz_naseptavac_brejli.png?direct&400|Našeptávač}}]
  
-Pro korpusy s tzv. [[cnk:syn2020:lemmatizace|dvouúrovňovou lemmatizací]] (zatím české synchronní korpusy počínaje [[cnk:syn2020|SYN2020]] a [[cnk:syn:verze9|SYN verze 9]]) je k dispozici tzv. našeptávač, nástroj nabízející na základě zadaného slovního tvaru další možné způsoby hledání slova (nebo i více slov), k němuž tento tvar náleží. Při aktivaci našeptávače se tvary slov, které jsou v daném korpusu rozpoznány, ve vstupním řádku barevně zvýrazní, zprava vedle nich se pak objeví ikonka otazníku. Klikne-li uživatel na daný výraz a současně stiskne klávesu Ctrl/Command, objeví se nabídka výrazů v podobě lemmat, sublemmat a lc (tvarů nezávislých na velikosti písmen), z nichž je možné vybrat ten nejvhodnější, který pak zadaný tvar nahradí. Dojde tak ke změně původní interpretace daného slova, která je indikována zčervenáním volby **Interpretace dotazu** nad dotazovacím řádkem.+Pro korpusy s tzv. [[cnk:syn2020:lemmatizace|dvouúrovňovou lemmatizací]] (zatím české synchronní korpusy počínaje [[cnk:syn2020|SYN2020]] a [[cnk:syn:verze9|SYN verze 9]]) je k dispozici tzv. našeptávač, nástroj nabízející na základě zadaného slovního tvaru další možné způsoby hledání slova (nebo i více slov), k němuž tento tvar náleží. Při aktivaci našeptávače se slovní tvary, které jsou v daném korpusu rozpoznány, ve vstupním řádku barevně zvýrazní, zprava vedle nich se pak objeví ikonka otazníku. Klikne-li uživatel na daný výraz a současně stiskne klávesu Ctrl/Command, objeví se nabídka výrazů v podobě lemmat, sublemmat a lc (tvarů nezávislých na velikosti písmen), z nichž je možné vybrat ten nejvhodnější, který pak zadaný tvar nahradí. Dojde tak ke změně původní interpretace daného výrazu, která je indikována zčervenáním volby **Interpretace dotazu** nad dotazovacím řádkem.
  
 Např. při vložení tvaru //brejlí// nás našeptávač upozorní, že tento tvar je v korpusu SYN2020 anotován v závislosti na kontextu pod dvěma různými lemmaty (//brejlit// a //brýle//), a navíc nám ukáže, že lemma //brýle// zahrnuje dvě sublemmata, stylistické varianty //brýle// a //brejle//. Uživatel má tedy možnost dotaz upravit tak, že bude hledat buď (i) všechny tvary vybraného slova nezávisle na variantě (sloupec **lemma**, např. //brýle//), nebo (ii) jen tvary slova patřící pod danou variantu (sloupec **sublemma**, např. //brejle//), nebo (iii) jen tvar nezávislý na velikosti písmen patřící pod lemma uvedené na řádku (sloupec **lc**, např. //brejlí// pod lemmatem //brýle//). Podobně našeptávač upozorňuje i na lemmata a sublemmata lišící se velikostí písmen (např. //Procházka// oproti //procházka//). Příklady zpracování variant v SYN2020 najdete [[cnk:syn2020:lemmatizace|zde]]. Např. při vložení tvaru //brejlí// nás našeptávač upozorní, že tento tvar je v korpusu SYN2020 anotován v závislosti na kontextu pod dvěma různými lemmaty (//brejlit// a //brýle//), a navíc nám ukáže, že lemma //brýle// zahrnuje dvě sublemmata, stylistické varianty //brýle// a //brejle//. Uživatel má tedy možnost dotaz upravit tak, že bude hledat buď (i) všechny tvary vybraného slova nezávisle na variantě (sloupec **lemma**, např. //brýle//), nebo (ii) jen tvary slova patřící pod danou variantu (sloupec **sublemma**, např. //brejle//), nebo (iii) jen tvar nezávislý na velikosti písmen patřící pod lemma uvedené na řádku (sloupec **lc**, např. //brejlí// pod lemmatem //brýle//). Podobně našeptávač upozorňuje i na lemmata a sublemmata lišící se velikostí písmen (např. //Procházka// oproti //procházka//). Příklady zpracování variant v SYN2020 najdete [[cnk:syn2020:lemmatizace|zde]].
  
-===== Upřesnit parametry =====+==== Upřesnit parametry ====
  
 Jak již bylo uvedeno výše, lze při zadávání dotazu specifikovat také další parametry, které ovlivňují jeho interpretaci: jde jednak o výchozí [[pojmy:atributy_pozicni|poziční atribut]], v režimu jednoduchého dotazu je to dále zohlednění velikosti písmen (case-sensitivity) a také povolení použití [[pojmy:regularni_vyrazy|regulárních výrazů]]. Jak již bylo uvedeno výše, lze při zadávání dotazu specifikovat také další parametry, které ovlivňují jeho interpretaci: jde jednak o výchozí [[pojmy:atributy_pozicni|poziční atribut]], v režimu jednoduchého dotazu je to dále zohlednění velikosti písmen (case-sensitivity) a také povolení použití [[pojmy:regularni_vyrazy|regulárních výrazů]].
  
-===== Specifikovat kontext =====+==== Specifikovat kontext ====
  
 [{{:manualy:kontext:hledani_kontext.png?direct&300 |Formulář pro hledání v kontextu }}] [{{:manualy:kontext:hledani_kontext.png?direct&300 |Formulář pro hledání v kontextu }}]
Řádek 56: Řádek 73:
 Obecně je možné říci, že libovolné hledání v kontextu lze převést na běžné hledání a následné filtrování (pomocí pozitivního nebo negativního filtru). Filtrování je však také možné uskutečnit pomocí [[pojmy:dotazovaci_jazyk|dotazovacího jazyka]] a provést totožnou operaci v rámci jediného kroku. Platí tedy, že k jednomu výsledku vede vícero cest a záleží plně na uživateli, kterou možnost považuje za nejpohodlnější. Obecně je možné říci, že libovolné hledání v kontextu lze převést na běžné hledání a následné filtrování (pomocí pozitivního nebo negativního filtru). Filtrování je však také možné uskutečnit pomocí [[pojmy:dotazovaci_jazyk|dotazovacího jazyka]] a provést totožnou operaci v rámci jediného kroku. Platí tedy, že k jednomu výsledku vede vícero cest a záleží plně na uživateli, kterou možnost považuje za nejpohodlnější.
  
-===== Omezit hledání =====+==== Omezit hledání ====
  
-[{{ :manualy:kontext:hledani_subkorpus.png?direct&300|Formulář pro hledání v ad hoc vytvořeném subkorpusu }}]+[{{ :manualy:kontext:hledani_subkorpus.png?direct&300|Formulář pro hledání v ad hoc vytvářeném subkorpusu }}]
  
 Potřebujeme-li hledat jen v úzce vymezené skupině textů z celého korpusu, máme dvě možnosti. Buď vytvoříme vlastní virtuální [[manualy:kontext:korpusy|subkorpus]], který bude pak možné vybrat v rámci nabídky korpusů, nebo dotaz omezíme nějakými podmínkami (typicky pomocí příkazu [[pojmy:within|within]]). První možnost volíme zpravidla v situacích, kdy víme, že subkorpus budeme potřebovat delší dobu, nebo když je jeho specifikace složitá. Druhou možnost pak užíváme při ad hoc hledání v rámci nějakých jasně daných kategorií textů, které jsou specifikovány základními [[pojmy:atributy_strukturni|strukturními atributy]]. Potřebujeme-li hledat jen v úzce vymezené skupině textů z celého korpusu, máme dvě možnosti. Buď vytvoříme vlastní virtuální [[manualy:kontext:korpusy|subkorpus]], který bude pak možné vybrat v rámci nabídky korpusů, nebo dotaz omezíme nějakými podmínkami (typicky pomocí příkazu [[pojmy:within|within]]). První možnost volíme zpravidla v situacích, kdy víme, že subkorpus budeme potřebovat delší dobu, nebo když je jeho specifikace složitá. Druhou možnost pak užíváme při ad hoc hledání v rámci nějakých jasně daných kategorií textů, které jsou specifikovány základními [[pojmy:atributy_strukturni|strukturními atributy]].
  
-Formulář nového dotazu poskytuje zjednodušení ve formě dodatečného formuláře **Omezit hledání**, který je umístěn pod kontextovým hledáním a aktivuje se podobně jako (výše popsaná) specifikace kontextu kliknutím.+Vyhledávací formulář poskytuje zjednodušení ve formě dodatečného formuláře **Omezit hledání**, který je umístěn pod kontextovým hledáním a aktivuje se podobně jako (výše popsaná) specifikace kontextu kliknutím.
  
 V rámci tohoto formuláře je možné zaškrtnout ty hodnoty vybraných strukturních atributů, které nás zajímají. Formulář neobsahuje všechny strukturní atributy, pouze ty nejpoužívanější v daném korpusu (např. při hledání v [[cnk:syn2020|SYN2020]] jsou to [[pojmy:txtype_group|txtype_group]], [[pojmy:txtype|txtype]], [[pojmy:genre|genre]], [[pojmy:srclang|srclang]]). Použité zkratky je možné dohledat v příslušné sekci [[seznamy:index|seznamů]]. V rámci tohoto formuláře je možné zaškrtnout ty hodnoty vybraných strukturních atributů, které nás zajímají. Formulář neobsahuje všechny strukturní atributy, pouze ty nejpoužívanější v daném korpusu (např. při hledání v [[cnk:syn2020|SYN2020]] jsou to [[pojmy:txtype_group|txtype_group]], [[pojmy:txtype|txtype]], [[pojmy:genre|genre]], [[pojmy:srclang|srclang]]). Použité zkratky je možné dohledat v příslušné sekci [[seznamy:index|seznamů]].
  
-V jednom ze sloupců se objevuje seznam konkrétních textů ([[pojmy:opus|opusů]] nebo [[pojmy:doc|dokumentů]]), které odpovídají specifikované podmínce.  V případě, že si z nabídky zvolíme nějaké kategorie, můžeme si zobrazit soupis textů, které takovéto podmínce odpovídají, pomocí tlačítka **Zúžit výběr** (pokud odpovídající seznam textů není příliš dlouhý). Sloupec se seznamem textů se přepočítá podle aktuálně zaškrtnutých kritérií. Takto můžeme pokračovat do té doby, než budeme spokojeni s vymezením dat, která k hledání chceme použít.+V jednom ze sloupců se objevuje seznam konkrétních textů ([[pojmy:opus|opusů]] nebo [[pojmy:doc|dokumentů]]), které odpovídají specifikované podmínce.  V případě, že si z nabídky zvolíme nějaké kategorie, můžeme si zobrazit soupis textů, které takovéto podmínce odpovídají, pomocí tlačítka **Zúžit výběr** (pokud odpovídající seznam textů není příliš dlouhý). Sloupec se seznamem textů se přepočítá podle aktuálně zaškrtnutých kritérií. Takto můžeme pokračovat do té doby, než budeme spokojeni s vymezením dat, která k hledání chceme použít. Lze se přitom vracet (volba **Krok zpět**), případně celý výběr stornovat (volba **Zrušit výběr**). Daný výběr je také možné uložit pro pozdější využití (volba **Uložit jako koncept subkorpus**) a vytvořit tak nový virtuální [[pojmy:subkorpus|subkorpus]]. Mimoto lze snadno získat seznam dokumentů v aktuálním výběru (volba **Uložit seznam dokumentů**), což může být praktické, např. chcete-li zjistit, která beletristická díla figurují v paralelním korpusu InterCorp pro ten který jazyk.
  
-Pro podrobnější specifikaci je třeba buď použít podmínku [[pojmy:within|within]] v rámci [[kurz:pokrocile_dotazy#dotazovaci_jazyk|CQL]] dotazu, nebo vytvořit nový virtuální [[pojmy:subkorpus|subkorpus]].+Pro podrobnější specifikaci je třeba použít podmínku [[pojmy:within|within]] v rámci [[kurz:pokrocile_dotazy#dotazovaci_jazyk|CQL]] dotazu.
  
-====== Paradigmatický dotaz =====+===== Paradigmatický dotaz ====
  
 [{{ :manualy:kontext:paradigmaticky_dotaz.png?direct&400| Paradigmatický dotaz }}] [{{ :manualy:kontext:paradigmaticky_dotaz.png?direct&400| Paradigmatický dotaz }}]
Řádek 95: Řádek 112:
  
 Ve výsledcích najdeme adjektiva jako //nový//, //celý//, //velký//, dále zájmena a číslovky s adjektivním skloňováním //každý//, //druhý//, //který//, ale také slova s jiným skloňováním, která vykazují formální podobnost se zadaným dotazem, např. //svůj// (do jehož paradigmatu patří mj. tvary //svý//, //svá//, //své//). Nenajdou se naopak lemmata, která jeden z tvarů doložen nemají (např. //šestatřicetiletý// nemá doložen tvar //šestatřicetileté//, resp. má ho v korpusu doložen pouze třikrát, což je pod stanovenou mezí minimální frekvence). Ve výsledcích najdeme adjektiva jako //nový//, //celý//, //velký//, dále zájmena a číslovky s adjektivním skloňováním //každý//, //druhý//, //který//, ale také slova s jiným skloňováním, která vykazují formální podobnost se zadaným dotazem, např. //svůj// (do jehož paradigmatu patří mj. tvary //svý//, //svá//, //své//). Nenajdou se naopak lemmata, která jeden z tvarů doložen nemají (např. //šestatřicetiletý// nemá doložen tvar //šestatřicetileté//, resp. má ho v korpusu doložen pouze třikrát, což je pod stanovenou mezí minimální frekvence).
- 
- 
- 
- 
  
 ==== Podmínka nikdy a vždy ==== ==== Podmínka nikdy a vždy ====
Řádek 110: Řádek 123:
 najdeme pouze taková lemmata s adjektivní deklinací, která nemají tvar odpovídající nom. pl.: např. //každý//, //celkový//, //dostatečný//, u nichž nejsou doloženy s nadlimitní frekvencí podoby //*každí//, //*celkoví// a //*dostateční//. najdeme pouze taková lemmata s adjektivní deklinací, která nemají tvar odpovídající nom. pl.: např. //každý//, //celkový//, //dostatečný//, u nichž nejsou doloženy s nadlimitní frekvencí podoby //*každí//, //*celkoví// a //*dostateční//.
  
-Podmínka **vždy** vymezuje nadmnožinu typů, z nichž se ve výsledku vyberou pouze ty, které jsou plně určeny dílčími dotazy, tj. nemají výskyty mimo tyto dotazy a mimo specifikovanou nadmnožinu. Ve výsledku se tak nemohou vyskytovat typy, které mají realizace, nepostižené alespoň jedním dílčím dotazem. Pokud k příkladu výše přidáme čtvrtou podmínku se specifikací **Omezit hledání na (podmínka "vždy")** a hodnotou+Podmínka **vždy** vymezuje nadmnožinu typů, z nichž se vyberou pouze ty, které jsou plně určeny dílčími dotazy, tj. nemají výskyty mimo tyto dotazy a mimo specifikovanou nadmnožinu. Ve výsledku se tak nemohou vyskytovat typy, které mají realizace, nepostižené alespoň jedním dílčím dotazem. Pokud k příkladu výše přidáme čtvrtou podmínku se specifikací **Omezit hledání na (podmínka "vždy")** a hodnotou
  
 **4.** ''%%[lemma=".+ý"]%%'' **4.** ''%%[lemma=".+ý"]%%''
Řádek 116: Řádek 129:
 najdeme pouze taková lemmata končící na //-ý//, která jsou v úplnosti určena podmínkami 1-3, tzn. nemají žádné jiné realizace, které by těmito dílčími dotazy zůstávaly nepostiženy. Tomu odpovídá lemma //odmaštěný//, které se v SYN2020 vyskytuje pouze v podobách //odmaštěný//, //odmaštěná//, //odmaštěné// a všechny mají alespoň čtyři výskyty. najdeme pouze taková lemmata končící na //-ý//, která jsou v úplnosti určena podmínkami 1-3, tzn. nemají žádné jiné realizace, které by těmito dílčími dotazy zůstávaly nepostiženy. Tomu odpovídá lemma //odmaštěný//, které se v SYN2020 vyskytuje pouze v podobách //odmaštěný//, //odmaštěná//, //odmaštěné// a všechny mají alespoň čtyři výskyty.
  
-Podmínky vždy i nikdy můžeme aplikovat striktně nebo lze jejich působení zmírnit uvedení maximálního procenta výjimek ve výsledku. Hledáme-li např. slova, která se **nikdy** nevyskytují v imperativu, můžeme zvýšením podílu výjimek na 1 % do výsledku zařadit i slovesa, v nichž je imperativ zastoupen maximálně jedním procentem jeho tvarů.+Podmínky vždy i nikdy můžeme aplikovat striktně nebo lze jejich působení zmírnit uvedením maximálního procenta výjimek ve výsledku (pole //max. poměr výjimek// nad dotazovacím řádkem). Hledáme-li např. slova, která se **nikdy** nevyskytují v imperativu, můžeme zvýšením podílu výjimek na 1 % (údaj je potřeba vepsat ve formě 0.01) do výsledku zařadit i slovesa, v nichž je imperativ zastoupen maximálně jedním procentem jeho tvarů.
  
-====== Předchozí dotazy ======+===== Seznam slov =====
  
-Položka zobrazí přehled posledních kladených dotazů (zkrácený seznam dříve kladených dotazů je přístupný i přímo z dotazovacího formuláře prostřednictvím odkazu nad vstupním řádkem). Tyto dotazy lze filtrovat podle aktuálně používaného korpusu či podle typu dotazu a také lze zobrazit pouze dotazy archivované. Kliknutím na odkaz **Upravit a vyhledat** vložíme dříve specifikované zadání do dotazovacího formuláře a dotaz můžeme buď beze změny ihned vyhodnotit, nebo jej dále modifikovat (např. změnit korpus, na němž bude vyhodnocen, typ dotazu nebo specifikovat jeho kontext). Kliknutí na volbu **Archivovat** umožňuje dotaz pojmenovat a trvale jej uložit do archivu položených dotazů. +Základním výstupem jakéhokoli dotazu je [[pojmy:konkordance|konkordance]], tj. seznam všech výskytů ([[pojmy:token|tokenů]]) odpovídajících dotazu spolu s jejich textovým okolím. Funkce **Seznam slov** naproti tomu vyhodnocuje dotaz tak, že výsledkem je seznam různých slov ([[pojmy:typ|typů]]), které dotazu odpovídají, spolu s jejich absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] nebo počtem dokumentů, v němž se hledaný jev vyskytuje. Funkce Seznam slov je tak analogická [[manualy:kontext:frekvencni_distribuce|frekvenční distribuci]], její výhodou je však rychlost a výpočetní nenáročnost, protože mezikrok přes konkordanci tu není potřeba.
- +
-====== Seznam slov ====== +
- +
-Základním výstupem jakéhokoli dotazu je [[pojmy:konkordance|konkordance]], tj. seznam všech výskytů ([[pojmy:token|tokenů]]) odpovídajících dotazu spolu s jejich textovým okolím. Funkce **Seznam slov** naproti tomu vyhodnocuje dotaz tak, že výsledkem je seznam různých slov ([[pojmy:typ|typů]]), které dotazu odpovídají, spolu s jejich absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] nebo počtem dokumentů, v němž se hledaný jev vyskytuje. Funkce Seznam slov je tak analogická [[manualy:kontext:frekvencni_distribuce|frekvenční distribuci]], její výhodou je však rychlost a výpočetní nenáročnost, protože mezikrok přes konkordanci není u Seznamu slov potřeba.+
  
 [{{ :manualy:kontext:seznam_slov_slovesa.png?direct&300|Formulář pro vytváření seznamu slov }}] [{{ :manualy:kontext:seznam_slov_slovesa.png?direct&300|Formulář pro vytváření seznamu slov }}]
  
 Ve formuláři je možné nastavit různé parametry hledání: Ve formuláři je možné nastavit různé parametry hledání:
-  * korpus (příp. jeho subkorpus), kterém budeme seznam slov vytvářet+  * korpus (příp. jeho subkorpus), ve kterém budeme seznam slov vytvářet
   * atribut ([[pojmy:atributy_pozicni|poziční]] nebo [[pojmy:atributy_strukturni|strukturní]]), který má být v seznamu vypsán   * atribut ([[pojmy:atributy_pozicni|poziční]] nebo [[pojmy:atributy_strukturni|strukturní]]), který má být v seznamu vypsán
   * regulární výraz, kterému mají výsledná slova odpovídat (není-li zadán, seznam bude obsahovat všechny položky v korpusu, pokud odpovídají ostatním specifikacím ve formuláři)   * regulární výraz, kterému mají výsledná slova odpovídat (není-li zadán, seznam bude obsahovat všechny položky v korpusu, pokud odpovídají ostatním specifikacím ve formuláři)
   * minimální frekvence   * minimální frekvence
 +  * včetně číslic a interpunkce -- volba rozšiřující hledání i na slova, která nejsou složena pouze z alfabetických znaků
   * výrazy pro pozitivní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání, nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem předvybraných slov, která ve výsledném seznamu chceme vidět (tzv. whitelist)   * výrazy pro pozitivní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání, nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem předvybraných slov, která ve výsledném seznamu chceme vidět (tzv. whitelist)
   * výrazy pro negativní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání, nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem předvybraných slov, která z výsledného seznamu chceme vyloučit (tzv. blacklist)   * výrazy pro negativní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání, nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem předvybraných slov, která z výsledného seznamu chceme vyloučit (tzv. blacklist)
-  * včetně číslic a interpunkce -- volba rozšiřující hledání i na slova, která nejsou složena pouze z alfabetických znaků +  
 Mezi nastaveními druhu výstupu najdeme kromě volby mezi absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] a počtem dokumentů také volbu konkrétního výstupního atributu či atributů. Tyto atributy přitom **nemusejí** být shodné s pozičním atributem zvoleným v horní části formuláře, na který jsou aplikovány všechny výše uvedené filtry. To umožňuje vytvořit např. frekvenční seznam všech sloves tak, že v horní části zadáme atribut [[pojmy:tag|tag]], na něj podmínku na sloveso jako [[seznamy:tagy#pozice_1_-_slovni_druh|V.*]], a zvolíme typ výstupu [[pojmy:lemma|lemma]] -- příklad takového zadání ukazuje obrázek. Mezi nastaveními druhu výstupu najdeme kromě volby mezi absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] a počtem dokumentů také volbu konkrétního výstupního atributu či atributů. Tyto atributy přitom **nemusejí** být shodné s pozičním atributem zvoleným v horní části formuláře, na který jsou aplikovány všechny výše uvedené filtry. To umožňuje vytvořit např. frekvenční seznam všech sloves tak, že v horní části zadáme atribut [[pojmy:tag|tag]], na něj podmínku na sloveso jako [[seznamy:tagy#pozice_1_-_slovni_druh|V.*]], a zvolíme typ výstupu [[pojmy:lemma|lemma]] -- příklad takového zadání ukazuje obrázek.
  
Řádek 143: Řádek 152:
 </WRAP> </WRAP>
  
 +===== Analýza klíčových slov =====
 +
 +[{{ :manualy:kontext:analyza_k_slov.png?direct&400| Seznam klíčových slovních tvarů v korpusu ORAL v1 v porovnání s referenčním korpusem SYN2020}}]
 +Rozhraní KonText dokáže vygenerovat soupis tzv. [[pojmy:keyword|klíčových slov]] (keywords), tedy takových tvarů či lemmat, která se ve vybraném (sub)korpusu objevují nápadně častěji než v (sub)korpusu referenčním, odrážejícím běžný jazykový úzus. (Analýzu klíčových slov //ve vlastních textech// umožňuje [[manualy:kwords|specializovaná aplikace KWords]].)
 +
 +Vedle korpusu, v němž chceme dané výrazy najít, musíme zadat také [[pojmy:referencni|referenční korpus]] (příp. též [[pojmy:subkorpus|subkorpus]], např. chceme-li nějaký korpus tvořený převážně publicistickými texty, tj. korpusy řady SYN, konfrontovat se subkorpusem beletristických textů: SYN2020-BEL). Dále určíme, podle kterého [[pojmy:atributy_pozicni|pozičního atributu]] se výrazy mají vyhledávat, podle které metriky mají být tříděny (v nabídce jsou tři: [[pojmy:asociacni_miry#log_likelihood|Log-likelihood]], [[pojmy:chi2|Chi-square]] a [[pojmy:din|Difference index]]), eventuálně zadáme i požadovanou minimální či maximální frekvenci. Hledané výrazy lze dále vyfiltrovat pomocí [[pojmy:regularni_vyrazy|regulárního výrazu]]; defaultně nastavený výraz ''.*'' zobrazí všechny výsledky (resp. prvních 1000 výskytů).
 +
 +Výsledný seznam klíčových slov ve formě tabulky je seřazen podle zvolené metriky, přičemž zbylé dvě se zobrazují taktéž, v dalších sloupcích následují hodnoty [[pojmy:frekvence|absolutní a relativní frekvence]] v obou korpusech. Soupis vyhledaných výrazů si lze zobrazit v obou korpusech v příslušné [[pojmy:konkordance|konkordanci]] přes pozitivní filtr (<fc #4682b4>p</fc> vpravo od hodnoty absolutní frekvence).
 +
 +
 +
 +
 +===== Předchozí dotazy =====
 +
 +Položka zobrazí přehled posledních kladených dotazů (zkrácený seznam dříve kladených dotazů je přístupný i přímo z dotazovacího formuláře prostřednictvím odkazu nad vstupním řádkem). Tyto dotazy lze filtrovat podle aktuálně používaného korpusu či podle typu dotazu a také lze zobrazit pouze dotazy archivované. Kliknutím na vybraný dotaz vložíme dříve specifikované zadání do dotazovacího formuláře a dotaz můžeme buď beze změny ihned vyhodnotit, nebo jej dále modifikovat (např. změnit korpus, na němž bude vyhodnocen, typ dotazu nebo specifikovat jeho kontext).
 +
 +Kliknutí na ozubené kolo a následně na volbu **Archivovat** umožňuje dotaz pojmenovat a trvale jej uložit do archivu položených dotazů. Ukládá se přitom kompletní stav formuláře, tedy např. i vybrané typy textů.
  
 ---- ----