Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
manualy:kontext:novy_dotaz [2022/04/06 13:39] – [Našeptávač] jankrivan | manualy:kontext:novy_dotaz [2024/02/08 10:03] – [Analýza klíčových slov] michalskrabal |
---|
====== Menu: Dotaz ====== | ====== Menu: Dotaz ====== |
| |
[{{:manualy:kontext:novy_dotaz.png?direct&350 |Formulář pro vytváření dotazu }}] | Základním způsobem dotazování v korpusu je dotaz syntagmatický, jehož výsledkem je [[pojmy:konkordance|konkordance]], tj. seznam všech výskytů ([[pojmy:token|tokenů]]) odpovídajících dotazu spolu s jejich textovým okolím. Spouští se pomocí volby **Dotaz → Konkordance**. |
| |
Pomocí volby **Dotaz → Zadat nový dotaz** je možné kdykoli začít nové hledání v korpusech. Kliknutím na tuto volbu opustíme předchozí vyhledaný dotaz, případně výsledky na něm vytvořené, a začínáme s novým hledáním. Následující text se zabývá především pokládáním dotazu do jednojazyčných korpusů, specifika zadávání dotazů do paralelního korpusu [[cnk:intercorp|InterCorp]] popisuje podrobněji [[kurz:hledani_v_paralelnim_korpusu#paralelni_korpusy_v_rozhrani_kontext|bonusová lekce]] základního kurzu práce s ČNK. | Rozšířením dotazu syntagmatického je [[pojmy:paradigmaticky|hledání paradigmatické]], jež je vlastně kombinací několika dílčích syntagmatických dotazů a přináší průnik jejich frekvenčních distribucí. Výsledkem paradigmatického dotazování je tak množina [[pojmy:typ|typů]], které odpovídají //všem// jednotlivým syntagmatickým dotazům. Spouští se pomocí volby **Dotaz → Paradigmatický dotaz**. |
| |
Po kliknutí na položku **Zadat nový dotaz** se uživateli zobrazí základní menu pro dotazování. V rámci tohoto formuláře je možné zvolit korpus, v němž se bude vyhledávat, a ve vstupním řádku pod ním zadat dotaz. Pomocí přepínače lze aktivovat funkci Pokročilý dotaz, která pracuje s dotazovacím jazykem [[pojmy:cql|CQL]]. Součástí formuláře je i interaktivní mezinárodní **klávesnice** pro zápis speciálních znaků (zejména pro vyhledávání v nečeských textech a pro vkládání speciálních znaků jazyka CQL). Dříve položené dotazy je možné vyvolat jednak přímo v menu, jednak pomocí odkazu **Předchozí dotazy** nad dotazovacím řádkem. Poslední položkou v liště nad řádkem je **Interpretace dotazu**, kde uživatel zjistí, jak bude jeho dotaz vyhodnocen (de facto přeložen do CQL) a zda je tato interpretace v souladu s jeho záměrem. Tato funkce ztrácí smysl při přepnutí do režimu **pokročilého dotazu**, místo ní je však možné přímo vkládat interaktivně generované [[pojmy:tag|morfologické značky]] (u korpusů, které jsou takto značkovány) či podmínky specifikující texty, v nichž se má hledat (podmínka [[pojmy:within]]) -- viz položky **Vložit tag** a **Vložit within**. | Další rozšiřující funkce umožňuje vytvořit seznam různých slov (typů), které dotazu odpovídají, spolu s jejich absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] nebo počtem dokumentů, v němž se hledaný jev vyskytuje. Spouští se pomocí volby **Dotaz → Seznam slov**. |
| |
===== Volba korpusu ===== | |
| |
| ===== Konkordance ===== |
| |
| [{{:manualy:kontext:novy_dotaz.png?direct&350 |Formulář pro vytváření dotazu}}] |
| |
| Pomocí volby **Dotaz → Konkordance** je možné kdykoli začít nové hledání v korpusech. Kliknutím na tuto volbu opustíme předchozí vyhledaný dotaz, případně výsledky na něm vytvořené, a začínáme s novým hledáním. Následující text se zabývá především pokládáním dotazu do jednojazyčných korpusů, specifika zadávání dotazů do paralelního korpusu [[cnk:intercorp|InterCorp]] popisuje podrobněji [[kurz:hledani_v_paralelnim_korpusu#paralelni_korpusy_v_rozhrani_kontext|bonusová lekce]] základního kurzu práce s ČNK. |
| |
| Po kliknutí na položku **Konkordance** se uživateli zobrazí základní menu pro dotazování. V rámci tohoto formuláře je možné zvolit korpus, v němž se bude vyhledávat, a ve vstupním řádku pod ním zadat dotaz. Pomocí přepínače lze aktivovat funkci Pokročilý dotaz, která pracuje s dotazovacím jazykem [[pojmy:cql|CQL]]. Součástí formuláře je i interaktivní mezinárodní **klávesnice** pro zápis speciálních znaků (zejména pro vyhledávání v nečeských textech a pro vkládání speciálních znaků jazyka CQL). Dříve položené dotazy je možné vyvolat jednak přímo v menu, jednak pomocí odkazu **Předchozí dotazy** nad dotazovacím řádkem. Poslední položkou v liště nad řádkem je **Interpretace dotazu**, kde uživatel zjistí, jak bude jeho dotaz vyhodnocen (de facto přeložen do CQL) a zda je tato interpretace v souladu s jeho záměrem. Tato funkce ztrácí smysl při přepnutí do režimu **pokročilého dotazu**, místo ní je však možné přímo vkládat interaktivně generované [[pojmy:tag|morfologické značky]] (u korpusů, které jsou takto značkovány) či podmínky specifikující texty, v nichž se má hledat (podmínka [[pojmy:within]]) -- viz položky **Vložit tag** a **Vložit within**. |
| |
| ==== Volba korpusu ==== |
| |
Volba [[pojmy:korpus|korpusu]] vhodného pro řešení dané výzkumné otázky je důležité rozhodnutí, které je nutné učinit ještě před samotným započetím výzkumu. [[cnk:uvod|Spektrum korpusů]] dostupných v projektu ČNK se neustále rozšiřuje, způsob výběru korpusu v rozhraní KonText proto kombinuje rychlý přístup k personalizovanému výběru (oblíbeným korpusům) spolu s výběrem pomocí tzv. štítků, které charakterizují jejich hlavní vlastnosti. | Volba [[pojmy:korpus|korpusu]] vhodného pro řešení dané výzkumné otázky je důležité rozhodnutí, které je nutné učinit ještě před samotným započetím výzkumu. [[cnk:uvod|Spektrum korpusů]] dostupných v projektu ČNK se neustále rozšiřuje, způsob výběru korpusu v rozhraní KonText proto kombinuje rychlý přístup k personalizovanému výběru (oblíbeným korpusům) spolu s výběrem pomocí tzv. štítků, které charakterizují jejich hlavní vlastnosti. |
**Příklad**: Uživatel hledá v záložce **Všechny korpusy** současnou verzi anglické části paralelního korpusu [[cnk:intercorp|InterCorp]]. Zvolí nejprve štítky ''InterCorp'' a ''současná verze'' (pro výběr více štítků je třeba zároveň stisknout klávesu Ctrl/Command), v seznamu se objeví prvních 25 korpusů vyhovujících zadané podmínce, ačkoli InterCorp zahrnuje mnohem více jazyků. K nezobrazeným korpusům se lze dostat dalším filtrováním pomocí zadání části názvu či jazyka (pozor: názvy jednotlivých jazykových mutací korpusu InterCorp jsou anglicky!). Nalezený korpus lze kliknutím vybrat a začít v něm vyhledávat. Pomocí hvězdičky jej lze zároveň označit jako oblíbený; tím je tento korpus zařazen na seznam oblíbených korpusů a lze se k němu rychle a snadno dostat na jedno kliknutí. | **Příklad**: Uživatel hledá v záložce **Všechny korpusy** současnou verzi anglické části paralelního korpusu [[cnk:intercorp|InterCorp]]. Zvolí nejprve štítky ''InterCorp'' a ''současná verze'' (pro výběr více štítků je třeba zároveň stisknout klávesu Ctrl/Command), v seznamu se objeví prvních 25 korpusů vyhovujících zadané podmínce, ačkoli InterCorp zahrnuje mnohem více jazyků. K nezobrazeným korpusům se lze dostat dalším filtrováním pomocí zadání části názvu či jazyka (pozor: názvy jednotlivých jazykových mutací korpusu InterCorp jsou anglicky!). Nalezený korpus lze kliknutím vybrat a začít v něm vyhledávat. Pomocí hvězdičky jej lze zároveň označit jako oblíbený; tím je tento korpus zařazen na seznam oblíbených korpusů a lze se k němu rychle a snadno dostat na jedno kliknutí. |
| |
===== Typy dotazů ===== | ==== Typy dotazů ==== |
| |
Současná verze KonTextu rozlišuje pouze dva typy dotazu: **jednoduchý** a **pokročilý**. | Současná verze KonTextu rozlišuje pouze dva typy dotazu: **jednoduchý** a **pokročilý**. |
</WRAP> | </WRAP> |
| |
Výchozím nastavením je **jednoduchý dotaz**, v němž je dále implicitně nastaveno nerozlišování velikosti písmen (přepínač **Shoda velikosti písmen** je vypnutý), není povoleno použití regulárních výrazů (přepínač **Povolit regulární výrazy** je vypnutý) a vyhledávání je nastaveno podle **výchozího atributu** ''lemma|word'' (v SYN2020 ''lemma|sublemma|word''), čímž se vyhledá nejen uvedený tvar (podle atributu ''word''), ale i další tvary slova (podle atributů ''lemma'' nebo ''sublemma''), pokud je zadaný tvar zároveň lemmatem nebo sublemmatem (poznámka: oproti předchozím verzím KonTextu nejde o změnu, jen o zobecnění chování původního základního dotazu). Do vstupního řádku je možné kromě jednotlivých slov zadávat i celé fráze. Vyhledávání lze na jednotlivých pozicích upřesnit jednak pomocí našeptávače (zatím jen v SYN2020, viz další oddíl), jednak změnou výchozího atributu (atribut je pak platný pro všechny pozice) a/nebo přepnutím shody velikosti písmen. Složitější dotazy je možné pokládat i v rámci jednoduchého dotazu, pokud uživatel využije volby Povolit regulární výrazy. | Výchozím nastavením je **jednoduchý dotaz**, v němž je dále implicitně nastaveno nerozlišování velikosti písmen (přepínač **Shoda velikosti písmen** je vypnutý), není povoleno použití regulárních výrazů (přepínač **Povolit regulární výrazy** je vypnutý) a vyhledávání je nastaveno podle **výchozího atributu** ''lemma|word'' (v nových synchronních korpusech počínaje SYN2020 ''lemma|sublemma|word''), čímž se vyhledá nejen uvedený tvar (podle atributu ''word''), ale i další tvary slova (podle atributů ''lemma'' nebo ''sublemma''), pokud je zadaný tvar zároveň lemmatem nebo sublemmatem (poznámka: oproti předchozím verzím KonTextu nejde o změnu, jen o zobecnění chování původního základního dotazu). Do vstupního řádku je možné kromě jednotlivých slov zadávat i celé fráze. Vyhledávání lze na jednotlivých pozicích upřesnit jednak pomocí našeptávače (zatím jen v nových synchronních korpusech, viz další oddíl), jednak změnou výchozího atributu (atribut je pak platný pro všechny pozice) a/nebo přepnutím shody velikosti písmen. Složitější dotazy je možné pokládat i v rámci jednoduchého dotazu, pokud uživatel využije volby Povolit regulární výrazy. |
| |
**Pokročilý dotaz** se aktivuje spínačem nad vstupním řádkem a plně odpovídá dotazu typu CQL předchozích verzí KonTextu. Při zadávání dotazovacího jazyka [[pojmy:cql|CQL]] KonText automaticky kontroluje a zvýrazňuje syntax dotazu. V případě, že dotaz není validní, KonText na to uživatele upozorní a umožní mu dotaz před vyhodnocením opravit. Vzhledem k širokým možnostem CQL dotazování však není kontrola správnosti dotazu vždy přesná, výjimečně se tak může stát, že se varování objeví i v případě validního dotazu. | **Pokročilý dotaz** se aktivuje spínačem nad vstupním řádkem a plně odpovídá dotazu typu CQL předchozích verzí KonTextu. Při zadávání dotazovacího jazyka [[pojmy:cql|CQL]] KonText automaticky kontroluje a zvýrazňuje syntax dotazu. V případě, že dotaz není validní, KonText na to uživatele upozorní a umožní mu dotaz před vyhodnocením opravit. Vzhledem k širokým možnostem CQL dotazování však není kontrola správnosti dotazu vždy přesná, výjimečně se tak může stát, že se varování objeví i v případě validního dotazu. |
| |
Je-li zadán dotaz, je možné spustit vyhledávání buď kliknutím na tlačítko **Hledat**, nebo stisknutím klávesy Enter (kurzor musí být umístěn ve vstupním řádku). | Je-li zadán dotaz, je možné spustit vyhledávání buď kliknutím na tlačítko **Hledat**, nebo stisknutím klávesy Enter (kurzor musí být umístěn ve vstupním řádku). |
| |
===== Našeptávač ===== | Vedle tlačítka **Hledat** je zároveň umístěna volba **Promíchat konkordanční řádky**. Tuto volbu je vhodné mít stále zapnutou, protože zobrazuje konkordance v náhodném pořadí, což je klíčové pro správnou a nezavádějící interpretaci výsledku. Podrobněji viz na stránce [[manualy:kontext:konkordance#promichat|Konkordance]]. |
| |
[{{ :manualy:kontext:dotaz_naseptavac.png?direct&400|Našeptávač}}] | |
| |
Pro korpusy s tzv. [[cnk:syn2020:lemmatizace|dvouúrovňovou lemmatizací]] (zatím české synchronní korpusy počínaje [[cnk:syn2020|SYN2020]] a [[cnk:syn:verze9|SYN verze 9]]) je k dispozici tzv. našeptávač, nástroj nabízející na základě zadaného slovního tvaru další možné způsoby hledání slova (nebo i více slov), k němuž daný tvar náleží. Při aktivaci našeptávače se tvary slov, které jsou v daném korpusu rozpoznány, ve vstupním řádku barevně zvýrazní, zprava vedle nich se pak objeví ikonka otazníku. Klikne-li uživatel na daný výraz a současně stiskne klávesu Ctrl/Command, objeví se nabídka interpretací v podobě lemmat, sublemmat a lc (tvarů nezávislých na velikosti písmen), z nichž je možné vybrat tu nejvhodnější, která pak zadaný tvar nahradí. Dojde tak ke změně původní interpretace daného slova, která je indikována zčervenáním volby **Interpretace dotazu** nad dotazovacím řádkem. | === Vyhodnocení dotazu === |
| |
Např. při vložení tvaru //brejlí// nás našeptávač upozorní, že tento tvar je v korpusu SYN2020 anotován v závislosti na kontextu pod dvěma různými lemmaty (//brejlit// a //brýle//), a navíc nám ukáže, že lemma //brýle// zahrnuje dvě sublemmata, stylistické varianty //brýle// a //brejle//. Uživatel má tedy možnost dotaz upravit tak, že bude hledat buď (i) všechny tvary vybraného slova nezávisle na variantě (sloupec **lemma**, např. //brýle//), nebo (ii) jen tvary slova patřící pod danou variantu (sloupec **sublemma**, např. //brejle//), nebo (iii) jen tvar nezávislý na velikosti písmen rozpoznaný pod lemmatem uvedeným na řádku (sloupec **lc**, např. //brejle// pod lemmatem //brýle//). Podobně našeptávač upozorňuje i na lemmata a sublemmata lišící se velikostí písmen (např. //Procházka// oproti //procházka//). Příklady zpracování variant v SYN2020 najdete [[cnk:syn2020:lemmatizace|zde]]. | Pokud je hledání úspěšné, zobrazí se stránka s konkordančním seznamem, jejíž ovládání je podrobně popsáno na stránce [[manualy:kontext:konkordance|Konkordance]]. |
| |
===== Upřesnit parametry ===== | ==== Našeptávač ==== |
| |
| [{{ :manualy:kontext:dotaz_naseptavac_brejli.png?direct&400|Našeptávač}}] |
| |
| Pro korpusy s tzv. [[cnk:syn2020:lemmatizace|dvouúrovňovou lemmatizací]] (zatím české synchronní korpusy počínaje [[cnk:syn2020|SYN2020]] a [[cnk:syn:verze9|SYN verze 9]]) je k dispozici tzv. našeptávač, nástroj nabízející na základě zadaného slovního tvaru další možné způsoby hledání slova (nebo i více slov), k němuž tento tvar náleží. Při aktivaci našeptávače se slovní tvary, které jsou v daném korpusu rozpoznány, ve vstupním řádku barevně zvýrazní, zprava vedle nich se pak objeví ikonka otazníku. Klikne-li uživatel na daný výraz a současně stiskne klávesu Ctrl/Command, objeví se nabídka výrazů v podobě lemmat, sublemmat a lc (tvarů nezávislých na velikosti písmen), z nichž je možné vybrat ten nejvhodnější, který pak zadaný tvar nahradí. Dojde tak ke změně původní interpretace daného výrazu, která je indikována zčervenáním volby **Interpretace dotazu** nad dotazovacím řádkem. |
| |
| Např. při vložení tvaru //brejlí// nás našeptávač upozorní, že tento tvar je v korpusu SYN2020 anotován v závislosti na kontextu pod dvěma různými lemmaty (//brejlit// a //brýle//), a navíc nám ukáže, že lemma //brýle// zahrnuje dvě sublemmata, stylistické varianty //brýle// a //brejle//. Uživatel má tedy možnost dotaz upravit tak, že bude hledat buď (i) všechny tvary vybraného slova nezávisle na variantě (sloupec **lemma**, např. //brýle//), nebo (ii) jen tvary slova patřící pod danou variantu (sloupec **sublemma**, např. //brejle//), nebo (iii) jen tvar nezávislý na velikosti písmen patřící pod lemma uvedené na řádku (sloupec **lc**, např. //brejlí// pod lemmatem //brýle//). Podobně našeptávač upozorňuje i na lemmata a sublemmata lišící se velikostí písmen (např. //Procházka// oproti //procházka//). Příklady zpracování variant v SYN2020 najdete [[cnk:syn2020:lemmatizace|zde]]. |
| |
| ==== Upřesnit parametry ==== |
| |
Jak již bylo uvedeno výše, lze při zadávání dotazu specifikovat také další parametry, které ovlivňují jeho interpretaci: jde jednak o výchozí [[pojmy:atributy_pozicni|poziční atribut]], v režimu jednoduchého dotazu je to dále zohlednění velikosti písmen (case-sensitivity) a také povolení použití [[pojmy:regularni_vyrazy|regulárních výrazů]]. | Jak již bylo uvedeno výše, lze při zadávání dotazu specifikovat také další parametry, které ovlivňují jeho interpretaci: jde jednak o výchozí [[pojmy:atributy_pozicni|poziční atribut]], v režimu jednoduchého dotazu je to dále zohlednění velikosti písmen (case-sensitivity) a také povolení použití [[pojmy:regularni_vyrazy|regulárních výrazů]]. |
| |
===== Specifikovat kontext ===== | ==== Specifikovat kontext ==== |
| |
[{{:manualy:kontext:hledani_kontext.png?direct&300 |Formulář pro hledání v kontextu }}] | [{{:manualy:kontext:hledani_kontext.png?direct&300 |Formulář pro hledání v kontextu }}] |
Obecně je možné říci, že libovolné hledání v kontextu lze převést na běžné hledání a následné filtrování (pomocí pozitivního nebo negativního filtru). Filtrování je však také možné uskutečnit pomocí [[pojmy:dotazovaci_jazyk|dotazovacího jazyka]] a provést totožnou operaci v rámci jediného kroku. Platí tedy, že k jednomu výsledku vede vícero cest a záleží plně na uživateli, kterou možnost považuje za nejpohodlnější. | Obecně je možné říci, že libovolné hledání v kontextu lze převést na běžné hledání a následné filtrování (pomocí pozitivního nebo negativního filtru). Filtrování je však také možné uskutečnit pomocí [[pojmy:dotazovaci_jazyk|dotazovacího jazyka]] a provést totožnou operaci v rámci jediného kroku. Platí tedy, že k jednomu výsledku vede vícero cest a záleží plně na uživateli, kterou možnost považuje za nejpohodlnější. |
| |
===== Omezit hledání ===== | ==== Omezit hledání ==== |
| |
[{{ :manualy:kontext:hledani_subkorpus.png?direct&300|Formulář pro hledání v ad hoc vytvořeném subkorpusu }}] | [{{ :manualy:kontext:hledani_subkorpus.png?direct&300|Formulář pro hledání v ad hoc vytvářeném subkorpusu }}] |
| |
Potřebujeme-li hledat jen v úzce vymezené skupině textů z celého korpusu, máme dvě možnosti. Buď vytvoříme vlastní virtuální [[manualy:kontext:korpusy|subkorpus]], který bude pak možné vybrat v rámci nabídky korpusů, nebo dotaz omezíme nějakými podmínkami (typicky pomocí příkazu [[pojmy:within|within]]). První možnost volíme zpravidla v situacích, kdy víme, že subkorpus budeme potřebovat delší dobu, nebo když je jeho specifikace složitá. Druhou možnost pak užíváme při ad hoc hledání v rámci nějakých jasně daných kategorií textů, které jsou specifikovány základními [[pojmy:atributy_strukturni|strukturními atributy]]. | Potřebujeme-li hledat jen v úzce vymezené skupině textů z celého korpusu, máme dvě možnosti. Buď vytvoříme vlastní virtuální [[manualy:kontext:korpusy|subkorpus]], který bude pak možné vybrat v rámci nabídky korpusů, nebo dotaz omezíme nějakými podmínkami (typicky pomocí příkazu [[pojmy:within|within]]). První možnost volíme zpravidla v situacích, kdy víme, že subkorpus budeme potřebovat delší dobu, nebo když je jeho specifikace složitá. Druhou možnost pak užíváme při ad hoc hledání v rámci nějakých jasně daných kategorií textů, které jsou specifikovány základními [[pojmy:atributy_strukturni|strukturními atributy]]. |
| |
Formulář nového dotazu poskytuje zjednodušení ve formě dodatečného formuláře **Omezit hledání**, který je umístěn pod kontextovým hledáním a aktivuje se podobně jako (výše popsaná) specifikace kontextu kliknutím. | Vyhledávací formulář poskytuje zjednodušení ve formě dodatečného formuláře **Omezit hledání**, který je umístěn pod kontextovým hledáním a aktivuje se podobně jako (výše popsaná) specifikace kontextu kliknutím. |
| |
V rámci tohoto formuláře je možné zaškrtnout ty hodnoty vybraných strukturních atributů, které nás zajímají. Formulář neobsahuje všechny strukturní atributy, pouze ty nejpoužívanější v daném korpusu (např. při hledání v [[cnk:syn2020|SYN2020]] jsou to [[pojmy:txtype_group|txtype_group]], [[pojmy:txtype|txtype]], [[pojmy:genre|genre]], [[pojmy:srclang|srclang]]). Použité zkratky je možné dohledat v příslušné sekci [[seznamy:index|seznamů]]. | V rámci tohoto formuláře je možné zaškrtnout ty hodnoty vybraných strukturních atributů, které nás zajímají. Formulář neobsahuje všechny strukturní atributy, pouze ty nejpoužívanější v daném korpusu (např. při hledání v [[cnk:syn2020|SYN2020]] jsou to [[pojmy:txtype_group|txtype_group]], [[pojmy:txtype|txtype]], [[pojmy:genre|genre]], [[pojmy:srclang|srclang]]). Použité zkratky je možné dohledat v příslušné sekci [[seznamy:index|seznamů]]. |
| |
V jednom ze sloupců se objevuje seznam konkrétních textů ([[pojmy:opus|opusů]] nebo [[pojmy:doc|dokumentů]]), které odpovídají specifikované podmínce. V případě, že si z nabídky zvolíme nějaké kategorie, můžeme si zobrazit soupis textů, které takovéto podmínce odpovídají, pomocí tlačítka **Zúžit výběr** (pokud odpovídající seznam textů není příliš dlouhý). Sloupec se seznamem textů se přepočítá podle aktuálně zaškrtnutých kritérií. Takto můžeme pokračovat do té doby, než budeme spokojeni s vymezením dat, která k hledání chceme použít. | V jednom ze sloupců se objevuje seznam konkrétních textů ([[pojmy:opus|opusů]] nebo [[pojmy:doc|dokumentů]]), které odpovídají specifikované podmínce. V případě, že si z nabídky zvolíme nějaké kategorie, můžeme si zobrazit soupis textů, které takovéto podmínce odpovídají, pomocí tlačítka **Zúžit výběr** (pokud odpovídající seznam textů není příliš dlouhý). Sloupec se seznamem textů se přepočítá podle aktuálně zaškrtnutých kritérií. Takto můžeme pokračovat do té doby, než budeme spokojeni s vymezením dat, která k hledání chceme použít. Lze se přitom vracet (volba **Krok zpět**), případně celý výběr stornovat (volba **Zrušit výběr**). Daný výběr je také možné uložit pro pozdější využití (volba **Uložit jako koncept subkorpus**) a vytvořit tak nový virtuální [[pojmy:subkorpus|subkorpus]]. Mimoto lze snadno získat seznam dokumentů v aktuálním výběru (volba **Uložit seznam dokumentů**), což může být praktické, např. chcete-li zjistit, která beletristická díla figurují v paralelním korpusu InterCorp pro ten který jazyk. |
| |
Pro podrobnější specifikaci je třeba buď použít podmínku [[pojmy:within|within]] v rámci [[kurz:pokrocile_dotazy#dotazovaci_jazyk|CQL]] dotazu, nebo vytvořit nový virtuální [[pojmy:subkorpus|subkorpus]]. | Pro podrobnější specifikaci je třeba použít podmínku [[pojmy:within|within]] v rámci [[kurz:pokrocile_dotazy#dotazovaci_jazyk|CQL]] dotazu. |
| |
====== Paradigmatický dotaz ===== | ===== Paradigmatický dotaz ==== |
| |
[{{ :manualy:kontext:paradigmaticky_dotaz.png?direct&400| Paradigmatický dotaz }}] | [{{ :manualy:kontext:paradigmaticky_dotaz.png?direct&400| Paradigmatický dotaz }}] |
| |
Ve výsledcích najdeme adjektiva jako //nový//, //celý//, //velký//, dále zájmena a číslovky s adjektivním skloňováním //každý//, //druhý//, //který//, ale také slova s jiným skloňováním, která vykazují formální podobnost se zadaným dotazem, např. //svůj// (do jehož paradigmatu patří mj. tvary //svý//, //svá//, //své//). Nenajdou se naopak lemmata, která jeden z tvarů doložen nemají (např. //šestatřicetiletý// nemá doložen tvar //šestatřicetileté//, resp. má ho v korpusu doložen pouze třikrát, což je pod stanovenou mezí minimální frekvence). | Ve výsledcích najdeme adjektiva jako //nový//, //celý//, //velký//, dále zájmena a číslovky s adjektivním skloňováním //každý//, //druhý//, //který//, ale také slova s jiným skloňováním, která vykazují formální podobnost se zadaným dotazem, např. //svůj// (do jehož paradigmatu patří mj. tvary //svý//, //svá//, //své//). Nenajdou se naopak lemmata, která jeden z tvarů doložen nemají (např. //šestatřicetiletý// nemá doložen tvar //šestatřicetileté//, resp. má ho v korpusu doložen pouze třikrát, což je pod stanovenou mezí minimální frekvence). |
| |
| |
| |
| |
| |
==== Podmínka nikdy a vždy ==== | ==== Podmínka nikdy a vždy ==== |
najdeme pouze taková lemmata s adjektivní deklinací, která nemají tvar odpovídající nom. pl.: např. //každý//, //celkový//, //dostatečný//, u nichž nejsou doloženy s nadlimitní frekvencí podoby //*každí//, //*celkoví// a //*dostateční//. | najdeme pouze taková lemmata s adjektivní deklinací, která nemají tvar odpovídající nom. pl.: např. //každý//, //celkový//, //dostatečný//, u nichž nejsou doloženy s nadlimitní frekvencí podoby //*každí//, //*celkoví// a //*dostateční//. |
| |
Podmínka **vždy** vymezuje nadmnožinu typů, z nichž se ve výsledku vyberou pouze ty, které jsou plně určeny dílčími dotazy, tj. nemají výskyty mimo tyto dotazy a mimo specifikovanou nadmnožinu. Ve výsledku se tak nemohou vyskytovat typy, které mají realizace, nepostižené alespoň jedním dílčím dotazem. Pokud k příkladu výše přidáme čtvrtou podmínku se specifikací **Omezit hledání na (podmínka "vždy")** a hodnotou | Podmínka **vždy** vymezuje nadmnožinu typů, z nichž se vyberou pouze ty, které jsou plně určeny dílčími dotazy, tj. nemají výskyty mimo tyto dotazy a mimo specifikovanou nadmnožinu. Ve výsledku se tak nemohou vyskytovat typy, které mají realizace, nepostižené alespoň jedním dílčím dotazem. Pokud k příkladu výše přidáme čtvrtou podmínku se specifikací **Omezit hledání na (podmínka "vždy")** a hodnotou |
| |
**4.** ''%%[lemma=".+ý"]%%'' | **4.** ''%%[lemma=".+ý"]%%'' |
najdeme pouze taková lemmata končící na //-ý//, která jsou v úplnosti určena podmínkami 1-3, tzn. nemají žádné jiné realizace, které by těmito dílčími dotazy zůstávaly nepostiženy. Tomu odpovídá lemma //odmaštěný//, které se v SYN2020 vyskytuje pouze v podobách //odmaštěný//, //odmaštěná//, //odmaštěné// a všechny mají alespoň čtyři výskyty. | najdeme pouze taková lemmata končící na //-ý//, která jsou v úplnosti určena podmínkami 1-3, tzn. nemají žádné jiné realizace, které by těmito dílčími dotazy zůstávaly nepostiženy. Tomu odpovídá lemma //odmaštěný//, které se v SYN2020 vyskytuje pouze v podobách //odmaštěný//, //odmaštěná//, //odmaštěné// a všechny mají alespoň čtyři výskyty. |
| |
Podmínky vždy i nikdy můžeme aplikovat striktně nebo lze jejich působení zmírnit uvedení maximálního procenta výjimek ve výsledku. Hledáme-li např. slova, která se **nikdy** nevyskytují v imperativu, můžeme zvýšením podílu výjimek na 1 % do výsledku zařadit i slovesa, v nichž je imperativ zastoupen maximálně jedním procentem jeho tvarů. | Podmínky vždy i nikdy můžeme aplikovat striktně nebo lze jejich působení zmírnit uvedením maximálního procenta výjimek ve výsledku (pole //max. poměr výjimek// nad dotazovacím řádkem). Hledáme-li např. slova, která se **nikdy** nevyskytují v imperativu, můžeme zvýšením podílu výjimek na 1 % (údaj je potřeba vepsat ve formě 0.01) do výsledku zařadit i slovesa, v nichž je imperativ zastoupen maximálně jedním procentem jeho tvarů. |
| |
====== Předchozí dotazy ====== | ===== Seznam slov ===== |
| |
Položka zobrazí přehled posledních kladených dotazů (zkrácený seznam dříve kladených dotazů je přístupný i přímo z dotazovacího formuláře prostřednictvím odkazu nad vstupním řádkem). Tyto dotazy lze filtrovat podle aktuálně používaného korpusu či podle typu dotazu a také lze zobrazit pouze dotazy archivované. Kliknutím na odkaz **Upravit a vyhledat** vložíme dříve specifikované zadání do dotazovacího formuláře a dotaz můžeme buď beze změny ihned vyhodnotit, nebo jej dále modifikovat (např. změnit korpus, na němž bude vyhodnocen, typ dotazu nebo specifikovat jeho kontext). Kliknutí na volbu **Archivovat** umožňuje dotaz pojmenovat a trvale jej uložit do archivu položených dotazů. | Základním výstupem jakéhokoli dotazu je [[pojmy:konkordance|konkordance]], tj. seznam všech výskytů ([[pojmy:token|tokenů]]) odpovídajících dotazu spolu s jejich textovým okolím. Funkce **Seznam slov** naproti tomu vyhodnocuje dotaz tak, že výsledkem je seznam různých slov ([[pojmy:typ|typů]]), které dotazu odpovídají, spolu s jejich absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] nebo počtem dokumentů, v němž se hledaný jev vyskytuje. Funkce Seznam slov je tak analogická [[manualy:kontext:frekvencni_distribuce|frekvenční distribuci]], její výhodou je však rychlost a výpočetní nenáročnost, protože mezikrok přes konkordanci tu není potřeba. |
| |
====== Seznam slov ====== | |
| |
Základním výstupem jakéhokoli dotazu je [[pojmy:konkordance|konkordance]], tj. seznam všech výskytů ([[pojmy:token|tokenů]]) odpovídajících dotazu spolu s jejich textovým okolím. Funkce **Seznam slov** naproti tomu vyhodnocuje dotaz tak, že výsledkem je seznam různých slov ([[pojmy:typ|typů]]), které dotazu odpovídají, spolu s jejich absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] nebo počtem dokumentů, v němž se hledaný jev vyskytuje. Funkce Seznam slov je tak analogická [[manualy:kontext:frekvencni_distribuce|frekvenční distribuci]], její výhodou je však rychlost a výpočetní nenáročnost, protože mezikrok přes konkordanci není u Seznamu slov potřeba. | |
| |
[{{ :manualy:kontext:seznam_slov_slovesa.png?direct&300|Formulář pro vytváření seznamu slov }}] | [{{ :manualy:kontext:seznam_slov_slovesa.png?direct&300|Formulář pro vytváření seznamu slov }}] |
| |
Ve formuláři je možné nastavit různé parametry hledání: | Ve formuláři je možné nastavit různé parametry hledání: |
* korpus (příp. jeho subkorpus), v kterém budeme seznam slov vytvářet | * korpus (příp. jeho subkorpus), ve kterém budeme seznam slov vytvářet |
* atribut ([[pojmy:atributy_pozicni|poziční]] nebo [[pojmy:atributy_strukturni|strukturní]]), který má být v seznamu vypsán | * atribut ([[pojmy:atributy_pozicni|poziční]] nebo [[pojmy:atributy_strukturni|strukturní]]), který má být v seznamu vypsán |
* regulární výraz, kterému mají výsledná slova odpovídat (není-li zadán, seznam bude obsahovat všechny položky v korpusu, pokud odpovídají ostatním specifikacím ve formuláři) | * regulární výraz, kterému mají výsledná slova odpovídat (není-li zadán, seznam bude obsahovat všechny položky v korpusu, pokud odpovídají ostatním specifikacím ve formuláři) |
* minimální frekvence | * minimální frekvence |
| * včetně číslic a interpunkce -- volba rozšiřující hledání i na slova, která nejsou složena pouze z alfabetických znaků |
* výrazy pro pozitivní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání, nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem předvybraných slov, která ve výsledném seznamu chceme vidět (tzv. whitelist) | * výrazy pro pozitivní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání, nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem předvybraných slov, která ve výsledném seznamu chceme vidět (tzv. whitelist) |
* výrazy pro negativní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání, nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem předvybraných slov, která z výsledného seznamu chceme vyloučit (tzv. blacklist) | * výrazy pro negativní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání, nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem předvybraných slov, která z výsledného seznamu chceme vyloučit (tzv. blacklist) |
* včetně číslic a interpunkce -- volba rozšiřující hledání i na slova, která nejsou složena pouze z alfabetických znaků | |
Mezi nastaveními druhu výstupu najdeme kromě volby mezi absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] a počtem dokumentů také volbu konkrétního výstupního atributu či atributů. Tyto atributy přitom **nemusejí** být shodné s pozičním atributem zvoleným v horní části formuláře, na který jsou aplikovány všechny výše uvedené filtry. To umožňuje vytvořit např. frekvenční seznam všech sloves tak, že v horní části zadáme atribut [[pojmy:tag|tag]], na něj podmínku na sloveso jako [[seznamy:tagy#pozice_1_-_slovni_druh|V.*]], a zvolíme typ výstupu [[pojmy:lemma|lemma]] -- příklad takového zadání ukazuje obrázek. | Mezi nastaveními druhu výstupu najdeme kromě volby mezi absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] a počtem dokumentů také volbu konkrétního výstupního atributu či atributů. Tyto atributy přitom **nemusejí** být shodné s pozičním atributem zvoleným v horní části formuláře, na který jsou aplikovány všechny výše uvedené filtry. To umožňuje vytvořit např. frekvenční seznam všech sloves tak, že v horní části zadáme atribut [[pojmy:tag|tag]], na něj podmínku na sloveso jako [[seznamy:tagy#pozice_1_-_slovni_druh|V.*]], a zvolíme typ výstupu [[pojmy:lemma|lemma]] -- příklad takového zadání ukazuje obrázek. |
| |
</WRAP> | </WRAP> |
| |
| ===== Analýza klíčových slov ===== |
| |
| Rozhraní KonText dokáže vygenerovat soupis tzv. [[pojmy:keyword|klíčových slov]] (keywords), tedy takových tvarů či lemmat, která se ve vybraném (sub)korpusu objevují nápadně častěji než v (sub)korpusu referenčním, odrážejícím běžný jazykový úzus. (Analýzu klíčových slov //ve vlastních textech// umožňuje [[manualy:kwords|specializovaná aplikace KWords]].) |
| |
| Vedle korpusu, v němž chceme dané výrazy najít, musíme zadat také [[pojmy:referencni|referenční korpus]] (příp. též [[pojmy:subkorpus|subkorpus]], např. chceme-li nějaký korpus tvořený převážně publicistickými texty, tj. korpusy řady SYN, konfrontovat se subkorpusem beletristických textů: SYN2020-BEL). Dále určíme, podle kterého [[pojmy:atributy_pozicni|pozičního atributu]] se výrazy mají vyhledávat, podle které metriky mají být tříděny (v nabídce jsou tři: [[pojmy:asociacni_miry#log_likelihood|Log-likelihood]], [[pojmy:chi2|Chi-square]] a [[pojmy:din|Difference index]]), eventuálně zadáme i požadovanou minimální či maximální frekvenci. Hledané výrazy lze dále vyfiltrovat pomocí [[pojmy:regularni_vyrazy|regulárního výrazu]]; defaultně nastavený výraz ''.*'' zobrazí všechny výsledky (resp. prvních 1000 výskytů). |
| |
| Výsledný seznam klíčových slov ve formě tabulky je seřazen podle zvolené metriky, přičemž zbylé dvě se zobrazují taktéž, v dalších sloupcích následují hodnoty [[pojmy:frekvence|absolutní a relativní frekvence]] v obou korpusech. Soupis vyhledaných výrazů si lze zobrazit v obou korpusech v příslušné [[pojmy:konkordance|konkordanci]] přes pozitivní filtr (<fc #4682b4>p</fc> vpravo od hodnoty absolutní frekvence). |
| |
| FIXME obrázek: Seznam klíčových slovních tvarů v korpusu ORAL v1 v porovnání s referenčním korpusem SYN2020 |
| ===== Předchozí dotazy ===== |
| |
| Položka zobrazí přehled posledních kladených dotazů (zkrácený seznam dříve kladených dotazů je přístupný i přímo z dotazovacího formuláře prostřednictvím odkazu nad vstupním řádkem). Tyto dotazy lze filtrovat podle aktuálně používaného korpusu či podle typu dotazu a také lze zobrazit pouze dotazy archivované. Kliknutím na vybraný dotaz vložíme dříve specifikované zadání do dotazovacího formuláře a dotaz můžeme buď beze změny ihned vyhodnotit, nebo jej dále modifikovat (např. změnit korpus, na němž bude vyhodnocen, typ dotazu nebo specifikovat jeho kontext). |
| |
| Kliknutí na ozubené kolo a následně na volbu **Archivovat** umožňuje dotaz pojmenovat a trvale jej uložit do archivu položených dotazů. Ukládá se přitom kompletní stav formuláře, tedy např. i vybrané typy textů. |
| |
---- | ---- |