Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
manualy:kontext:novy_dotaz [2018/08/03 13:33]
Michal Škrabal [Specifikovat kontext]
manualy:kontext:novy_dotaz [2018/12/05 11:42] (aktuální)
Jan Kocek
Řádek 1: Řádek 1:
 ====== Menu: Dotaz ====== ====== Menu: Dotaz ======
  
-[{{:​manualy:​kontext:​novy_dotaz.png?​direct&​300 |Formulář pro vytváření dotazu ​FIXME}}]+[{{:​manualy:​kontext:​novy_dotaz.png?​direct&​300 |Formulář pro vytváření dotazu }}]
  
 Pomocí volby **Dotaz → Zadat nový dotaz** je možné kdykoli začít nové hledání v korpusech. Kliknutím na tuto volbu předchozí vyhledaný dotaz, případně výsledky na něm vytvořené,​ opustíme a začínáme s novým hledáním. Následující text se zabývá především pokládáním dotazu do jednojazyčných korpusů, specifika zadávání dotazů do paralelního korpusu [[cnk:​intercorp|InterCorp]] popisuje podrobněji [[kurz:​hledani_v_paralelnim_korpusu#​paralelni_korpusy_v_rozhrani_kontext|bonusová lekce]] základního kurzu práce s ČNK. Pomocí volby **Dotaz → Zadat nový dotaz** je možné kdykoli začít nové hledání v korpusech. Kliknutím na tuto volbu předchozí vyhledaný dotaz, případně výsledky na něm vytvořené,​ opustíme a začínáme s novým hledáním. Následující text se zabývá především pokládáním dotazu do jednojazyčných korpusů, specifika zadávání dotazů do paralelního korpusu [[cnk:​intercorp|InterCorp]] popisuje podrobněji [[kurz:​hledani_v_paralelnim_korpusu#​paralelni_korpusy_v_rozhrani_kontext|bonusová lekce]] základního kurzu práce s ČNK.
Řádek 32: Řádek 32:
 ^ Část slova | pro vyhledání řetězce znaků kdekoli ve slově | Vyhledá po sobě následující znaky v rámci jednoho slova. | RE, case-sensitive | ''​pra''​ > //praděda, praxe, doprava, lepra…//​\\ ''​křá''​ > //​pookřát,​ křáp, Jiskřákovi…//​ | ^ Část slova | pro vyhledání řetězce znaků kdekoli ve slově | Vyhledá po sobě následující znaky v rámci jednoho slova. | RE, case-sensitive | ''​pra''​ > //praděda, praxe, doprava, lepra…//​\\ ''​křá''​ > //​pookřát,​ křáp, Jiskřákovi…//​ |
 ^ CQL | pro vyhledání všeho, co lze pomocí korpusového manažeru vyhledat | CQL je [[pojmy:​dotazovaci_jazyk|Corpus Query Language]], korpusový dotazovací jazyk (do něhož si rozhraní KonText samo interně převádí všechny předchozí typy dotazů). | RE, case-sensitive,​ [[pojmy:​dotazovaci_jazyk|CQL]] syntax | ''​[lemma=<​nowiki>"</​nowiki>​kočka<​nowiki>"</​nowiki>​]''​ > //kočka, kočku, koček, kočkám…//​\\ ''​[word=<​nowiki>"</​nowiki>​černá<​nowiki>"</​nowiki>​]''​ > //​černá//​\\ ​ ''​[lemma=<​nowiki>"</​nowiki>​číst<​nowiki>"</​nowiki>​][tag=<​nowiki>"</​nowiki>​N.*<​nowiki>"</​nowiki>​]''​ > //číst levity, četli článek, nečtete noviny…// | ^ CQL | pro vyhledání všeho, co lze pomocí korpusového manažeru vyhledat | CQL je [[pojmy:​dotazovaci_jazyk|Corpus Query Language]], korpusový dotazovací jazyk (do něhož si rozhraní KonText samo interně převádí všechny předchozí typy dotazů). | RE, case-sensitive,​ [[pojmy:​dotazovaci_jazyk|CQL]] syntax | ''​[lemma=<​nowiki>"</​nowiki>​kočka<​nowiki>"</​nowiki>​]''​ > //kočka, kočku, koček, kočkám…//​\\ ''​[word=<​nowiki>"</​nowiki>​černá<​nowiki>"</​nowiki>​]''​ > //​černá//​\\ ​ ''​[lemma=<​nowiki>"</​nowiki>​číst<​nowiki>"</​nowiki>​][tag=<​nowiki>"</​nowiki>​N.*<​nowiki>"</​nowiki>​]''​ > //číst levity, četli článek, nečtete noviny…// |
 +
 +<WRAP round info 70%>
 +Při zadávání CQL dotazu KonText automaticky kontroluje a zvýrazňuje syntax dotazu. V případě, že dotaz není validní, KonText na to uživatele upozorní a umožní mu dotaz před vyhodnocením opravit. Vzhledem k širokým možnostem CQL dotazování však není kontrola správnosti dotazu vždy přesná, a proto je možné, že se varování objeví i v případě validního dotazu.
 +</​WRAP>​
  
  
Řádek 44: Řádek 48:
  
 V momentě, kdy je dotaz zadán, je možné spustit vyhledávání buď kliknutím na tlačítko **Hledat**, nebo stisknutím klávesy Enter, pokud je kurzor umístěn v zadávacím řádku. V momentě, kdy je dotaz zadán, je možné spustit vyhledávání buď kliknutím na tlačítko **Hledat**, nebo stisknutím klávesy Enter, pokud je kurzor umístěn v zadávacím řádku.
- 
  
  
 ===== Specifikovat kontext ===== ===== Specifikovat kontext =====
  
-[{{:​manualy:​kontext:​hledani_kontext.png?​direct&​300 |Formulář pro hledání v kontextu ​FIXME}}]+[{{:​manualy:​kontext:​hledani_kontext.png?​direct&​300 |Formulář pro hledání v kontextu }}]
  
 Každý dotaz je možné dále specifikovat s ohledem na kontext (textové okolí), v němž se hledané slovo nebo fráze vyskytuje. Ke specifikaci slouží kontextová nabídka, která se nachází ve spodní části dotazovacího formuláře (v základním nastavení je skryta, je třeba ji aktivovat kliknutím). Každý dotaz je možné dále specifikovat s ohledem na kontext (textové okolí), v němž se hledané slovo nebo fráze vyskytuje. Ke specifikaci slouží kontextová nabídka, která se nachází ve spodní části dotazovacího formuláře (v základním nastavení je skryta, je třeba ji aktivovat kliknutím).
Řádek 58: Řádek 61:
 ===== Omezit hledání ===== ===== Omezit hledání =====
  
-[{{ :​manualy:​kontext:​hledani_subkorpus.png?​direct&​300|Formulář pro hledání v ad hoc vytvořeném subkorpusu ​FIXME}}]+[{{ :​manualy:​kontext:​hledani_subkorpus.png?​direct&​300|Formulář pro hledání v ad hoc vytvořeném subkorpusu }}]
  
-Potřebujeme-li hledat jen v úzce vymezené skupině textů z celého korpusu, máme dvě možnosti. Buď vytvoříme vlastní virtuální [[manualy:​kontext:​subkorpus]],​ který bude pak možné vybrat v rámci nabídky korpusů, nebo dotaz omezíme nějakými podmínkami (typicky pomocí příkazu [[pojmy:​within|within]]). První možnost volíme zpravidla v situacích, kdy víme, že subkorpus budeme potřebovat delší dobu, nebo když je jeho specifikace složitá. Druhou možnost pak užíváme při ad hoc hledání v rámci nějakých jasně daných kategorií textů, které jsou specifikovány základními [[pojmy:​atributy_strukturni|strukturními atributy]].+Potřebujeme-li hledat jen v úzce vymezené skupině textů z celého korpusu, máme dvě možnosti. Buď vytvoříme vlastní virtuální [[manualy:​kontext:​korpusy|subkorpus]],​ který bude pak možné vybrat v rámci nabídky korpusů, nebo dotaz omezíme nějakými podmínkami (typicky pomocí příkazu [[pojmy:​within|within]]). První možnost volíme zpravidla v situacích, kdy víme, že subkorpus budeme potřebovat delší dobu, nebo když je jeho specifikace složitá. Druhou možnost pak užíváme při ad hoc hledání v rámci nějakých jasně daných kategorií textů, které jsou specifikovány základními [[pojmy:​atributy_strukturni|strukturními atributy]].
  
-Formulář nového dotazu poskytuje zjednodušení ve formě dodatečného formuláře ​//Omezit hledání//, který je umístěn pod kontextovým hledáním a aktivuje se podobně jako (výše popsaná) specifikace kontextu kliknutím.+Formulář nového dotazu poskytuje zjednodušení ve formě dodatečného formuláře ​**Omezit hledání**, který je umístěn pod kontextovým hledáním a aktivuje se podobně jako (výše popsaná) specifikace kontextu kliknutím.
  
-V rámci tohoto formuláře je možné zaškrtnout ty hodnoty vybraných strukturních atributů, které nás zajímají. Formulář neobsahuje všechny strukturní atributy, pouze ty nejpoužívanější v daném korpusu (např. při hledání v [[cnk:syn2010|SYN2010]] jsou to [[pojmy:​txtype_group|txtype_group]],​ [[pojmy:​txtype|txtype]],​ [[pojmy:​genre|genre]], [[pojmy:​medium|med]], [[pojmy:​srclang|srclang]]). Použité zkratky je možné dohledat v příslušné sekci [[seznamy:​index|seznamů]].+V rámci tohoto formuláře je možné zaškrtnout ty hodnoty vybraných strukturních atributů, které nás zajímají. Formulář neobsahuje všechny strukturní atributy, pouze ty nejpoužívanější v daném korpusu (např. při hledání v [[cnk:syn2015|SYN2015]] jsou to [[pojmy:​txtype_group|txtype_group]],​ [[pojmy:​txtype|txtype]],​ [[pojmy:​genre|genre]],​ [[pojmy:​srclang|srclang]]). Použité zkratky je možné dohledat v příslušné sekci [[seznamy:​index|seznamů]].
  
-posledním sloupci ​se objevuje seznam konkrétních [[pojmy:​opus|opusů]] nebo [[pojmy:​doc|dokumentů]] ​(v závislosti na zvoleném korpusu), které odpovídají specifikované podmínce. ​Pokud by takový seznam byl příliš dlouhý, je v daném sloupci uveden pouze počet položek. ​V případě, že si z nabídky zvolíme nějaké kategorie, můžeme si zobrazit soupis textů, které takovéto podmínce odpovídají,​ pomocí tlačítka **žit výběr**. Sloupec se seznamem textů se přepočítá podle aktuálně zaškrtnutých kritérií. Takto můžeme pokračovat do té doby, než budeme spokojeni s vymezením dat, která k hledání chceme použít.+jednom ze sloupců ​se objevuje seznam konkrétních ​textů ([[pojmy:​opus|opusů]] nebo [[pojmy:​doc|dokumentů]]),​ které odpovídají specifikované podmínce. ​ V případě, že si z nabídky zvolíme nějaké kategorie, můžeme si zobrazit soupis textů, které takovéto podmínce odpovídají,​ pomocí tlačítka **žit výběr** ​(pokud odpovídající seznam textů není příliš dlouhý). Sloupec se seznamem textů se přepočítá podle aktuálně zaškrtnutých kritérií. Takto můžeme pokračovat do té doby, než budeme spokojeni s vymezením dat, která k hledání chceme použít.
  
 Pro podrobnější specifikaci je třeba buď použít podmínku [[pojmy:​within|within]] v rámci [[kurz:​pokrocile_dotazy#​dotazovaci_jazyk|CQL]] dotazu, nebo vytvořit nový virtuální [[pojmy:​subkorpus|subkorpus]]. Pro podrobnější specifikaci je třeba buď použít podmínku [[pojmy:​within|within]] v rámci [[kurz:​pokrocile_dotazy#​dotazovaci_jazyk|CQL]] dotazu, nebo vytvořit nový virtuální [[pojmy:​subkorpus|subkorpus]].
 ====== Předchozí dotazy ====== ====== Předchozí dotazy ======
  
-Položka zobrazí přehled posledních kladených dotazů (zkrácený seznam dříve kladených dotazů je přístupný i přímo z dotazovacího formuláře prostřednictvím odkazu nad vstupním řádkem). Tyto dotazy lze filtrovat podle aktuálně používaného korpusu či podle typu dotazu a také lze zobrazit pouze dotazy archivované. Kliknutím na odkaz //Upravit a vyhledat// vložíme dříve specifikované zadání do dotazovacího formuláře a dotaz můžeme buď beze změny ihned vyhodnotit, nebo jej dále modifikovat (např. změnit korpus, na němž bude vyhodnocen, typ dotazu nebo specifikovat jeho kontext). Kliknutí na volbu //Archivovat// umožňuje dotaz pojmenovat a trvale jej uložit do archivu položených dotazů.+Položka zobrazí přehled posledních kladených dotazů (zkrácený seznam dříve kladených dotazů je přístupný i přímo z dotazovacího formuláře prostřednictvím odkazu nad vstupním řádkem). Tyto dotazy lze filtrovat podle aktuálně používaného korpusu či podle typu dotazu a také lze zobrazit pouze dotazy archivované. Kliknutím na odkaz **Upravit a vyhledat** vložíme dříve specifikované zadání do dotazovacího formuláře a dotaz můžeme buď beze změny ihned vyhodnotit, nebo jej dále modifikovat (např. změnit korpus, na němž bude vyhodnocen, typ dotazu nebo specifikovat jeho kontext). Kliknutí na volbu **Archivovat** umožňuje dotaz pojmenovat a trvale jej uložit do archivu položených dotazů.
  
 ====== Seznam slov ====== ====== Seznam slov ======
Řádek 77: Řádek 80:
 Základním výstupem jakéhokoli dotazu je [[pojmy:​konkordance|konkordance]],​ tj. seznam všech výskytů ([[pojmy:​token|tokenů]]) odpovídajících dotazu spolu s jejich textovým okolím. Funkce **Seznam slov** naproti tomu vyhodnocuje dotaz tak, že výsledkem je seznam různých slov ([[pojmy:​typ|typů]]),​ které dotazu odpovídají,​ spolu s jejich absolutní [[pojmy:​frekvence|frekvencí]],​ [[pojmy:​arf|ARF]] nebo počtem dokumentů, v němž se hledaný jev vyskytuje. Funkce Seznam slov je tak analogická [[manualy:​kontext:​frekvencni_distribuce|frekvenční distribuci]],​ její výhodou je však rychlost a výpočetní nenáročnost,​ protože mezikrok přes konkordanci není u Seznamu slov potřeba. Základním výstupem jakéhokoli dotazu je [[pojmy:​konkordance|konkordance]],​ tj. seznam všech výskytů ([[pojmy:​token|tokenů]]) odpovídajících dotazu spolu s jejich textovým okolím. Funkce **Seznam slov** naproti tomu vyhodnocuje dotaz tak, že výsledkem je seznam různých slov ([[pojmy:​typ|typů]]),​ které dotazu odpovídají,​ spolu s jejich absolutní [[pojmy:​frekvence|frekvencí]],​ [[pojmy:​arf|ARF]] nebo počtem dokumentů, v němž se hledaný jev vyskytuje. Funkce Seznam slov je tak analogická [[manualy:​kontext:​frekvencni_distribuce|frekvenční distribuci]],​ její výhodou je však rychlost a výpočetní nenáročnost,​ protože mezikrok přes konkordanci není u Seznamu slov potřeba.
  
-[{{ :​manualy:​kontext:​seznam_slov_slovesa.png?​direct&​300|Formulář pro vytváření seznamu slov FIXME}}]+[{{ :​manualy:​kontext:​seznam_slov_slovesa.png?​direct&​300|Formulář pro vytváření seznamu slov }}]
  
 Ve formuláři je možné nastavit různé parametry hledání: Ve formuláři je možné nastavit různé parametry hledání:
Řádek 84: Řádek 87:
   * regulární výraz, kterému mají výsledná slova odpovídat (není-li zadán, seznam bude obsahovat všechny položky v korpusu, pokud odpovídají ostatním specifikacím ve formuláři)   * regulární výraz, kterému mají výsledná slova odpovídat (není-li zadán, seznam bude obsahovat všechny položky v korpusu, pokud odpovídají ostatním specifikacím ve formuláři)
   * minimální frekvence   * minimální frekvence
-  * whitelist ​-- seznam ​předvybraných slov (v samostatném souboru), která ve výsledném seznamu chceme vidět +  * výrazy pro pozitivní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání,​ nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem ​předvybraných slov, která ve výsledném seznamu chceme vidět ​(tzv. whitelist) 
-  * blacklist ​-- seznam ​předvybraných slov (v samostatném souboru), která z výsledného seznamu chceme vyloučit +  * výrazy pro negativní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání,​ nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem ​předvybraných slov, která z výsledného seznamu chceme vyloučit ​(tzv. blacklist) 
-  * volba "Včetně číslic a interpunkce", která ​rozšiřuje hledání i na slova, která nejsou složena pouze z alfabetických znaků+  * včetně číslic a interpunkce ​-- volba rozšiřující ​hledání i na slova, která nejsou složena pouze z alfabetických znaků 
 + 
 +Mezi nastaveními druhu výstupu najdeme kromě volby mezi absolutní [[pojmy:​frekvence|frekvencí]],​ [[pojmy:​arf|ARF]] a počtem dokumentů také volbu konkrétního výstupního atributu či atributů. Tyto atributy přitom **nemusejí** být shodné s pozičním atributem zvoleným v horní části formuláře,​ na který jsou aplikovány všechny výše uvedené filtry. To umožňuje vytvořit např. frekvenční seznam všech sloves tak, že v horní části zadáme atribut [[pojmy:​tag|tag]],​ na něj podmínku na sloveso jako [[seznamy:​tagy#​pozice_1_-_slovni_druh|V.*]],​ a zvolíme typ výstupu [[pojmy:​lemma|lemma]] -- příklad takového zadání ukazuje obrázek. 
 + 
 +<WRAP round important 65%> 
 +Pokud je specifikace seznamu slov obecná a/nebo zvolený korpus rozsáhlý, může vyhodnocení této funkce trvat i několik minut. 
 +</​WRAP>​
  
-Mezi nastaveními druhu výstupu najdeme kromě volby mezi absolutní [[pojmy:​frekvence|frekvencí]],​ [[pojmy:​arf|ARF]] a počtem dokumentů také volbu konkrétního výstupního atributu či atributů. Tyto atributy přitom **nemusejí** být shodné s pozičním atributem zvoleným v horní části formuláře,​ na který jsou aplikovány všechny výše uvedené filtry. To umožňuje vytvořit např. frekvenční seznam všech sloves tak, že v horní části zadáme atribut [[pojmy:​tag|tag]],​ na něj podmínku na sloveso jako [[seznamy:​tagy#​pozice_1_-_slovni_druh|V.*]] a nakonec jen "​přepneme"​ typ výstupu na [[pojmy:​lemma|lemma]] -- příklad takového zadání ukazuje obrázek. 
  
 ---- ----
  
 <WRAP center round box 48%> <WRAP center round box 48%>
-**[[manualy:​kontext:​index|Menu]]**:​ [[manualy:​kontext:​novy_dotaz|Dotaz]] • [[manualy:​kontext:​subkorpus|Korpusy]] • [[manualy:​kontext:​ulozit|Uložit]] • [[manualy:​kontext:​konkordance|Konkordance]] • [[manualy:​kontext:​filtr|Filtr]] • [[manualy:​kontext:​frekvencni_distribuce|Frekvence]] • [[[[manualy:​kontext:​kolokace|Kolokace]] • [[moznosti_zobrazeni|Zobrazení]] • [[manualy:​kontext:​napoveda|Nápověda]]+**[[manualy:​kontext:​index|Menu]]**:​ [[manualy:​kontext:​novy_dotaz|Dotaz]] • [[manualy:​kontext:​korpusy|Korpusy]] • [[manualy:​kontext:​ulozit|Uložit]] • [[manualy:​kontext:​konkordance|Konkordance]] • [[manualy:​kontext:​filtr|Filtr]] • [[manualy:​kontext:​frekvence|Frekvence]] • [[[[manualy:​kontext:​kolokace|Kolokace]] • [[zobrazeni|Zobrazení]] • [[manualy:​kontext:​napoveda|Nápověda]]
 </​WRAP>​ </​WRAP>​