Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
manualy:kontext:novy_dotaz [2018/08/03 13:30]
Michal Škrabal [Typ dotazu]
manualy:kontext:novy_dotaz [2018/12/05 11:42] (aktuální)
Jan Kocek
Řádek 1: Řádek 1:
 ====== Menu: Dotaz ====== ====== Menu: Dotaz ======
  
-[{{:​manualy:​kontext:​novy_dotaz.png?​direct&​300 |Formulář pro vytváření dotazu ​FIXME}}]+[{{:​manualy:​kontext:​novy_dotaz.png?​direct&​300 |Formulář pro vytváření dotazu }}]
  
 Pomocí volby **Dotaz → Zadat nový dotaz** je možné kdykoli začít nové hledání v korpusech. Kliknutím na tuto volbu předchozí vyhledaný dotaz, případně výsledky na něm vytvořené,​ opustíme a začínáme s novým hledáním. Následující text se zabývá především pokládáním dotazu do jednojazyčných korpusů, specifika zadávání dotazů do paralelního korpusu [[cnk:​intercorp|InterCorp]] popisuje podrobněji [[kurz:​hledani_v_paralelnim_korpusu#​paralelni_korpusy_v_rozhrani_kontext|bonusová lekce]] základního kurzu práce s ČNK. Pomocí volby **Dotaz → Zadat nový dotaz** je možné kdykoli začít nové hledání v korpusech. Kliknutím na tuto volbu předchozí vyhledaný dotaz, případně výsledky na něm vytvořené,​ opustíme a začínáme s novým hledáním. Následující text se zabývá především pokládáním dotazu do jednojazyčných korpusů, specifika zadávání dotazů do paralelního korpusu [[cnk:​intercorp|InterCorp]] popisuje podrobněji [[kurz:​hledani_v_paralelnim_korpusu#​paralelni_korpusy_v_rozhrani_kontext|bonusová lekce]] základního kurzu práce s ČNK.
Řádek 32: Řádek 32:
 ^ Část slova | pro vyhledání řetězce znaků kdekoli ve slově | Vyhledá po sobě následující znaky v rámci jednoho slova. | RE, case-sensitive | ''​pra''​ > //praděda, praxe, doprava, lepra…//​\\ ''​křá''​ > //​pookřát,​ křáp, Jiskřákovi…//​ | ^ Část slova | pro vyhledání řetězce znaků kdekoli ve slově | Vyhledá po sobě následující znaky v rámci jednoho slova. | RE, case-sensitive | ''​pra''​ > //praděda, praxe, doprava, lepra…//​\\ ''​křá''​ > //​pookřát,​ křáp, Jiskřákovi…//​ |
 ^ CQL | pro vyhledání všeho, co lze pomocí korpusového manažeru vyhledat | CQL je [[pojmy:​dotazovaci_jazyk|Corpus Query Language]], korpusový dotazovací jazyk (do něhož si rozhraní KonText samo interně převádí všechny předchozí typy dotazů). | RE, case-sensitive,​ [[pojmy:​dotazovaci_jazyk|CQL]] syntax | ''​[lemma=<​nowiki>"</​nowiki>​kočka<​nowiki>"</​nowiki>​]''​ > //kočka, kočku, koček, kočkám…//​\\ ''​[word=<​nowiki>"</​nowiki>​černá<​nowiki>"</​nowiki>​]''​ > //​černá//​\\ ​ ''​[lemma=<​nowiki>"</​nowiki>​číst<​nowiki>"</​nowiki>​][tag=<​nowiki>"</​nowiki>​N.*<​nowiki>"</​nowiki>​]''​ > //číst levity, četli článek, nečtete noviny…// | ^ CQL | pro vyhledání všeho, co lze pomocí korpusového manažeru vyhledat | CQL je [[pojmy:​dotazovaci_jazyk|Corpus Query Language]], korpusový dotazovací jazyk (do něhož si rozhraní KonText samo interně převádí všechny předchozí typy dotazů). | RE, case-sensitive,​ [[pojmy:​dotazovaci_jazyk|CQL]] syntax | ''​[lemma=<​nowiki>"</​nowiki>​kočka<​nowiki>"</​nowiki>​]''​ > //kočka, kočku, koček, kočkám…//​\\ ''​[word=<​nowiki>"</​nowiki>​černá<​nowiki>"</​nowiki>​]''​ > //​černá//​\\ ​ ''​[lemma=<​nowiki>"</​nowiki>​číst<​nowiki>"</​nowiki>​][tag=<​nowiki>"</​nowiki>​N.*<​nowiki>"</​nowiki>​]''​ > //číst levity, četli článek, nečtete noviny…// |
 +
 +<WRAP round info 70%>
 +Při zadávání CQL dotazu KonText automaticky kontroluje a zvýrazňuje syntax dotazu. V případě, že dotaz není validní, KonText na to uživatele upozorní a umožní mu dotaz před vyhodnocením opravit. Vzhledem k širokým možnostem CQL dotazování však není kontrola správnosti dotazu vždy přesná, a proto je možné, že se varování objeví i v případě validního dotazu.
 +</​WRAP>​
  
  
Řádek 41: Řádek 45:
   - Zcela specifický je způsob kladení dotazu při [[kurz:​hledani_v_paralelnim_korpusu|vyhledávání v korpusech paralelních]].   - Zcela specifický je způsob kladení dotazu při [[kurz:​hledani_v_paralelnim_korpusu|vyhledávání v korpusech paralelních]].
  
-Každý dotaz je možné dále specifikovat na základě kontextu, v kterém ​se hledaný výraz nachází, a dokumentů, v kterých se v rámci korpusu má hledat.+Každý dotaz je možné dále specifikovat na základě kontextu, v němž ​se hledaný výraz nachází, a dokumentů, v kterých se v rámci korpusu má hledat.
  
 V momentě, kdy je dotaz zadán, je možné spustit vyhledávání buď kliknutím na tlačítko **Hledat**, nebo stisknutím klávesy Enter, pokud je kurzor umístěn v zadávacím řádku. V momentě, kdy je dotaz zadán, je možné spustit vyhledávání buď kliknutím na tlačítko **Hledat**, nebo stisknutím klávesy Enter, pokud je kurzor umístěn v zadávacím řádku.
- 
  
  
 ===== Specifikovat kontext ===== ===== Specifikovat kontext =====
  
-[{{:​manualy:​kontext:​hledani_kontext.png?​direct&​300 |Formulář pro hledání v kontextu ​FIXME}}]+[{{:​manualy:​kontext:​hledani_kontext.png?​direct&​300 |Formulář pro hledání v kontextu }}]
  
-Každý dotaz je možné dále specifikovat s ohledem na kontext (textové okolí), v němž se hledané slovo nebo fráze ​nachází. Ke specifikaci slouží kontextová nabídka, která se nachází ve spodní části dotazovacího formuláře (v základním nastavení je skryta, je třeba ji aktivovat kliknutím).+Každý dotaz je možné dále specifikovat s ohledem na kontext (textové okolí), v němž se hledané slovo nebo fráze ​vyskytuje. Ke specifikaci slouží kontextová nabídka, která se nachází ve spodní části dotazovacího formuláře (v základním nastavení je skryta, je třeba ji aktivovat kliknutím).
  
 Ve své podstatě je hledání v kontextu dodatečným [[manualy:​kontext:​filtr|filtrováním]] základní konkordance,​ která je specifikována dotazem v hlavní části formuláře. Uživatel má možnost nastavit rozsah kontextu, na nějž bude dodatečná filtrovací podmínka aplikována,​ typ dotazu, případně i slovní druh. Ve své podstatě je hledání v kontextu dodatečným [[manualy:​kontext:​filtr|filtrováním]] základní konkordance,​ která je specifikována dotazem v hlavní části formuláře. Uživatel má možnost nastavit rozsah kontextu, na nějž bude dodatečná filtrovací podmínka aplikována,​ typ dotazu, případně i slovní druh.
  
-Obecně je možné říct, že libovolné hledání v kontextu ​je možné ​převést na běžné hledání a následné filtrování (pomocí pozitivního nebo negativního filtru). Libovolné filtrování je ale také možné uskutečnit pomocí [[pojmy:​dotazovaci_jazyk|dotazovacího jazyka]] a provést totožnou operaci pouze v jednom ​kroku. Platí tedy, že vždy vede vícero cest k jednomu výsledku a záleží plně na uživateli, kterou možnost považuje za nejpohodlnější.+Obecně je možné říci, že libovolné hledání v kontextu ​lze převést na běžné hledání a následné filtrování (pomocí pozitivního nebo negativního filtru). Libovolné filtrování je ale také možné uskutečnit pomocí [[pojmy:​dotazovaci_jazyk|dotazovacího jazyka]] a provést totožnou operaci pouze v rámci jednoho ​kroku. Platí tedy, že vždy vede vícero cest k jednomu výsledku a záleží plně na uživateli, kterou možnost považuje za nejpohodlnější.
 ===== Omezit hledání ===== ===== Omezit hledání =====
  
-[{{ :​manualy:​kontext:​hledani_subkorpus.png?​direct&​300|Formulář pro hledání v ad hoc vytvořeném subkorpusu ​FIXME}}]+[{{ :​manualy:​kontext:​hledani_subkorpus.png?​direct&​300|Formulář pro hledání v ad hoc vytvořeném subkorpusu }}]
  
-Potřebujeme-li hledat jen v úzce vymezené skupině textů z celého korpusu, máme dvě možnosti. Buď vytvoříme vlastní virtuální [[manualy:​kontext:​subkorpus]],​ který bude pak možné vybrat v rámci nabídky korpusů, nebo dotaz omezíme nějakými podmínkami (typicky pomocí příkazu [[pojmy:​within|within]]). První možnost volíme zpravidla v situacích, kdy víme, že subkorpus budeme potřebovat delší dobu, nebo když je jeho specifikace složitá. Druhou možnost pak užíváme při ad hoc hledání v rámci nějakých jasně daných kategorií textů, které jsou specifikovány základními [[pojmy:​atributy_strukturni|strukturními atributy]].+Potřebujeme-li hledat jen v úzce vymezené skupině textů z celého korpusu, máme dvě možnosti. Buď vytvoříme vlastní virtuální [[manualy:​kontext:​korpusy|subkorpus]],​ který bude pak možné vybrat v rámci nabídky korpusů, nebo dotaz omezíme nějakými podmínkami (typicky pomocí příkazu [[pojmy:​within|within]]). První možnost volíme zpravidla v situacích, kdy víme, že subkorpus budeme potřebovat delší dobu, nebo když je jeho specifikace složitá. Druhou možnost pak užíváme při ad hoc hledání v rámci nějakých jasně daných kategorií textů, které jsou specifikovány základními [[pojmy:​atributy_strukturni|strukturními atributy]].
  
-Formulář nového dotazu poskytuje zjednodušení ve formě dodatečného formuláře ​//Omezit hledání//, který je umístěn pod kontextovým hledáním a aktivuje se podobně jako (výše popsaná) specifikace kontextu kliknutím.+Formulář nového dotazu poskytuje zjednodušení ve formě dodatečného formuláře ​**Omezit hledání**, který je umístěn pod kontextovým hledáním a aktivuje se podobně jako (výše popsaná) specifikace kontextu kliknutím.
  
-V rámci tohoto formuláře je možné zaškrtnout ty hodnoty vybraných strukturních atributů, které nás zajímají. Formulář neobsahuje všechny strukturní atributy, pouze ty nejpoužívanější v daném korpusu (např. při hledání v [[cnk:syn2010|SYN2010]] jsou to [[pojmy:​txtype_group|txtype_group]],​ [[pojmy:​txtype|txtype]],​ [[pojmy:​genre|genre]], [[pojmy:​medium|med]], [[pojmy:​srclang|srclang]]). Použité zkratky je možné dohledat v příslušné sekci [[seznamy:​index|seznamů]].+V rámci tohoto formuláře je možné zaškrtnout ty hodnoty vybraných strukturních atributů, které nás zajímají. Formulář neobsahuje všechny strukturní atributy, pouze ty nejpoužívanější v daném korpusu (např. při hledání v [[cnk:syn2015|SYN2015]] jsou to [[pojmy:​txtype_group|txtype_group]],​ [[pojmy:​txtype|txtype]],​ [[pojmy:​genre|genre]],​ [[pojmy:​srclang|srclang]]). Použité zkratky je možné dohledat v příslušné sekci [[seznamy:​index|seznamů]].
  
-posledním sloupci ​se objevuje seznam konkrétních [[pojmy:​opus|opusů]] nebo [[pojmy:​doc|dokumentů]] ​(v závislosti na zvoleném korpusu), které odpovídají specifikované podmínce. ​Pokud by takový seznam byl příliš dlouhý, je v daném sloupci uveden pouze počet položek. ​V případě, že si z nabídky zvolíme nějaké kategorie, můžeme si zobrazit soupis textů, které takovéto podmínce odpovídají,​ pomocí tlačítka **žit výběr**. Sloupec se seznamem textů se přepočítá podle aktuálně zaškrtnutých kritérií. Takto můžeme pokračovat do té doby, než budeme spokojeni s vymezením dat, která k hledání chceme použít.+jednom ze sloupců ​se objevuje seznam konkrétních ​textů ([[pojmy:​opus|opusů]] nebo [[pojmy:​doc|dokumentů]]),​ které odpovídají specifikované podmínce. ​ V případě, že si z nabídky zvolíme nějaké kategorie, můžeme si zobrazit soupis textů, které takovéto podmínce odpovídají,​ pomocí tlačítka **žit výběr** ​(pokud odpovídající seznam textů není příliš dlouhý). Sloupec se seznamem textů se přepočítá podle aktuálně zaškrtnutých kritérií. Takto můžeme pokračovat do té doby, než budeme spokojeni s vymezením dat, která k hledání chceme použít.
  
 Pro podrobnější specifikaci je třeba buď použít podmínku [[pojmy:​within|within]] v rámci [[kurz:​pokrocile_dotazy#​dotazovaci_jazyk|CQL]] dotazu, nebo vytvořit nový virtuální [[pojmy:​subkorpus|subkorpus]]. Pro podrobnější specifikaci je třeba buď použít podmínku [[pojmy:​within|within]] v rámci [[kurz:​pokrocile_dotazy#​dotazovaci_jazyk|CQL]] dotazu, nebo vytvořit nový virtuální [[pojmy:​subkorpus|subkorpus]].
 ====== Předchozí dotazy ====== ====== Předchozí dotazy ======
  
-Položka zobrazí přehled posledních kladených dotazů (zkrácený seznam dříve kladených dotazů je přístupný i přímo z dotazovacího formuláře prostřednictvím odkazu nad vstupním řádkem). Tyto dotazy lze filtrovat podle aktuálně používaného korpusu či podle typu dotazu a také lze zobrazit pouze dotazy archivované. Kliknutím na odkaz //Upravit a vyhledat// vložíme dříve specifikované zadání do dotazovacího formuláře a dotaz můžeme buď beze změny ihned vyhodnotit, nebo jej dále modifikovat (např. změnit korpus, na němž bude vyhodnocen, typ dotazu nebo specifikovat jeho kontext). Kliknutí na volbu //Archivovat// umožňuje dotaz pojmenovat a trvale jej uložit do archivu položených dotazů.+Položka zobrazí přehled posledních kladených dotazů (zkrácený seznam dříve kladených dotazů je přístupný i přímo z dotazovacího formuláře prostřednictvím odkazu nad vstupním řádkem). Tyto dotazy lze filtrovat podle aktuálně používaného korpusu či podle typu dotazu a také lze zobrazit pouze dotazy archivované. Kliknutím na odkaz **Upravit a vyhledat** vložíme dříve specifikované zadání do dotazovacího formuláře a dotaz můžeme buď beze změny ihned vyhodnotit, nebo jej dále modifikovat (např. změnit korpus, na němž bude vyhodnocen, typ dotazu nebo specifikovat jeho kontext). Kliknutí na volbu **Archivovat** umožňuje dotaz pojmenovat a trvale jej uložit do archivu položených dotazů.
  
 ====== Seznam slov ====== ====== Seznam slov ======
Řádek 77: Řádek 80:
 Základním výstupem jakéhokoli dotazu je [[pojmy:​konkordance|konkordance]],​ tj. seznam všech výskytů ([[pojmy:​token|tokenů]]) odpovídajících dotazu spolu s jejich textovým okolím. Funkce **Seznam slov** naproti tomu vyhodnocuje dotaz tak, že výsledkem je seznam různých slov ([[pojmy:​typ|typů]]),​ které dotazu odpovídají,​ spolu s jejich absolutní [[pojmy:​frekvence|frekvencí]],​ [[pojmy:​arf|ARF]] nebo počtem dokumentů, v němž se hledaný jev vyskytuje. Funkce Seznam slov je tak analogická [[manualy:​kontext:​frekvencni_distribuce|frekvenční distribuci]],​ její výhodou je však rychlost a výpočetní nenáročnost,​ protože mezikrok přes konkordanci není u Seznamu slov potřeba. Základním výstupem jakéhokoli dotazu je [[pojmy:​konkordance|konkordance]],​ tj. seznam všech výskytů ([[pojmy:​token|tokenů]]) odpovídajících dotazu spolu s jejich textovým okolím. Funkce **Seznam slov** naproti tomu vyhodnocuje dotaz tak, že výsledkem je seznam různých slov ([[pojmy:​typ|typů]]),​ které dotazu odpovídají,​ spolu s jejich absolutní [[pojmy:​frekvence|frekvencí]],​ [[pojmy:​arf|ARF]] nebo počtem dokumentů, v němž se hledaný jev vyskytuje. Funkce Seznam slov je tak analogická [[manualy:​kontext:​frekvencni_distribuce|frekvenční distribuci]],​ její výhodou je však rychlost a výpočetní nenáročnost,​ protože mezikrok přes konkordanci není u Seznamu slov potřeba.
  
-[{{ :​manualy:​kontext:​seznam_slov_slovesa.png?​direct&​300|Formulář pro vytváření seznamu slov FIXME}}]+[{{ :​manualy:​kontext:​seznam_slov_slovesa.png?​direct&​300|Formulář pro vytváření seznamu slov }}]
  
 Ve formuláři je možné nastavit různé parametry hledání: Ve formuláři je možné nastavit různé parametry hledání:
Řádek 84: Řádek 87:
   * regulární výraz, kterému mají výsledná slova odpovídat (není-li zadán, seznam bude obsahovat všechny položky v korpusu, pokud odpovídají ostatním specifikacím ve formuláři)   * regulární výraz, kterému mají výsledná slova odpovídat (není-li zadán, seznam bude obsahovat všechny položky v korpusu, pokud odpovídají ostatním specifikacím ve formuláři)
   * minimální frekvence   * minimální frekvence
-  * whitelist ​-- seznam ​předvybraných slov (v samostatném souboru), která ve výsledném seznamu chceme vidět +  * výrazy pro pozitivní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání,​ nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem ​předvybraných slov, která ve výsledném seznamu chceme vidět ​(tzv. whitelist) 
-  * blacklist ​-- seznam ​předvybraných slov (v samostatném souboru), která z výsledného seznamu chceme vyloučit +  * výrazy pro negativní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání,​ nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem ​předvybraných slov, která z výsledného seznamu chceme vyloučit ​(tzv. blacklist) 
-  * volba "Včetně číslic a interpunkce", která ​rozšiřuje hledání i na slova, která nejsou složena pouze z alfabetických znaků+  * včetně číslic a interpunkce ​-- volba rozšiřující ​hledání i na slova, která nejsou složena pouze z alfabetických znaků 
 + 
 +Mezi nastaveními druhu výstupu najdeme kromě volby mezi absolutní [[pojmy:​frekvence|frekvencí]],​ [[pojmy:​arf|ARF]] a počtem dokumentů také volbu konkrétního výstupního atributu či atributů. Tyto atributy přitom **nemusejí** být shodné s pozičním atributem zvoleným v horní části formuláře,​ na který jsou aplikovány všechny výše uvedené filtry. To umožňuje vytvořit např. frekvenční seznam všech sloves tak, že v horní části zadáme atribut [[pojmy:​tag|tag]],​ na něj podmínku na sloveso jako [[seznamy:​tagy#​pozice_1_-_slovni_druh|V.*]],​ a zvolíme typ výstupu [[pojmy:​lemma|lemma]] -- příklad takového zadání ukazuje obrázek. 
 + 
 +<WRAP round important 65%> 
 +Pokud je specifikace seznamu slov obecná a/nebo zvolený korpus rozsáhlý, může vyhodnocení této funkce trvat i několik minut. 
 +</​WRAP>​
  
-Mezi nastaveními druhu výstupu najdeme kromě volby mezi absolutní [[pojmy:​frekvence|frekvencí]],​ [[pojmy:​arf|ARF]] a počtem dokumentů také volbu konkrétního výstupního atributu či atributů. Tyto atributy přitom **nemusejí** být shodné s pozičním atributem zvoleným v horní části formuláře,​ na který jsou aplikovány všechny výše uvedené filtry. To umožňuje vytvořit např. frekvenční seznam všech sloves tak, že v horní části zadáme atribut [[pojmy:​tag|tag]],​ na něj podmínku na sloveso jako [[seznamy:​tagy#​pozice_1_-_slovni_druh|V.*]] a nakonec jen "​přepneme"​ typ výstupu na [[pojmy:​lemma|lemma]] -- příklad takového zadání ukazuje obrázek. 
  
 ---- ----
  
 <WRAP center round box 48%> <WRAP center round box 48%>
-**[[manualy:​kontext:​index|Menu]]**:​ [[manualy:​kontext:​novy_dotaz|Dotaz]] • [[manualy:​kontext:​subkorpus|Korpusy]] • [[manualy:​kontext:​ulozit|Uložit]] • [[manualy:​kontext:​konkordance|Konkordance]] • [[manualy:​kontext:​filtr|Filtr]] • [[manualy:​kontext:​frekvencni_distribuce|Frekvence]] • [[[[manualy:​kontext:​kolokace|Kolokace]] • [[moznosti_zobrazeni|Zobrazení]] • [[manualy:​kontext:​napoveda|Nápověda]]+**[[manualy:​kontext:​index|Menu]]**:​ [[manualy:​kontext:​novy_dotaz|Dotaz]] • [[manualy:​kontext:​korpusy|Korpusy]] • [[manualy:​kontext:​ulozit|Uložit]] • [[manualy:​kontext:​konkordance|Konkordance]] • [[manualy:​kontext:​filtr|Filtr]] • [[manualy:​kontext:​frekvence|Frekvence]] • [[[[manualy:​kontext:​kolokace|Kolokace]] • [[zobrazeni|Zobrazení]] • [[manualy:​kontext:​napoveda|Nápověda]]
 </​WRAP>​ </​WRAP>​