AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
manualy:kontext:novy_dotaz [2018/08/03 13:50] – [Seznam slov] Václav Cvrčekmanualy:kontext:novy_dotaz [2024/02/12 15:48] (aktuální) Jan Kocek
Řádek 1: Řádek 1:
 ====== Menu: Dotaz ====== ====== Menu: Dotaz ======
  
-[{{:manualy:kontext:novy_dotaz.png?direct&300 |Formulář pro vytváření dotazu FIXME}}]+Základním způsobem dotazování v korpusu je dotaz syntagmatický, jehož výsledkem je [[pojmy:konkordance|konkordance]], tjseznam všech výskytů ([[pojmy:token|tokenů]]) odpovídajících dotazu spolu s jejich textovým okolím. Spouští se pomocí volby **Dotaz → Konkordance**.
  
-Pomocí volby **Dotaz → Zadat nový dotaz** je možné kdykoli začít nové hledání v korpusech. Kliknutím na tuto volbu předchozí vyhledaný dotazpřípadně výsledky na m vytvořené, opustíme a začínáme s novým hledáním. Následující text se zabývá edevším pokládáním dotazu do jednojazyčných korpusů, specifika zadávání dotazů do paralelního korpusu [[cnk:intercorp|InterCorp]] popisuje podrobněji [[kurz:hledani_v_paralelnim_korpusu#paralelni_korpusy_v_rozhrani_kontext|bonusová lekce]] základního kurzu práce s ČNK.+Rozšířením dotazu syntagmatického je [[pojmy:paradigmaticky|hledání paradigmatické]]jež je vlastně kombinací kolika dílčích syntagmatických dotazů a ináší průnik jejich frekvenčních distribucí. Výsledkem paradigmatického dotazování je tak množina [[pojmy:typ|typů]], které odpovídají //všem// jednotlivým syntagmatickým dotazům. Spouští se pomocí volby **Dotaz → Paradigmatický dotaz**.
  
-Po kliknutí na položku **Zadat nový dotaz** se uživateli zobrazí základní menu pro dotazování. V rámci tohoto formuláře je možné zvolit korpusv němž se bude vyhledávat[[kurz:prvni_dotaz#typy_dotazu|typ dotazu]], který bude použit. Samotný dotaz je vkládán do vstupního řádku. Součástí formuláře je i interaktivní **mezinárodní klávesnice** pro zápis speciálních znaků (zejména pro vyhledávání v nečeských textech a pro vkládání speciálních znaků dotazovacího jazyka [[pojmy:cql|CQL]])Dříve položené dotazy je možné vyvolat jednak přímo v menu, jednak pomocí odkazu **Předchozí dotazy** nad dotazovacím řádkem.+Další rozšiřující funkce umožňuje vytvořit seznam různých slov (typů)které dotazu odpovídajíspolu s jejich absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] nebo počtem dokumentů, v němž se hledaný jev vyskytujeSpouští se pomocí volby **Dotaz → Seznam slov**.
  
-===== Volba korpusu ===== 
  
-Volba [[pojmy:korpus|korpusu]] vhodného pro řešení dané výzkumné otázky je důležité rozhodnutí, které je nutné učinit ještě před samotným započetím výzkumu. [[cnk:uvod|Spektrum korpusů]] dostupných v projektu ČNK se neustále rozšiřuje, bylo proto nutné způsob výběru korpusu v rozhraní KonText přizpůsobit jejich rostoucímu počtu.+ 
 +===== Konkordance ===== 
 + 
 +[{{:manualy:kontext:novy_dotaz.png?direct&350 |Formulář pro vytváření dotazu}}] 
 + 
 +Pomocí volby **Dotaz → Konkordance** je možné kdykoli začít nové hledání v korpusech. Kliknutím na tuto volbu opustíme předchozí vyhledaný dotaz, případně výsledky na něm vytvořené, a začínáme s novým hledáním. Následující text se zabývá především pokládáním dotazu do jednojazyčných korpusů, specifika zadávání dotazů do paralelního korpusu [[cnk:intercorp|InterCorp]] popisuje podrobněji [[kurz:hledani_v_paralelnim_korpusu#paralelni_korpusy_v_rozhrani_kontext|bonusová lekce]] základního kurzu práce s ČNK. 
 + 
 +Po kliknutí na položku **Konkordance** se uživateli zobrazí základní menu pro dotazování. V rámci tohoto formuláře je možné zvolit korpus, v němž se bude vyhledávat, a ve vstupním řádku pod ním zadat dotaz. Pomocí přepínače lze aktivovat funkci Pokročilý dotaz, která pracuje s dotazovacím jazykem [[pojmy:cql|CQL]]. Součástí formuláře je i interaktivní mezinárodní **klávesnice** pro zápis speciálních znaků (zejména pro vyhledávání v nečeských textech a pro vkládání speciálních znaků jazyka CQL). Dříve položené dotazy je možné vyvolat jednak přímo v menu, jednak pomocí odkazu **Předchozí dotazy** nad dotazovacím řádkem. Poslední položkou v liště nad řádkem je **Interpretace dotazu**, kde uživatel zjistí, jak bude jeho dotaz vyhodnocen (de facto přeložen do CQL) a zda je tato interpretace v souladu s jeho záměrem. Tato funkce ztrácí smysl při přepnutí do režimu **pokročilého dotazu**, místo ní je však možné přímo vkládat interaktivně generované [[pojmy:tag|morfologické značky]] (u korpusů, které jsou takto značkovány) či podmínky specifikující texty, v nichž se má hledat (podmínka [[pojmy:within]]) -- viz položky **Vložit tag** a **Vložit within**. 
 + 
 +==== Volba korpusu ==== 
 + 
 +Volba [[pojmy:korpus|korpusu]] vhodného pro řešení dané výzkumné otázky je důležité rozhodnutí, které je nutné učinit ještě před samotným započetím výzkumu. [[cnk:uvod|Spektrum korpusů]] dostupných v projektu ČNK se neustále rozšiřuje, způsob výběru korpusu v rozhraní KonText proto kombinuje rychlý ístup k personalizovanému výběru (oblíbeným korpusům) spolu s výběrem pomocí tzv. štítků, které charakterizují jejich hlavní vlastnosti.
  
 [{{ :manualy:kontext:komponenta-vyber-korpusu.png?direct&350|Výběr korpusů: vlajkové a oblíbené korpusy }}] [{{ :manualy:kontext:komponenta-vyber-korpusu.png?direct&350|Výběr korpusů: vlajkové a oblíbené korpusy }}]
  
-Po kliknutí na jméno korpusu (ve výchozím nastavení je jím vždy aktuální reprezentativní korpus synchronní psané češtiny, v současnosti [[cnk:syn2015|SYN2015]]) se objeví rámeček pro výběr pracovního korpusu, který má dvě hlavní části:+Po kliknutí na jméno korpusu (ve výchozím nastavení je jím vždy aktuální reprezentativní korpus synchronní psané češtiny, v současnosti [[cnk:syn2020|SYN2020]]) se objeví rámeček pro výběr pracovního korpusu, který má dvě hlavní části:
  
     - **Můj seznam** se zrychlenou volbou korpusů na jedno kliknutí. Tato zrychlená volba obsahuje jednak **//oblíbené korpusy//**, jejichž výběr je plně na uživateli, a dále tzv. **//vlajkové korpusy//**: přednastavený seznam několika korpusů, které ČNK považuje za reprezentanty jednotlivých oblastí své produkce. Jejich soustředění do jednoho místa pak usnadňuje volbu korpusu zejména uživatelům, kteří s ČNK pracovat teprve začínají. Oblíbené korpusy je možné zvolit buď na stránce se všemi [[manualy:kontext:subkorpus?&#dostupne_korpusy|dostupnými korpusy]], nebo při práci s nimi v okamžiku zadávání dotazu (takové korpusy jsou signalizovány žlutou hvězdičkou).     - **Můj seznam** se zrychlenou volbou korpusů na jedno kliknutí. Tato zrychlená volba obsahuje jednak **//oblíbené korpusy//**, jejichž výběr je plně na uživateli, a dále tzv. **//vlajkové korpusy//**: přednastavený seznam několika korpusů, které ČNK považuje za reprezentanty jednotlivých oblastí své produkce. Jejich soustředění do jednoho místa pak usnadňuje volbu korpusu zejména uživatelům, kteří s ČNK pracovat teprve začínají. Oblíbené korpusy je možné zvolit buď na stránce se všemi [[manualy:kontext:subkorpus?&#dostupne_korpusy|dostupnými korpusy]], nebo při práci s nimi v okamžiku zadávání dotazu (takové korpusy jsou signalizovány žlutou hvězdičkou).
-    - **Všechny korpusy** s možností výběru na základě jména a tzv. **štítků**, které korpusy charakterizují (typický korpus má štítků několik, např. SYN2015: ''psaný'', ''synchronní'', ''čeština'', ''řada SYN'', ''reprezentativní''). Hledáte-li tedy například webový korpus češtiny, stačí zvolit štítky ''čeština'' + ''webový'' a objeví se všechny takové korpusy, které má ČNK v nabídce. Vyhledávání je možné zpřesňovat také zadáním části jména korpusu nebo jeho popisu do vyhledávacího řádku, výsledný seznam korpusů se přitom podle takto zadaných klíčových slov nebo jejich částí interaktivně filtruje. Je však třeba mít na paměti, že seznam z prostorových důvodů zobrazuje pouze prvních 25 položek; je-li seznam příliš dlouhý, je potřeba dotaz zpřesnit přidáním dalšího štítku nebo vyhledáním části jména korpusu. +    - **Všechny korpusy** s možností výběru na základě jména a tzv. **štítků**, které korpusy charakterizují (typický korpus má štítků několik, např. SYN2020: ''psaný'', ''synchronní'', ''čeština'', ''řada SYN'', ''reprezentativní''). Hledáte-li tedy například webový korpus češtiny, stačí zvolit štítky ''čeština'' + ''webový'' a objeví se všechny takové korpusy, které má ČNK v nabídce. Vyhledávání je možné zpřesňovat také zadáním části jména korpusu nebo jeho popisu do vyhledávacího řádku, výsledný seznam korpusů se přitom podle takto zadaných klíčových slov nebo jejich částí interaktivně filtruje. Je však třeba mít na paměti, že seznam z prostorových důvodů zobrazuje pouze prvních 25 položek; je-li seznam příliš dlouhý, je potřeba dotaz zpřesnit přidáním dalšího štítku nebo vyhledáním části jména korpusu. 
  
-<WRAP round tip 75%> 
 **Příklad**: Uživatel hledá v záložce **Všechny korpusy** současnou verzi anglické části paralelního korpusu [[cnk:intercorp|InterCorp]]. Zvolí nejprve štítky ''InterCorp'' a ''současná verze'' (pro výběr více štítků je třeba zároveň stisknout klávesu Ctrl/Command), v seznamu se objeví prvních 25 korpusů vyhovujících zadané podmínce, ačkoli InterCorp zahrnuje mnohem více jazyků. K nezobrazeným korpusům se lze dostat dalším filtrováním pomocí zadání části názvu či jazyka (pozor: názvy jednotlivých jazykových mutací korpusu InterCorp jsou anglicky!). Nalezený korpus lze kliknutím vybrat a začít v něm vyhledávat. Pomocí hvězdičky jej lze zároveň označit jako oblíbený; tím je tento korpus zařazen na seznam oblíbených korpusů a lze se k němu rychle a snadno dostat na jedno kliknutí. **Příklad**: Uživatel hledá v záložce **Všechny korpusy** současnou verzi anglické části paralelního korpusu [[cnk:intercorp|InterCorp]]. Zvolí nejprve štítky ''InterCorp'' a ''současná verze'' (pro výběr více štítků je třeba zároveň stisknout klávesu Ctrl/Command), v seznamu se objeví prvních 25 korpusů vyhovujících zadané podmínce, ačkoli InterCorp zahrnuje mnohem více jazyků. K nezobrazeným korpusům se lze dostat dalším filtrováním pomocí zadání části názvu či jazyka (pozor: názvy jednotlivých jazykových mutací korpusu InterCorp jsou anglicky!). Nalezený korpus lze kliknutím vybrat a začít v něm vyhledávat. Pomocí hvězdičky jej lze zároveň označit jako oblíbený; tím je tento korpus zařazen na seznam oblíbených korpusů a lze se k němu rychle a snadno dostat na jedno kliknutí.
 +
 +==== Typy dotazů ====
 +
 +Současná verze KonTextu rozlišuje pouze dva typy dotazu: **jednoduchý** a **pokročilý**.
 +
 +<WRAP round tip 70%>
 +Předchozí verze KonTextu pracovaly se 6 typy dotazů: //základní//, //lemma//, //fráze//, //slovní tvar//, //část slova// a //CQL//. Současný **//jednoduchý dotaz//** zahrnuje prvních pět typů, jejich funkcionality lze docílit změnami nastavení jednoduchého dotazu, např. výchozího atributu a/nebo použitím regulárních výrazů (viz dále). Současný **//pokročilý dotaz//** plně odpovídá předchozímu typu CQL.
 </WRAP> </WRAP>
  
-===== Typ dotazu =====+Výchozím nastavením je **jednoduchý dotaz**, v němž je dále implicitně nastaveno nerozlišování velikosti písmen (přepínač **Shoda velikosti písmen** je vypnutý), není povoleno použití regulárních výrazů (přepínač **Povolit regulární výrazy** je vypnutý) a vyhledávání je nastaveno podle **výchozího atributu** ''lemma|word'' (v nových synchronních korpusech počínaje SYN2020 ''lemma|sublemma|word''), čímž se vyhledá nejen uvedený tvar (podle atributu ''word''), ale i další tvary slova (podle atributů ''lemma'' nebo ''sublemma''), pokud je zadaný tvar zároveň lemmatem nebo sublemmatem (poznámka: oproti předchozím verzím KonTextu nejde o změnu, jen o zobecnění chování původního základního dotazu). Do vstupního řádku je možné kromě jednotlivých slov zadávat i celé fráze. Vyhledávání lze na jednotlivých pozicích upřesnit jednak pomocí našeptávače (zatím jen v nových synchronních korpusech, viz další oddíl), jednak změnou výchozího atributu (atribut je pak platný pro všechny pozice) a/nebo přepnutím shody velikosti písmen. Složitější dotazy je možné pokládat i v rámci jednoduchého dotazu, pokud uživatel využije volby Povolit regulární výrazy.
  
 +**Pokročilý dotaz** se aktivuje spínačem nad vstupním řádkem a plně odpovídá dotazu typu CQL předchozích verzí KonTextu. Při zadávání dotazovacího jazyka [[pojmy:cql|CQL]] KonText automaticky kontroluje a zvýrazňuje syntax dotazu. V případě, že dotaz není validní, KonText na to uživatele upozorní a umožní mu dotaz před vyhodnocením opravit. Vzhledem k širokým možnostem CQL dotazování však není kontrola správnosti dotazu vždy přesná, výjimečně se tak může stát, že se varování objeví i v případě validního dotazu.
  
-^ Typ dotazu ^ Nač je vhodný ^ Jak funguje ^ Co umí ^ Příklady ^ +Je-li zadán dotazje možné spustit vyhledávání buď kliknutím na tlačítko **Hledat**nebo stisknutím klávesy Enter (kurzor musí být umístěve vstupním řádku). 
-^ Základní dotaz | pro orientační a rychlé hledání | Vyhledá vložený výraz jako slovní tvar bez ohledu na velikost písmen; jde-li zároveň o základní slovníkový tvar (lemma), vyhledají se také všechny jeho tvary. | bez [[pojmy:regularni_vyrazy|regulárních výrazů]] (RE), [[pojmy:case-insensitive|case-insensitive]] (nerozlišuje malá a velká písmena) | ''černý kočka'' > //černá kočka, černou kočku, černých koček…//\\ ''černá kočka'' > //černá kočka// | +
-^ Lemma  | pro analýzu celého paradigmatu/lexému | Vyhledá všechny tvary přiřazené k danému [[pojmy:lemma|lemmatu]]. | RE, case-sensitive (rozlišuje malá a velká písmena), možnost upřesnit slovní druh | ''černý'' > //černýčernému, černá, černé, černými…//\\ ''kočka'' > //kočka, kočku, koček, kočkám…//+
-^ Fráze | pro víceslovnou kombinaci slovních tvarů | Vyhledá zadanou frázi složenou z konkrétních slovních tvarů. | RE, case-sensitive | ''černý pes'' > //černý pes//\\ ''český pes'' > //český pes//\\ ''černého psa'' > //černého psa// | +
-^ Slovní tvar | pro analýzu izolovaných slovních tvarů | Vyhledá zadaný slovní tvar. | RE, case-in/sensitive (možnost volby //Shoda velikosti//) | ''jakkoli'' > //jakkoli//\\ ''jakkoliv'' > //jakkoliv//\\ ''jakkoli.*'' > //jakkoli, jakkoliv, Jakkoli, JAKKOLIV…//+
-^ Část slova | pro vyhledání řetězce znaků kdekoli ve slově | Vyhledá po sobě následující znaky v rámci jednoho slova. | RE, case-sensitive | ''pra'' > //praděda, praxe, doprava, lepra…//\\ ''křá'' > //pookřát, křáp, Jiskřákovi…//+
-^ CQL | pro vyhledání všeho, co lze pomocí korpusového manažeru vyhledat | CQL je [[pojmy:dotazovaci_jazyk|Corpus Query Language]], korpusový dotazovací jazyk (do něhož si rozhraní KonText samo interně převádí všechny předchozí typy dotazů). | RE, case-sensitive, [[pojmy:dotazovaci_jazyk|CQL]] syntax | ''[lemma=<nowiki>"</nowiki>kočka<nowiki>"</nowiki>]'' > //kočka, kočku, koček, kočkám…//\\ ''[word=<nowiki>"</nowiki>černá<nowiki>"</nowiki>]'' > //černá//\\  ''[lemma=<nowiki>"</nowiki>číst<nowiki>"</nowiki>][tag=<nowiki>"</nowiki>N.*<nowiki>"</nowiki>]'' > //číst levity, četli článek, nečtete noviny…// |+
  
 +Vedle tlačítka **Hledat** je zároveň umístěna volba **Promíchat konkordanční řádky**. Tuto volbu je vhodné mít stále zapnutou, protože zobrazuje konkordance v náhodném pořadí, což je klíčové pro správnou a nezavádějící interpretaci výsledku. Podrobněji viz na stránce [[manualy:kontext:konkordance#promichat|Konkordance]].
  
-**Volbou korpusu** a **typu dotazu** se může částečně měnit i podoba formuláře: 
-  - Korpusy, které nemají lemmatizaci, neumožňují použít //lemma// jako [[kurz:prvni_dotaz#typy_dotazu|typ dotazu]]. 
-  - Některé typy dotazu (pouze ty, u kterých je to smysluplné) dovolují uživateli specifikovat, zda má být dotaz vyhodnocen s ohledem na velikost písmen ([[pojmy:case-sensitive|case-sensitive]]), nebo bez ohledu na velká/malá písmena ([[pojmy:case-insensitive|case-insensitive]]). 
-  - V případě typu dotazu //lemma// a //word// je možné specifikovat i slovní druh (poziční atribut [[pojmy:pos|pos]]). 
-  - Dotaz typu [[pojmy:dotazovaci_jazyk|CQL]] umožňuje vkládat i interaktivně generované [[pojmy:tag|morfologické značky]] (u korpusů, které jsou takto značkovány) či podmínky specifikující texty, v nichž se má hledat (podmínka [[pojmy:within]]). 
-  - Zcela specifický je způsob kladení dotazu při [[kurz:hledani_v_paralelnim_korpusu|vyhledávání v korpusech paralelních]]. 
  
-Každý dotaz je možné dále specifikovat na základě kontextu, v němž se hledaný výraz nachází, a dokumentů, v kterých se v rámci korpusu má hledat.+=== Vyhodnocení dotazu ===
  
-V momentě, kdy je dotaz zadánje možné spustit vyhledávání buď kliknutím na tlačítko **Hledat**, nebo stisknutím klávesy Enter, pokud je kurzor umístěn v zadávacím řádku.+Pokud je hledání úspěšnézobrazí se stránka s konkordančním seznamemjejíž ovládání je podrobně popsáno na stránce [[manualy:kontext:konkordance|Konkordance]].
  
 +==== Našeptávač ====
  
 +[{{ :manualy:kontext:dotaz_naseptavac_brejli.png?direct&400|Našeptávač}}]
  
-===== Specifikovat kontext =====+Pro korpusy s tzv. [[cnk:syn2020:lemmatizace|dvouúrovňovou lemmatizací]] (zatím české synchronní korpusy počínaje [[cnk:syn2020|SYN2020]] a [[cnk:syn:verze9|SYN verze 9]]) je k dispozici tzv. našeptávač, nástroj nabízející na základě zadaného slovního tvaru další možné způsoby hledání slova (nebo i více slov), k němuž tento tvar náleží. Při aktivaci našeptávače se slovní tvary, které jsou v daném korpusu rozpoznány, ve vstupním řádku barevně zvýrazní, zprava vedle nich se pak objeví ikonka otazníku. Klikne-li uživatel na daný výraz a současně stiskne klávesu Ctrl/Command, objeví se nabídka výrazů v podobě lemmat, sublemmat a lc (tvarů nezávislých na velikosti písmen), z nichž je možné vybrat ten nejvhodnější, který pak zadaný tvar nahradí. Dojde tak ke změně původní interpretace daného výrazu, která je indikována zčervenáním volby **Interpretace dotazu** nad dotazovacím řádkem.
  
-[{{:manualy:kontext:hledani_kontext.png?direct&300 |Formulář pro hledání v kontextu FIXME}}]+Napřpři vložení tvaru //brejlí// nás našeptávač upozorní, že tento tvar je korpusu SYN2020 anotován v závislosti na kontextu pod dvěma různými lemmaty (//brejlit// a //brýle//), a navíc nám ukáže, že lemma //brýle// zahrnuje dvě sublemmata, stylistické varianty //brýle// a //brejle//. Uživatel má tedy možnost dotaz upravit tak, že bude hledat buď (i) všechny tvary vybraného slova nezávisle na variantě (sloupec **lemma**, např. //brýle//), nebo (ii) jen tvary slova patřící pod danou variantu (sloupec **sublemma**, např. //brejle//), nebo (iii) jen tvar nezávislý na velikosti písmen patřící pod lemma uvedené na řádku (sloupec **lc**, např. //brejlí// pod lemmatem //brýle//). Podobně našeptávač upozorňuje i na lemmata a sublemmata lišící se velikostí písmen (např. //Procházka// oproti //procházka//). Příklady zpracování variant v SYN2020 najdete [[cnk:syn2020:lemmatizace|zde]].
  
-Každý dotaz je možné dále specifikovat s ohledem na kontext (textové okolí), v němž se hledané slovo nebo fráze vyskytuje. Ke specifikaci slouží kontextová nabídka, která se nachází ve spodní části dotazovacího formuláře (v základním nastavení je skryta, je třeba ji aktivovat kliknutím).+==== Upřesnit parametry ====
  
-Ve své podstatě je hledání v kontextu dodatečným [[manualy:kontext:filtr|filtrováním]] základní konkordancekterá je specifikována dotazem hlavní části formuláře. Uživatel má možnost nastavit rozsah kontextu, na nějž bude dodatečná filtrovací podmínka aplikována, typ dotazu, případně i slovní druh.+Jak již bylo uvedeno výše, lze při zadávání dotazu specifikovat také další parametry, které ovlivňují jeho interpretaci: jde jednak o výchozí [[pojmy:atributy_pozicni|poziční atribut]], v režimu jednoduchého dotazu je to dále zohlednění velikosti písmen (case-sensitivity) a také povolení použití [[pojmy:regularni_vyrazy|regulárních výrazů]].
  
-Obecně je možné říci, že libovolné hledání v kontextu lze převést na běžné hledání a následné filtrování (pomocí pozitivního nebo negativního filtru). Libovolné filtrování je ale také možné uskutečnit pomocí [[pojmy:dotazovaci_jazyk|dotazovacího jazyka]] a provést totožnou operaci pouze v rámci jednoho kroku. Platí tedy, že vždy vede vícero cest k jednomu výsledku a záleží plně na uživateli, kterou možnost považuje za nejpohodlnější. +==== Specifikovat kontext ====
-===== Omezit hledání =====+
  
-[{{ :manualy:kontext:hledani_subkorpus.png?direct&300|Formulář pro hledání v ad hoc vytvořeném subkorpusu FIXME}}]+[{{:manualy:kontext:hledani_kontext.png?direct&300 |Formulář pro hledání v kontextu }}]
  
-Potřebujeme-li hledat jen v úzce vymezené skupině textů z celého korpusu, máme dvě možnosti. Buď vytvoříme vlastní virtuální [[manualy:kontext:subkorpus]]který bude pak možné vybrat rámci nabídky korpusů, nebo dotaz omezíme jakými podmínkami (typicky pomocí příkazu [[pojmy:within|within]])První možnost volíme zpravidla v situacích, kdy víme, že subkorpus budeme potřebovat delší dobunebo když je jeho specifikace složitá. Druhou možnost pak užíváme při ad hoc hledání v rámci nějakých jasně daných kategorií textů, které jsou specifikovány základními [[pojmy:atributy_strukturni|strukturními atributy]].+Každý dotaz je možné dále specifikovat s ohledem na kontext (textové okolí), v němž se hledané slovo nebo fráze vyskytujeKe specifikaci slouží kontextová nabídkakterá se nachází ve spodní části dotazovacího formuláře.
  
-Formulář nového dotazu poskytuje zjednodušení ve formě dodatečného formuláře **Omezit hledání**který je umístěpod kontextovým hledáním a aktivuje se podobně jako (výše popsaná) specifikace kontextu kliknutím.+Ve své podstatě je hledání v kontextu dodatečným [[manualy:kontext:filtr|filtrováním]] základní konkordance, která je specifikována již dotazem přímo v dotazovacím formuláři. Uživatel tu má možnost nastavit rozsah kontextuna jž bude dodatečná filtrovací podmínka aplikována, konkrétní lemmata, případně i slovní druhy.
  
-V rámci tohoto formuláře je možné zaškrtnout ty hodnoty vybraných strukturních atributů, které nás zajímají. Formulář neobsahuje všechny strukturní atributypouze ty nejpoužívanější daném korpusu (např. hledání v [[cnk:syn2015|SYN2015]] jsou to [[pojmy:txtype_group|txtype_group]], [[pojmy:txtype|txtype]][[pojmy:genre|genre]], [[pojmy:srclang|srclang]]). Použité zkratky je možné dohledat v příslušné sekci [[seznamy:index|seznamů]].+Obecně je možné říci, že libovolné hledání kontextu lze evést na běžné hledání a následné filtrování (pomocí pozitivního nebo negativního filtru). Filtrování je však také možné uskutečnit pomocí [[pojmy:dotazovaci_jazyk|dotazovacího jazyka]] a provést totožnou operaci v rámci jediného kroku. Platí tedyže k jednomu výsledku vede vícero cest a záleží plně na uživatelikterou možnost považuje za nejpohodlnější.
  
-V jednom ze sloupců se objevuje seznam konkrétních textů ([[pojmy:opus|opusů]] nebo [[pojmy:doc|dokumentů]]), které odpovídají specifikované podmínce.  V případě, že si z nabídky zvolíme nějaké kategorie, můžeme si zobrazit soupis textů, které takovéto podmínce odpovídají, pomocí tlačítka **Zúžit výběr** (pokud odpovídající seznam textů není příliš dlouhý). Sloupec se seznamem textů se přepočítá podle aktuálně zaškrtnutých kritérií. Takto můžeme pokračovat do té doby, než budeme spokojeni s vymezením dat, která k hledání chceme použít.+==== Omezit hledání ====
  
-Pro podrobnější specifikaci je třeba buď použít podmínku [[pojmy:within|within]] v rámci [[kurz:pokrocile_dotazy#dotazovaci_jazyk|CQL]] dotazu, nebo vytvořit nový virtuální [[pojmy:subkorpus|subkorpus]]. +[{{ :manualy:kontext:hledani_subkorpus.png?direct&300|Formulář pro hledání v ad hoc vytvářeném subkorpusu }}]
-====== Předchozí dotazy ======+
  
-Položka zobrazí přehled posledních kladených dotazů (zkrácený seznam dříve kladených dotazů je přístupný i přímo dotazovacího formuláře prostřednictvím odkazu nad vstupním řádkem). Tyto dotazy lze filtrovat podle aktuálně používaného korpusu či podle typu dotazu a také lze zobrazit pouze dotazy archivovanéKliknutím na odkaz **Upravit a vyhledat** vložíme dříve specifikované zadání do dotazovacího formuláře a dotaz můžeme buď beze změny ihned vyhodnotit, nebo jej dále modifikovat (např. změnit korpusna němž bude vyhodnocentyp dotazu nebo specifikovat jeho kontext)Kliknutí na volbu **Archivovat** umožňuje dotaz pojmenovat a trvale jej uložit do archivu položených dotazů.+Potřebujeme-li hledat jen v úzce vymezené skupině textů z celého korpusu, máme dvě možnostiBuď vytvoříme vlastní virtuální [[manualy:kontext:korpusy|subkorpus]], který bude pak možné vybrat v rámci nabídky korpusů, nebo dotaz omezíme nějakými podmínkami (typicky pomocí příkazu [[pojmy:within|within]])První možnost volíme zpravidla v situacích, kdy víme, že subkorpus budeme potřebovat delší dobu, nebo když je jeho specifikace složitáDruhou možnost pak užíváme při ad hoc hledání v rámci nějakých jasně daných kategorií textů, které jsou specifikovány základními [[pojmy:atributy_strukturni|strukturními atributy]].
  
-====== Seznam slov ======+Vyhledávací formulář poskytuje zjednodušení ve formě dodatečného formuláře **Omezit hledání**, který je umístěn pod kontextovým hledáním a aktivuje se podobně jako (výše popsaná) specifikace kontextu kliknutím.
  
-Základním výstupem jakéhokoli dotazu je [[pojmy:konkordance|konkordance]], tj. seznam všech výskytů ([[pojmy:token|tokenů]]) odpovídajících dotazu spolu s jejich textovým okolím. Funkce **Seznam slov** naproti tomu vyhodnocuje dotaz takže výsledkem je seznam různých slov ([[pojmy:typ|typů]]), které dotazu odpovídajíspolu s jejich absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] nebo počtem dokumentů, v němž se hledaný jev vyskytujeFunkce Seznam slov je tak analogická [[manualy:kontext:frekvencni_distribuce|frekvenční distribuci]], její výhodou je však rychlost a výpočetní nenáročnost, protože mezikrok přes konkordanci není u Seznamu slov potřeba.+V rámci tohoto formuláře je možné zaškrtnout ty hodnoty vybraných strukturních atributů, které nás zajímají. Formulář neobsahuje všechny strukturní atributy, pouze ty nejpoužívanější v daném korpusu (např. při hledání v [[cnk:syn2020|SYN2020]] jsou to [[pojmy:txtype_group|txtype_group]], [[pojmy:txtype|txtype]], [[pojmy:genre|genre]], [[pojmy:srclang|srclang]])Použité zkratky je možné dohledat v příslušné sekci [[seznamy:index|seznamů]].
  
-[{{ :manualy:kontext:seznam_slov_slovesa.png?direct&300|Formulář pro vytváření seznamu slov FIXME}}]+V jednom ze sloupců se objevuje seznam konkrétních textů ([[pojmy:opus|opusů]] nebo [[pojmy:doc|dokumentů]]), které odpovídají specifikované podmínce.  V případě, že si z nabídky zvolíme nějaké kategorie, můžeme si zobrazit soupis textů, které takovéto podmínce odpovídají, pomocí tlačítka **Zúžit výběr** (pokud odpovídající seznam textů není příliš dlouhý). Sloupec se seznamem textů se přepočítá podle aktuálně zaškrtnutých kritérií. Takto můžeme pokračovat do té doby, než budeme spokojeni s vymezením dat, která k hledání chceme použít. Lze se přitom vracet (volba **Krok zpět**), případně celý výběr stornovat (volba **Zrušit výběr**). Daný výběr je také možné uložit pro pozdější využití (volba **Uložit jako koncept subkorpus**) a vytvořit tak nový virtuální [[pojmy:subkorpus|subkorpus]]. Mimoto lze snadno získat seznam dokumentů v aktuálním výběru (volba **Uložit seznam dokumentů**), což může být praktické, např. chcete-li zjistit, která beletristická díla figurují v paralelním korpusu InterCorp pro ten který jazyk. 
 + 
 +Pro podrobnější specifikaci je třeba použít podmínku [[pojmy:within|within]] v rámci [[kurz:pokrocile_dotazy#dotazovaci_jazyk|CQL]] dotazu. 
 + 
 +===== Paradigmatický dotaz ==== 
 + 
 +[{{ :manualy:kontext:paradigmaticky_dotaz.png?direct&400| Paradigmatický dotaz }}] 
 + 
 +Vedle výše popsaného syntagmatického dotazu (hledáme množinu [[pojmy:token|tokenů]] tvořících [[pojmy:kwic|KWIC]], které zobrazíme spolu s okolním kontextem v podobě [[pojmy:konkordance|konkordance]]) lze využít rovněž [[pojmy:paradigmaticky|hledání paradigmatické]], jež je vlastně kombinací několika dílčích syntagmatických dotazů a přináší průnik jejich frekvenčních distribucí. Výsledkem paradigmatického dotazování je tak množina [[pojmy:token|typů]], které odpovídají //všem// jednotlivým syntagmatickým dotazům.  
 + 
 + 
 +[{{ :manualy:kontext:paradigma_vysledek.png?direct&400| Vyhodnocení paradigmatického dotazu}}] 
 + 
 +V dotazovacím formuláři zadáváme dílčí syntagmatické dotazy do jednotlivých okének, příp. lze další okénka přidat pomocí tlačítka vespod či ubrat kliknutím na ikonku koše vpravo. Dále můžeme specifikovat parametry jako výchozí atribut, minimální frekvenci jednotlivých dílčích syntagmatických dotazů a pozici, na níž bude u každého z nich uplatňována frekvenční distribuce.  
 + 
 +Výsledný soupis jednotek splňujících všechny dílčí dotazy (jedná se o průnik dílčích dotazů) je defaultně seřazen podle posledního sloupce (celková absolutní frekvence), kliknutím na libovolné záhlaví sloupce (absolutní frekvence jednotlivých dotazů) lze řazení změnit. Horizontální pořadí partikulárních frekvencí je naznačeno barevným kódováním. 
 + 
 +== Příklad: == 
 + 
 +Dotaz, jenž hledá v korpusu [[cnk:syn2020|SYN2020]] všechna lemmata, která v jedné ze svých realizací končí na //-ý//, v jiném výskytu na //-á// a ještě v jiné realizaci na //-é//, vymezuje (ne zcela přesně) skupinu slov se složeným (adjektivním) skloňováním typu //mladý//, která mají v korpusu doloženy tvary pro nom. sg. mužského, ženského i středního rodu (//mladý//, //mladá// i //mladé//). Jednotlivé dílčí syntagmatické dotazy můžou mít tuto podobu (paradigmatický dotaz lze zadávat pouze pomocí [[pojmy:cql|CQL]]): 
 + 
 +  - ''%%[word=".+ý"]%%'' 
 +  -  ''%%[word=".+á"]%%'' 
 +  - ''%%[word=".+é"]%%'' 
 + 
 +Atribut výsledku (rovina zobecnění): [[pojmy:lemma|lemma]]\\ 
 +Minimální frekvence realizace: 4 
 + 
 +Ve výsledcích najdeme adjektiva jako //nový//, //celý//, //velký//, dále zájmena a číslovky s adjektivním skloňováním //každý//, //druhý//, //který//, ale také slova s jiným skloňováním, která vykazují formální podobnost se zadaným dotazem, např. //svůj// (do jehož paradigmatu patří mj. tvary //svý//, //svá//, //své//). Nenajdou se naopak lemmata, která jeden z tvarů doložen nemají (např. //šestatřicetiletý// nemá doložen tvar //šestatřicetileté//, resp. má ho v korpusu doložen pouze třikrát, což je pod stanovenou mezí minimální frekvence). 
 + 
 +==== Podmínka nikdy a vždy ==== 
 + 
 +Paradigmatické dotazy lze dále specifikovat podle podmínek **nikdy** (//Vyloučit//) a **vždy** (//Omezit hledání na//), jejichž výběr lze provést pomocí roletového menu nad každým dílčím dotazem. 
 + 
 +Podmínka **nikdy** umožňuje **vyloučit** případy nalezené ve specifikovaném dílčím dotazu. Pokud bychom k výše uvedenému příkladu přidali čtvrtý dílčí dotaz se se specifikací, že jde o podmínku nikdy, v podobě 
 + 
 +**4.** ''%%[word=".+í"]%%'' 
 + 
 +najdeme pouze taková lemmata s adjektivní deklinací, která nemají tvar odpovídající nom. pl.: např. //každý//, //celkový//, //dostatečný//, u nichž nejsou doloženy s nadlimitní frekvencí podoby //*každí//, //*celkoví// a //*dostateční//
 + 
 +Podmínka **vždy** vymezuje nadmnožinu typů, z nichž se vyberou pouze ty, které jsou plně určeny dílčími dotazy, tj. nemají výskyty mimo tyto dotazy a mimo specifikovanou nadmnožinu. Ve výsledku se tak nemohou vyskytovat typy, které mají realizace, nepostižené alespoň jedním dílčím dotazem. Pokud k příkladu výše přidáme čtvrtou podmínku se specifikací **Omezit hledání na (podmínka "vždy")** a hodnotou 
 + 
 +**4.** ''%%[lemma=".+ý"]%%'' 
 + 
 +najdeme pouze taková lemmata končící na //-ý//, která jsou v úplnosti určena podmínkami 1-3, tzn. nemají žádné jiné realizace, které by těmito dílčími dotazy zůstávaly nepostiženy. Tomu odpovídá lemma //odmaštěný//, které se v SYN2020 vyskytuje pouze v podobách //odmaštěný//, //odmaštěná//, //odmaštěné// a všechny mají alespoň čtyři výskyty. 
 + 
 +Podmínky vždy i nikdy můžeme aplikovat striktně nebo lze jejich působení zmírnit uvedením maximálního procenta výjimek ve výsledku (pole //max. poměr výjimek// nad dotazovacím řádkem). Hledáme-li např. slova, která se **nikdy** nevyskytují v imperativu, můžeme zvýšením podílu výjimek na 1 % (údaj je potřeba vepsat ve formě 0.01) do výsledku zařadit i slovesa, v nichž je imperativ zastoupen maximálně jedním procentem jeho tvarů. 
 + 
 +===== Seznam slov ===== 
 + 
 +Základním výstupem jakéhokoli dotazu je [[pojmy:konkordance|konkordance]], tj. seznam všech výskytů ([[pojmy:token|tokenů]]) odpovídajících dotazu spolu s jejich textovým okolím. Funkce **Seznam slov** naproti tomu vyhodnocuje dotaz tak, že výsledkem je seznam různých slov ([[pojmy:typ|typů]]), které dotazu odpovídají, spolu s jejich absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] nebo počtem dokumentů, v němž se hledaný jev vyskytuje. Funkce Seznam slov je tak analogická [[manualy:kontext:frekvencni_distribuce|frekvenční distribuci]], její výhodou je však rychlost a výpočetní nenáročnost, protože mezikrok přes konkordanci tu není potřeba. 
 + 
 +[{{ :manualy:kontext:seznam_slov_slovesa.png?direct&300|Formulář pro vytváření seznamu slov }}]
  
 Ve formuláři je možné nastavit různé parametry hledání: Ve formuláři je možné nastavit různé parametry hledání:
-  * korpus (příp. jeho subkorpus), kterém budeme seznam slov vytvářet+  * korpus (příp. jeho subkorpus), ve kterém budeme seznam slov vytvářet
   * atribut ([[pojmy:atributy_pozicni|poziční]] nebo [[pojmy:atributy_strukturni|strukturní]]), který má být v seznamu vypsán   * atribut ([[pojmy:atributy_pozicni|poziční]] nebo [[pojmy:atributy_strukturni|strukturní]]), který má být v seznamu vypsán
   * regulární výraz, kterému mají výsledná slova odpovídat (není-li zadán, seznam bude obsahovat všechny položky v korpusu, pokud odpovídají ostatním specifikacím ve formuláři)   * regulární výraz, kterému mají výsledná slova odpovídat (není-li zadán, seznam bude obsahovat všechny položky v korpusu, pokud odpovídají ostatním specifikacím ve formuláři)
   * minimální frekvence   * minimální frekvence
-  * výrazy pro pozitivní filtr -- seznam předvybraných slov (v samostatném souboru), která ve výsledném seznamu chceme vidět (tzv. whitelist) 
-  * výrazy pro negativní filtr -- seznam předvybraných slov (v samostatném souboru), která z výsledného seznamu chceme vyloučit (tzv. blacklist) 
   * včetně číslic a interpunkce -- volba rozšiřující hledání i na slova, která nejsou složena pouze z alfabetických znaků   * včetně číslic a interpunkce -- volba rozšiřující hledání i na slova, která nejsou složena pouze z alfabetických znaků
 +  * výrazy pro pozitivní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání, nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem předvybraných slov, která ve výsledném seznamu chceme vidět (tzv. whitelist) 
 +  * výrazy pro negativní filtr -- soubor((Seznam musí být ve formátu prostého textového souboru (.txt) v kódování UTF-8 s jednou položkou na každém řádku. Pro položky seznamu se používá přesné porovnávání, nikoliv porovnávání pomocí regulárních výrazů.)) se seznamem předvybraných slov, která z výsledného seznamu chceme vyloučit (tzv. blacklist) 
 +  
 Mezi nastaveními druhu výstupu najdeme kromě volby mezi absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] a počtem dokumentů také volbu konkrétního výstupního atributu či atributů. Tyto atributy přitom **nemusejí** být shodné s pozičním atributem zvoleným v horní části formuláře, na který jsou aplikovány všechny výše uvedené filtry. To umožňuje vytvořit např. frekvenční seznam všech sloves tak, že v horní části zadáme atribut [[pojmy:tag|tag]], na něj podmínku na sloveso jako [[seznamy:tagy#pozice_1_-_slovni_druh|V.*]], a zvolíme typ výstupu [[pojmy:lemma|lemma]] -- příklad takového zadání ukazuje obrázek. Mezi nastaveními druhu výstupu najdeme kromě volby mezi absolutní [[pojmy:frekvence|frekvencí]], [[pojmy:arf|ARF]] a počtem dokumentů také volbu konkrétního výstupního atributu či atributů. Tyto atributy přitom **nemusejí** být shodné s pozičním atributem zvoleným v horní části formuláře, na který jsou aplikovány všechny výše uvedené filtry. To umožňuje vytvořit např. frekvenční seznam všech sloves tak, že v horní části zadáme atribut [[pojmy:tag|tag]], na něj podmínku na sloveso jako [[seznamy:tagy#pozice_1_-_slovni_druh|V.*]], a zvolíme typ výstupu [[pojmy:lemma|lemma]] -- příklad takového zadání ukazuje obrázek.
  
Řádek 94: Řádek 152:
 </WRAP> </WRAP>
  
 +===== Analýza klíčových slov =====
 +
 +[{{ :manualy:kontext:analyza_k_slov.png?direct&400| Seznam klíčových slovních tvarů v korpusu ORAL v1 v porovnání s referenčním korpusem SYN2020}}]
 +Rozhraní KonText dokáže vygenerovat soupis tzv. [[pojmy:keyword|klíčových slov]] (keywords), tedy takových tvarů či lemmat, která se ve vybraném (sub)korpusu objevují nápadně častěji než v (sub)korpusu referenčním, odrážejícím běžný jazykový úzus. (Analýzu klíčových slov //ve vlastních textech// umožňuje [[manualy:kwords|specializovaná aplikace KWords]].)
 +
 +Vedle korpusu, v němž chceme dané výrazy najít, musíme zadat také [[pojmy:referencni|referenční korpus]] (příp. též [[pojmy:subkorpus|subkorpus]], např. chceme-li nějaký korpus tvořený převážně publicistickými texty, tj. korpusy řady SYN, konfrontovat se subkorpusem beletristických textů: SYN2020-BEL). Dále určíme, podle kterého [[pojmy:atributy_pozicni|pozičního atributu]] se výrazy mají vyhledávat, podle které metriky mají být tříděny (v nabídce jsou tři: [[pojmy:asociacni_miry#log_likelihood|Log-likelihood]], [[pojmy:chi2|Chi-square]] a [[pojmy:din|Difference index]]), eventuálně zadáme i požadovanou minimální či maximální frekvenci. Hledané výrazy lze dále vyfiltrovat pomocí [[pojmy:regularni_vyrazy|regulárního výrazu]]; defaultně nastavený výraz ''.*'' zobrazí všechny výsledky (resp. prvních 1000 výskytů).
 +
 +Výsledný seznam klíčových slov ve formě tabulky je seřazen podle zvolené metriky, přičemž zbylé dvě se zobrazují taktéž, v dalších sloupcích následují hodnoty [[pojmy:frekvence|absolutní a relativní frekvence]] v obou korpusech. Soupis vyhledaných výrazů si lze zobrazit v obou korpusech v příslušné [[pojmy:konkordance|konkordanci]] přes pozitivní filtr (<fc #4682b4>p</fc> vpravo od hodnoty absolutní frekvence).
 +
 +
 +
 +
 +===== Předchozí dotazy =====
 +
 +Položka zobrazí přehled posledních kladených dotazů (zkrácený seznam dříve kladených dotazů je přístupný i přímo z dotazovacího formuláře prostřednictvím odkazu nad vstupním řádkem). Tyto dotazy lze filtrovat podle aktuálně používaného korpusu či podle typu dotazu a také lze zobrazit pouze dotazy archivované. Kliknutím na vybraný dotaz vložíme dříve specifikované zadání do dotazovacího formuláře a dotaz můžeme buď beze změny ihned vyhodnotit, nebo jej dále modifikovat (např. změnit korpus, na němž bude vyhodnocen, typ dotazu nebo specifikovat jeho kontext).
 +
 +Kliknutí na ozubené kolo a následně na volbu **Archivovat** umožňuje dotaz pojmenovat a trvale jej uložit do archivu položených dotazů. Ukládá se přitom kompletní stav formuláře, tedy např. i vybrané typy textů.
  
 ---- ----
  
 <WRAP center round box 48%> <WRAP center round box 48%>
-**[[manualy:kontext:index|Menu]]**: [[manualy:kontext:novy_dotaz|Dotaz]] • [[manualy:kontext:subkorpus|Korpusy]] • [[manualy:kontext:ulozit|Uložit]] • [[manualy:kontext:konkordance|Konkordance]] • [[manualy:kontext:filtr|Filtr]] • [[manualy:kontext:frekvencni_distribuce|Frekvence]] • [[[[manualy:kontext:kolokace|Kolokace]] • [[moznosti_zobrazeni|Zobrazení]] • [[manualy:kontext:napoveda|Nápověda]]+**[[manualy:kontext:index|Menu]]**: [[manualy:kontext:novy_dotaz|Dotaz]] • [[manualy:kontext:korpusy|Korpusy]] • [[manualy:kontext:ulozit|Uložit]] • [[manualy:kontext:konkordance|Konkordance]] • [[manualy:kontext:filtr|Filtr]] • [[manualy:kontext:frekvence|Frekvence]] • [[[[manualy:kontext:kolokace|Kolokace]] • [[zobrazeni|Zobrazení]] • [[manualy:kontext:napoveda|Nápověda]]
 </WRAP> </WRAP>