AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verzeObě strany příští revize
kurz:prvni_dotaz [2021/01/07 11:01] michalskrabalkurz:prvni_dotaz [2021/01/07 12:16] michalskrabal
Řádek 5: Řádek 5:
 Rozhraní **KonText** spustíme odkazem na horní liště portálu [[https://www.korpus.cz|www.korpus.cz]] nebo přímo, zadáním adresy [[https://kontext.korpus.cz]]. První dotaz zadáme po [[kurz:zaciname|registraci a přihlášení]], píšeme ho do prázdného řádku s názvem **Dotaz**.  Rozhraní **KonText** spustíme odkazem na horní liště portálu [[https://www.korpus.cz|www.korpus.cz]] nebo přímo, zadáním adresy [[https://kontext.korpus.cz]]. První dotaz zadáme po [[kurz:zaciname|registraci a přihlášení]], píšeme ho do prázdného řádku s názvem **Dotaz**. 
  
-[{{:kurz:zakladnidotaz.png?500|Zadání nového dotazu do [[manualy:kontext:index|rozhraní KonText]] }}]+[{{:kurz:zakladnidotaz.png?500|Zadání nového dotazu do [[manualy:kontext:index|rozhraní KonText]] }}]\\ 
 ===== Výchozí nastavení ===== ===== Výchozí nastavení =====
  
Řádek 27: Řádek 28:
 <WRAP clear/> <WRAP clear/>
  
 +\\
 Funguje vám vyhledávání? Ověřte si výsledky v korpusu SYN2015: Funguje vám vyhledávání? Ověřte si výsledky v korpusu SYN2015:
  
Řádek 41: Řádek 42:
  
 A ještě jedna věc: vyhledanému výrazu či kombinaci výrazů -- v našem rozhraní <fc #e2007a>**růžově zvýrazněnému**</fc> -- se říká [[pojmy:kwic|KWIC]]; tato zkratka pochází z anglického //key word in context// (klíčové slovo v kontextu). Celému řádku se říká konkordanční řádek, ten je součástí [[pojmy:konkordance|konkordance]] (seznamu všech konkordančních řádků, tedy všech výskytů hledaného výrazu spolu s jejich kontexty). A ještě jedna věc: vyhledanému výrazu či kombinaci výrazů -- v našem rozhraní <fc #e2007a>**růžově zvýrazněnému**</fc> -- se říká [[pojmy:kwic|KWIC]]; tato zkratka pochází z anglického //key word in context// (klíčové slovo v kontextu). Celému řádku se říká konkordanční řádek, ten je součástí [[pojmy:konkordance|konkordance]] (seznamu všech konkordančních řádků, tedy všech výskytů hledaného výrazu spolu s jejich kontexty).
 +
 ===== Jak přejít na nový dotaz ===== ===== Jak přejít na nový dotaz =====
  
Řádek 53: Řádek 55:
 ===== Typy dotazů ===== ===== Typy dotazů =====
  
-Celkem je v rozhraní KonText k dispozici 6 typů dotazů (základní, lemma, fráze, slovní tvar, část slova, CQL), každý z nich je vhodný na jiný typ zkoumání. Je však třeba mít na paměti, že ne ve všech korpusech můžeme hledat pomocí všech typů dotazů (např. v některém nelemmatizovaném korpusu [[pojmy:mluveny#ceske_korpusy_mluveneho_jazyka|z řady ORAL]] chybí z pochopitelných důvodů typ dotazu //lemma//).  +FIXME 
- +rozhraní KonText rozlišujeme mezi dvěma základními typy dotazů:
-==== Typ dotazu: Slovní tvar (word) ==== +
- +
-Z hlediska výkladu je nejjednodušším typem dotazu //slovní tvar// (angl. //[[pojmy:word|word]]//). S jeho pomocí nacházíme v korpusu přesnou shodu, tj. daný tvar v podobě, v jaké byl zadán. Dotazu na slovní tvar ''pes'' tak odpovídá pouze tvar //pes//, dotazu ''koček'' odpovídá pouze tvar //koček//+
- +
-Jedinou odlišností mezi dotazem a výsledkem může být velikost písmen. Ve výchozím nastavení je dotaz na slovní tvar [[pojmy:case-insensitive|case-insensitive]], což znamená, že hledá zadaný tvar bez ohledu na velikost písmen (dotazu ''londýně'' nebo ''Londýně'' odpovídají tvary //Londýně//, //londýně// ale i třeba //LONDÝNĚ//). Citlivost k velikosti písmen lze při zadání dotazu ovlivnit pomocí volby **Shoda velikosti písmen** pod dotazovacím řádkem. +
- +
-<wrap lo>V syntaxi [[pojmy:dotazovaci_jazyk|CQL]] odpovídá tento typ dotazu následujícímu výrazu: ''[word=<nowiki>"</nowiki>pes<nowiki>"</nowiki>]'' příp. ''[word=<nowiki>"</nowiki>(?i)pes<nowiki>"</nowiki>]''.</wrap> +
-==== Typ dotazu: Lemma ==== +
- +
-Dalším typem dotazu je [[pojmy:lemma|lemma]]. Tímto termínem se označuje základní tvar pro nějaký výraz (chápaný také jako reprezentant celého paradigmatu). Většinou právě lemma hledáme ve slovníku (např. místo slovního tvaru //chytrého// hledáme ve slovníku //chytrý//). Do značné míry je  dáno tradicí, např. u substantiv lemmatem zpravidla bývá 1. pád jednotného čísla. Zde je orientační přehled tvarů lemmatu pro různé slovní druhy: +
- +
-^ Slovní druh ^  základní tvar  ^  lemma  ^ příklady slovních tvarů pod ně spadajících ^ +
-^ substantiva |  nom. sg.  |  //les//  | //lesům, lesy, lesích// | +
-^ adjektiva |  nom. sg. mask., nestupňovaný tvar (pozitiv) ((Pozor: většinou (nikoli však ve všech případech) je základním tvarem adjektivum bez negace, tedy afirmativní.))  |  //chytrý//  | //chytrého, nejchytřejším, chytrejma// +
-^ verba |  infinitiv, bez negace  |  //chodit//  | //chodil, chodíš, nechodíme//+
-^ adverbia |  nestupňovaný tvar (pozitiv)  |  //černě//  | //černěji, nejčerněji//+
-^ zájmena |  nom. sg. mask. ((Pozor: lemma //to// je vyhrazeno částicím.))  |  //ten//  | //to, ta, ti// | +
-^ číslovky |  nom. sg. mask.  |  //osmý//  | //osmá, osmou// | +
-^ ostatní slovní druhy |  lemma = tvar (malými písmeny) |  //ať//  | //ať//, //Ať//, //AŤ// +
- +
-Zadáme-li tedy jako typ dotazu //lemma// výraz ''pes'', najdeme všechny výskyty všech slovních tvarů tohoto slova bez ohledu na velikost písmen (//pes, psy, psem, psovi..., Pes, PSY, PseM...//).  +
- +
-<wrap lo>V syntaxi [[pojmy:dotazovaci_jazyk|CQL]] odpovídá tento typ dotazu následujícímu výrazu: ''[lemma=<nowiki>"</nowiki>les<nowiki>"</nowiki>]''.</wrap> +
- +
-<WRAP round important 68%> +
-Při zadávání dotazu typu lemma je třeba vědět, že velikost písmen tu má trochu jinou funkci než u slovního tvaru. Lemmata obecných jmen (apelativ) se píší malými písmeny, počáteční velké písmeno mají pouze jména vlastní (propria), příp. zkratky. V korpusu tak můžou existovat lemmata lišící se pouze velikostí písmen (např. ''hrad'' a ''Hrad'', z nichž jedno označuje apelativní užití a druhé propriální). +
-</WRAP> +
-==== Typ dotazu: Základní ==== +
- +
-Základní dotaz slouží pro potřeby rychlého informativního hledání v situacích, které nevyžadují přílišnou přesnost (v mnoha směrech je tak analogický hledání v běžných internetových vyhledávačích, např. Google). Princip základního dotazu pak spočívá v tom, že je-li zadán základní slovníkový tvar (lemma), vyhledají se také všechny jeho tvary; pokud se o lemma nejedná, vyhledají se jenom ty tvary, které se s dotazem přesně shodují. Základní dotaz by se tedy dal popsat zhruba touto instrukcí korpusovému manažeru: hledej zadané slovo jako [[pojmy:case-insensitive|case-insensitive]] tvar, a pokud zadané slovo existuje i jako lemma, přidej výskyty tohoto lemmatu do výsledku.  +
- +
-<wrap lo>V syntaxi [[pojmy:dotazovaci_jazyk|CQL]] je možné tento typ dotazu zapsat jako ''[word=<nowiki>"(?i)les"|lemma="les"</nowiki>]''.</wrap>  +
- +
-<WRAP round info 68%> +
-V korpusu [[cnk:syn2015|SYN2015]] u **základního** typu dotazu má slovo //zdraví// 10 355 výskytů a u dotazu typu **lemma** jen 10 143 výskytů. Je to dáno tím, že ne ve všech případech je tvar //zdraví// substantivem: kromě toho může být slovesem (//Teď je na řadě bodrý úsměv, jakým se zdraví staří známí.//) anebo adjektivem (//A proste, abyste byli stále zdraví, byť bez slávy Boží.//+
-</WRAP> +
-==== Typ dotazu: Fráze ==== +
- +
-Typ dotazu //fráze// slouží zejména k hledání víceslovných výrazů; dotazy typu //slovní tvar// ani //lemma// totiž neumožňují zadat víc slov najednou. V tom je //fráze// podobná i //základnímu// dotazu, je v nich ale přeci jen rozdíl. Zkusme nyní v korpusu SYN2015 zadat dvojici sousloví v jejich základních tvarech, lemmatech -- ''prašivý pes'' a ''černý kočka'': +
- +
-^ Typ dotazu ^  ''černý kočka''  ^  ''prašivý pes'' +
-^ Základní | najde celé paradigma (//černá kočka, černé kočky// atd.) | najde celé paradigma (//prašivý pes, prašivého psa// atd.) | +
-^ Fráze | -- (nenajde nic) | najde sekvenci přesně těchto tvarů | +
- +
-Jelikož //fráze// hledá přesně vložený řetězec znaků (sekvenci slovních tvarů), ''černý kočka'' nenajde -- v korpusu SYN2015 toto sousloví není doloženo ani jako případný překlep.  +
- +
-<wrap lo>V syntaxi [[pojmy:dotazovaci_jazyk|CQL]] odpovídá tento typ dotazu následujícímu výrazu: ''[word=<nowiki>"</nowiki>černý<nowiki>"</nowiki>][word=<nowiki>"</nowiki>kočka<nowiki>"</nowiki>]''.</wrap> +
- +
-==== Typ dotazu: Část slova ==== +
- +
-Pokud potřebujeme vyhledat všechna slova, která obsahují nějaký řetězec znaků (např. určitý kořen), může se hodit typ dotazu //část slova//. S jeho pomocí najdeme všechna slova, která obsahují danou sekvenci znaků, jíž předcházejí nebo za níž následují libovolné další znaky (ale také třeba žádný). Při zadání ''pes'' identifikuje tento typ dotazu kromě samotného //pes// i tvary jako //kapesní, pestré, herpes// atd. +
- +
-<wrap lo>V syntaxi [[pojmy:cql|CQL]] tento typ dotazu odpovídá výrazu ''[word=%%".*pes.*"%%]''</wrap> +
- +
-==== Typ dotazuCQL ====+
  
-Poslední a zároveň nejobecnější způsob hledání korpusu edstavuje [[pojmy:cql|dotazovací jazyk CQL]]. Všechny výše zmíněné způsoby dotazovaní jsou rozhraním KonText eváděny právě na tento typ dotazu. +Výchozím nastavením je **jednoduchý dotaz**, v němž je dále implicitně nastaveno nerozlišování velikosti písmen (přepínač Shoda velikosti písmen je vypnutý), není povoleno použití regulárních výrazů (přepínač Povolit regulární výrazy je vypnutý) a vyhledávání je nastaveno podle výchozího atributu lemma|word (SYN2020 lemma|sublemma|word), čímž se vyhledá nejen uvedený tvar (podle atributu word), ale i další tvary slova (podle atributů lemma nebo sublemma), pokud je zadaný tvar zároveň lemmatem nebo sublemmatem (poznámka: oproti edchozím verzím KonTextu nejde o změnu, jen o zobecnění chování původního základního dotazu). Do vstupního řádku je možné kromě jednotlivých slov zadávat i celé fráze. Vyhledávání lze na jednotlivých pozicích upřesnit jednak pomocí [[manualy:kontext:novy_dotaz#naseptavac|našeptávače]], jednak změnou výchozího atributu (atribut je pak platný pro všechny pozice) a/nebo epnutím shody velikosti písmen. Složitější dotazy je možné pokládat i v rámci jednoduchého dotazu, pokud uživatel využije volby Povolit regulární výrazy.
  
-Jako nejobecnější způsob dotazování poskytuje CQL největší možnosti, zároveň ale vyžaduje zvládnutí kolika málo formálních náležitostí. Podrobně se proto budeme novat CQL v [[pokrocile_dotazy|pokročilejší fázi tohoto kurzu]]. +**Pokročilý dotaz** se aktivuje spínačem nad vstupním řádkem a plně odpovídá dotazu typu CQL předchozích verzí KonTextu. Při zadávání dotazovacího jazyka CQL KonText automaticky kontroluje a zvýrazňuje syntax dotazu. V případě, že dotaz není validní, KonText na to uživatele upozorní a umožní mu dotaz před vyhodnocením opravit. Vzhledem k širokým možnostem CQL dotazování však není kontrola správnosti dotazu vždy přesná, výjimečně se tak může stát, že se varování objeví i případě validního dotazu.
-===== Shrnutí: Nač je který typ dotazu vhodný =====+
  
-^  Typ dotazu  ^  Nač je vhodný  ^  Jak funguje  ^ <html><div class="vertical"><a href="https://wiki.korpus.cz/doku.php/pojmy:regularni_vyrazy">Regulární&nbsp;výrazy</a></div></html> ^  <html><div class="vertical"><a href="https://wiki.korpus.cz/doku.php/pojmy:case-sensitive">Case&nbsp;sensitive</a></div></html>  ^  <html><div class="vertical">Víceslovné&nbsp;dotazy</div></html>  ^  <html><div class="vertical">Slovní&nbsp;druhy</div></html>  ^  Příklady +Je-li zadán dotaz, je možné spustit vyhledávání buď kliknutím na tlačítko Hledatnebo stisknutím klávesy Enter (kurzor musí být umístěve vstupním řádku).  
-^ Základní | pro orientační a rychlé hledání | Vyhledá vložený výraz jako slovní tvar bez ohledu na velikost písmen; jde-li zároveň o základní slovníkový tvar (lemma), vyhledají se také všechny jeho tvary. |  ✗  |  ✗  |  ✓  |  ✗  | ''černý kočka'' → //černá kočkačernou kočku, černých koček…//\\ ''černá kočka'' → //černá kočka// | +
-^ Lemma  | pro analýzu celého paradigmatu/lexému | Vyhledá všechny tvary přiřazené k danému [[pojmy:lemma|lemmatu]]. |  ✓  |  ✓  |  ✗  |  ✓  | ''černý'' → //černý, černému, černá, černé, černými…//\\ ''kočka'' → //kočka, kočku, koček, kočkám…//+
-^ Fráze | pro posloupnost několika slovních tvarů | Vyhledá zadanou frázi složenou z konkrétních slovních tvarů. |  ✓  |  (✓)((Lze ovlivnit pomocí volby //Shoda velikosti písmen// pod dotazovacím řádkem.))  |  ✓  |  ✗  | ''černý pes'' → //černý pes//\\ ''český pes'' → //český pes//\\ ''černého psa'' → //černého psa// | +
-^ Slovní tvar | pro analýzu jednoho konkrétního tvaru | Vyhledá zadaný slovní tvar ([[pojmy:word|word]]). |  ✓  |  (✓)((Lze ovlivnit pomocí volby //Shoda velikosti písmen// pod dotazovacím řádkem.))  |  ✗  |  ✓  | ''jakkoli'' → //jakkoli//\\ ''jakkoliv'' → //jakkoliv//\\ ''jakkoli.*'' → //jakkoli, jakkoliv, Jakkoli, JAKKOLIV…//+
-^ Část slova | pro vyhledání řetězce znaků kdekoli ve slově | Vyhledá po sobě následující znaky v rámci jednoho slova. |  ✓  |  ✓  |  ✗  |  ✗  | ''pra'' → //praděda, praxe, doprava, lepra…//\\ ''křá'' → //pookřát, křáp, Jiskřákovi…//+
-^ CQL | pro vyhledání všeho, co lze pomocí korpusového manažeru vyhledat | CQL je [[pojmy:dotazovaci_jazyk|Corpus Query Language]], korpusový dotazovací jazyk (do něhož si rozhraní KonText samo interně převádí všechny předchozí typy dotazů).  ✓  |  ✓  |  ✓  |  ✓  | ''[lemma=<nowiki>"</nowiki>kočka<nowiki>"</nowiki>]'' → //kočka, kočku, koček, kočkám…//\\ ''[word=<nowiki>"</nowiki>černá<nowiki>"</nowiki>]'' → //černá//\\  ''[lemma=<nowiki>"</nowiki>číst<nowiki>"</nowiki>][tag=<nowiki>"</nowiki>N.*<nowiki>"</nowiki>]'' → //číst levity, četli článek, nečtete noviny…// |+
  
-<html> 
-<script> 
-(function() { 
-  [].forEach.call(document.getElementsByClassName("vertical"), function(v) { 
-    var w = v.offsetWidth, 
-        h = v.offsetHeight; 
-    v.style.width = h + "px"; 
-    v.style.height = w + "px"; 
-    v.style.transform = "translate(" + (w/2 - h/2) + "px, " + (w/2 - h/2) + "px) rotate(270deg)"; 
-    //v.style.whiteSpace = "nowrap"; 
-  }); 
-})(); 
-</script> 
-<style> 
-.vertical a { 
-  text-decoration: none; 
-  background: none !important; 
-} 
-</style> 
-</html> 
 ===== Jak citovat korpus ===== ===== Jak citovat korpus =====