Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
kurz:pokrocile_dotazy [2021/03/23 10:44] – [Hledání v rámci jedné věty] vaclavcvrcek | kurz:pokrocile_dotazy [2021/03/23 10:54] – [Vyzkoušejte si na závěr] vaclavcvrcek |
---|
| |
<WRAP round important 40%> | <WRAP round important 40%> |
Konec věty ''</s>'' má velmi podobnou značku jako její obsah ''<s/>''. | Nenechte se splést tím, že konec věty ''</s>'' má velmi podobnou značku jako její obsah ''<s/>''. |
</WRAP> | </WRAP> |
| |
| |
<WRAP round help 60%> | <WRAP round help 60%> |
Ve stejném korpusu (SYN2009PUB) zadejte dotaz ''%%[lemma="vlk"][]+[lemma="koza"][]+[lemma="celý"]%% within <s/>'' a porovnejte přesnost vyhledávání s pečlivě specifikovanými počty pozic. | V korpusu SYN2009PUB zadejte dotaz ''%%[lemma="vlk"][]+[lemma="koza"][]+[lemma="celý"]%% within <s/>'' a porovnejte přesnost vyhledávání s pečlivě specifikovanými počty pozic. |
| |
Výskytů je oproti předchozím dotazům o něco více, [[https://kontext.korpus.cz/view?q=~HBFbCLdp&attr_allpos=kw&attrs=word&corpname=syn2009pub&ctxattrs=word&pagesize=30&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|celkem 312]] V těch nových figuruje např. věta //<fc #FF00FF>Vlk</fc> by měl předstírat, že žere, a <fc #008000>koza</fc> rozhodně musí zůstat celá.// Mezi klíčovými slovy //vlk// a //koza// je, včetně samostatně počítané interpunkce, dohromady 8 pozic, ve větě //%%...%% uzná sice obžalované vinnými (takže <fc #FF00FF>vlk</fc> se nažere), ale zároveň poukáže na to, že dosud nebyli trestáni a žili řádným občanským životem (<fc #008000>koza</fc> zůstane celá) -- takže mohou domů.// dokonce 20. Všechny nově nalezené případy jsou aktualizacemi námi hledaného frazému, v tomto případě se tudíž jako nejpřesnější jeví použití podmínky within. | Výskytů je oproti předchozím dotazům o něco více, [[https://kontext.korpus.cz/view?q=~HBFbCLdp&attr_allpos=kw&attrs=word&corpname=syn2009pub&ctxattrs=word&pagesize=30&refs=%3Dopus.nazev&structs=p%2Cg%2Cerr%2Ccorr&viewmode=kwic&|celkem 312]] V těch nových figuruje např. věta //<fc #FF00FF>Vlk</fc> by měl předstírat, že žere, a <fc #008000>koza</fc> rozhodně musí zůstat celá.// Mezi klíčovými slovy //vlk// a //koza// je, včetně samostatně počítané interpunkce, dohromady 8 pozic, ve větě //%%...%% uzná sice obžalované vinnými (takže <fc #FF00FF>vlk</fc> se nažere), ale zároveň poukáže na to, že dosud nebyli trestáni a žili řádným občanským životem (<fc #008000>koza</fc> zůstane celá) -- takže mohou domů.// dokonce 20. Všechny nově nalezené případy jsou aktualizacemi námi hledaného frazému, v tomto případě se tudíž jako nejpřesnější jeví použití podmínky within. |
===== Shoda (a neshoda) atributů ===== | ===== Shoda (a neshoda) atributů ===== |
| |
V CQL lze využít také dotaz na shodu či neshodu atributů dvou nebo více tokenů; jejich hodnoty přitom nemusejí být jinak stanoveny. Je však nejprve potřeba označit pozice, u kterých chceme shodu testovat, a to uvedením čísla a **dvojtečky** v dotazu před hranatou závorku. Například dotazem '' %%1:[pos="N"] [word="a"] 2:[pos="N"]%% '' hledáme sekvenci třÍ tokenů, z nichž první je substantivum označené jako <fc #ff0000>1</fc>, následuje slovní tvar //a// a po něm další substantivum označené jako <fc #ff0000>2</fc>. Shodu pak testujeme jako součást tzv. globální podmínky uvedené za znakem **&**, která je vždy až na konci celého dotazu. Samotný test shody se skládá z číselného odkazu na označenou pozici, **tečky** a názvu atributu, který se má shodovat, např. takto: | V CQL lze využít také dotaz na shodu či neshodu atributů dvou nebo více tokenů; jejich hodnoty přitom nemusejí být jinak stanoveny. Je však nejprve potřeba označit pozice, u kterých chceme shodu testovat, a to uvedením čísla a **dvojtečky** v dotazu před hranatou závorku. Například dotazem |
| |
'' %%1:[pos="N"] [word="a"] 2:[pos="N"] & 1.lemma = 2.lemma%% '' najde sekvenci substantivum, slovní tvar //a// a substantivum, přičemž lemmata obou substantiv jsou shodná. | '' %%1:[pos="N"] [word="a"] 2:[pos="N"]%% '' |
| |
| hledáme sekvenci třÍ tokenů, z nichž první je substantivum označené jako <fc #ff0000>1</fc>, následuje slovní tvar //a// a po něm další substantivum označené jako <fc #ff0000>2</fc>. Shodu pak testujeme jako součást tzv. globální podmínky uvedené za znakem **&**, která je vždy až na konci celého dotazu. Samotný test shody se skládá z číselného odkazu na označenou pozici, **tečky** a názvu atributu, který se má shodovat, např. takto: |
| |
| '' %%1:[pos="N"] [word="a"] 2:[pos="N"] & 1.lemma = 2.lemma%% '' |
| |
| najde sekvenci substantivum, slovní tvar //a// a substantivum, přičemž lemmata obou substantiv jsou shodná. |
| |
Chceme-li najít po sobě následující adjektivum a substantivum, které se shodují v pádě, zadáme dotaz:\\ | Chceme-li najít po sobě následující adjektivum a substantivum, které se shodují v pádě, zadáme dotaz:\\ |
| |
<WRAP round help 60%> | <WRAP round help 60%> |
* Zkuste zformulovat dotaz, jímž ověříte ne/existující aktualizace přísloví //těžko na cvičišti, lehko na bojišti// v korpusech [[cnk:syn2015|SYN2015]] a [[cnk:syn2013pub|SYN2013PUB]]. | * Zkuste zformulovat dotaz, jímž ověříte ne/existující aktualizace přísloví //těžko na cvičišti, lehko na bojišti// v korpusech [[cnk:syn2020|SYN2020]] a [[cnk:syn2013pub|SYN2013PUB]]. |
* A z jiného soudku: Nadávek odvozených od německého //Herr Gott// je nemálo (např. //hergot//, //herdek//, //hernajs// a jistě vymyslíte další). Vyhledejte co nejvíc takovýchto odvozenin v korpusu [[cnk:oral2013|ORAL2013]] a zjistěte, zda se jejich užití liší podle regionů. | * A z jiného soudku: Nadávek odvozených od německého //Herr Gott// je nemálo (např. //hergot//, //herdek//, //hernajs// a jistě vymyslíte další). Vyhledejte co nejvíc takovýchto odvozenin v korpusu [[cnk:oral2013|ORAL2013]] a zjistěte, zda se jejich užití liší podle regionů. |
| |