AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
kurz:prvni_dotaz [2021/02/18 08:46] – [1. lekce: Začínáme] Václav Cvrčekkurz:prvni_dotaz [2021/03/08 10:31] (aktuální) – [Jak citovat korpus] Václav Cvrček
Řádek 3: Řádek 3:
 V úvodní lekci se naučíme zadávat do korpusu dotazy a vysvětlíme si, v čem se liší jejich různé typy. Na závěr si ještě ukážeme, jak korpusy citovat. V úvodní lekci se naučíme zadávat do korpusu dotazy a vysvětlíme si, v čem se liší jejich různé typy. Na závěr si ještě ukážeme, jak korpusy citovat.
  
-Rozhraní **KonText** spustíme odkazem na horní liště portálu [[https://www.korpus.cz|www.korpus.cz]] nebo přímo, zadáním adresy [[https://kontext.korpus.cz]]. K  plnohodnotné práci s rozhraním je nezbytné se [[kurz:zaciname|zaregistrovat a přihlásit se k svému účtu]]. První dotaz napíšeme ho do prázdného dotazovacího řádku.  +Rozhraní **KonText** spustíme odkazem na horní liště portálu [[https://www.korpus.cz|www.korpus.cz]] nebo přímo, zadáním adresy [[https://www.korpus.cz/kontext]]. K  plnohodnotné práci s rozhraním je nezbytné se [[kurz:zaciname|zaregistrovat a přihlásit se k svému účtu]]. První dotaz napíšeme do prázdného dotazovacího řádku. 
- +
-[{{:kurz:zakladnidotaz.png?500|Zadání nového dotazu do [[manualy:kontext:index|rozhraní KonText]] FIXME }}]\\+
  
 ===== Výchozí nastavení ===== ===== Výchozí nastavení =====
Řádek 14: Řádek 12:
  
 <WRAP round help 40%> <WRAP round help 40%>
-**Zkuste si v korpusu SYN2015 najít třeba**+**Zkuste si v korpusu SYN2020 najít třeba**
   - své jméno, případně příjmení   - své jméno, případně příjmení
   - otazník -- //?// (tj. tázací věty) či vykřičník -- //!// (tedy mj. věty zvolací)   - otazník -- //?// (tj. tázací věty) či vykřičník -- //!// (tedy mj. věty zvolací)
Řádek 24: Řádek 22:
 </WRAP> </WRAP>
  
-[{{:kurz:kuriozita_kontext.png?700|Konkordance slova //kuriozita//. }}]+[{{:kurz:kuriozita_kontext.png?direct&700|Konkordance slova //kuriozita//. }}]
  
 <WRAP clear/> <WRAP clear/>
  
 \\ \\
-Funguje vám vyhledávání? Ověřte si výsledky v korpusu SYN2015:+Funguje vám vyhledávání? Ověřte si výsledky v korpusu SYN2020:
  
 ^ Dotaz ^ Počet výskytů ^ Relativní frekvence ([[pojmy:ipm|i.p.m.]]) ^ ^ Dotaz ^ Počet výskytů ^ Relativní frekvence ([[pojmy:ipm|i.p.m.]]) ^
-| ''kuriozita'' |  467 |  3,87 +| ''kuriozita'' |  456 |  3,74 
-| ''?'' |  483 771 |  4006,43 +| ''?'' |  493 417 |  4050,15 
-| ''!'' |  197 997 |  1639,74 +| ''!'' |  179 982 |  1477,36 
-| ''cmunda'' |  |  0,05 +| ''cmunda'' |  |  0,07 
-| ''eklovat'' |  |  0,07 |+| ''eklovat'' |  |  0,05 |
 | ''eklovat se'' |  1 |  0,01 | | ''eklovat se'' |  1 |  0,01 |
  
-Můžeme si všimnout, že v korpusu [[cnk:syn2015|SYN2015]], který obsahuje zhruba sto milionů [[pojmy:pozice|pozic]], má jeden výskyt určitého výrazu (např. kombinace //eklovat se//) relativní [[pojmy:frekvence|frekvenci]] 0,01 výskytů na milion. Proč to stojí za povšimnutí? Relativní frekvence je velmi důležitá při srovnávání výsledků z různě velkých korpusů (10 výskytů ve stomilionovém korpusu neznamená stejnou četnost jako 10 výskytů v korpusu miliardovém).+Můžeme si všimnout, že v korpusu [[cnk:syn2020|SYN2020]], který obsahuje zhruba sto milionů [[pojmy:pozice|pozic]], má jeden výskyt určitého výrazu (např. kombinace //eklovat se//) relativní [[pojmy:frekvence|frekvenci]] 0,01 výskytů na milion. Proč to stojí za povšimnutí? Relativní frekvence je velmi důležitá při srovnávání výsledků z různě velkých korpusů (10 výskytů ve stomilionovém korpusu neznamená stejnou četnost jako 10 výskytů v korpusu miliardovém).
  
 A ještě jedna věc: vyhledanému výrazu či kombinaci výrazů -- v našem rozhraní <fc #e2007a>**růžově zvýrazněnému**</fc> -- se říká [[pojmy:kwic|KWIC]]; tato zkratka pochází z anglického //key word in context// (klíčové slovo v kontextu). Celému řádku se říká konkordanční řádek, ten je součástí [[pojmy:konkordance|konkordance]] (seznamu všech konkordančních řádků, tedy všech výskytů hledaného výrazu spolu s jejich kontexty). A ještě jedna věc: vyhledanému výrazu či kombinaci výrazů -- v našem rozhraní <fc #e2007a>**růžově zvýrazněnému**</fc> -- se říká [[pojmy:kwic|KWIC]]; tato zkratka pochází z anglického //key word in context// (klíčové slovo v kontextu). Celému řádku se říká konkordanční řádek, ten je součástí [[pojmy:konkordance|konkordance]] (seznamu všech konkordančních řádků, tedy všech výskytů hledaného výrazu spolu s jejich kontexty).
Řádek 55: Řádek 53:
 ===== Typy dotazů ===== ===== Typy dotazů =====
  
-FIXME 
 V rozhraní KonText rozlišujeme mezi dvěma základními typy dotazů: V rozhraní KonText rozlišujeme mezi dvěma základními typy dotazů:
  
-Výchozím nastavením je **jednoduchý dotaz**, v němž je dále implicitně nastaveno nerozlišování velikosti písmen (přepínač Shoda velikosti písmen je vypnutý), není povoleno použití regulárních výrazů (přepínač Povolit regulární výrazy je vypnutý) a vyhledávání je nastaveno podle výchozího atributu lemma|word (v SYN2020 lemma|sublemma|word), čímž se vyhledá nejen uvedený tvar (podle atributu word), ale i další tvary slova (podle atributů lemma nebo sublemma), pokud je zadaný tvar zároveň lemmatem nebo sublemmatem (poznámka: oproti předchozím verzím KonTextu nejde o změnu, jen o zobecnění chování původního základního dotazu). Do vstupního řádku je možné kromě jednotlivých slov zadávat i celé fráze. Vyhledávání lze na jednotlivých pozicích upřesnit jednak pomocí [[manualy:kontext:novy_dotaz#naseptavac|našeptávače]], jednak změnou výchozího atributu (atribut je pak platný pro všechny pozice) a/nebo přepnutím shody velikosti písmen. Složitější dotazy je možné pokládat i v rámci jednoduchého dotazu, pokud uživatel využije volby Povolit regulární výrazy.+Výchozím nastavením je **jednoduchý dotaz**, v němž je dále implicitně nastaveno nerozlišování velikosti písmen (přepínač Shoda velikosti písmen je vypnutý), není povoleno použití regulárních výrazů (přepínač Povolit regulární výrazy je vypnutý) a vyhledávání je nastaveno podle výchozího atributu ''lemma|word'' (v SYN2020 ''lemma|sublemma|word''), čímž se vyhledá nejen uvedený tvar (podle atributu word), ale i další tvary slova (podle atributů lemma nebo sublemma), pokud je zadaný tvar zároveň lemmatem nebo sublemmatem (poznámka: oproti předchozím verzím KonTextu nejde o změnu, jen o zobecnění chování původního základního dotazu). Do vstupního řádku je možné kromě jednotlivých slov zadávat i celé fráze. Vyhledávání lze na jednotlivých pozicích upřesnit jednak pomocí [[manualy:kontext:novy_dotaz#naseptavac|našeptávače]], jednak změnou výchozího atributu (atribut je pak platný pro všechny pozice) a/nebo přepnutím shody velikosti písmen. Složitější dotazy je možné pokládat i v rámci jednoduchého dotazu, pokud uživatel využije volby Povolit regulární výrazy.
  
 **Pokročilý dotaz** se aktivuje spínačem nad vstupním řádkem a plně odpovídá dotazu typu CQL předchozích verzí KonTextu. Při zadávání dotazovacího jazyka CQL KonText automaticky kontroluje a zvýrazňuje syntax dotazu. V případě, že dotaz není validní, KonText na to uživatele upozorní a umožní mu dotaz před vyhodnocením opravit. Vzhledem k širokým možnostem CQL dotazování však není kontrola správnosti dotazu vždy přesná, výjimečně se tak může stát, že se varování objeví i v případě validního dotazu. **Pokročilý dotaz** se aktivuje spínačem nad vstupním řádkem a plně odpovídá dotazu typu CQL předchozích verzí KonTextu. Při zadávání dotazovacího jazyka CQL KonText automaticky kontroluje a zvýrazňuje syntax dotazu. V případě, že dotaz není validní, KonText na to uživatele upozorní a umožní mu dotaz před vyhodnocením opravit. Vzhledem k širokým možnostem CQL dotazování však není kontrola správnosti dotazu vždy přesná, výjimečně se tak může stát, že se varování objeví i v případě validního dotazu.
Řádek 66: Řádek 63:
 ===== Jak citovat korpus ===== ===== Jak citovat korpus =====
  
-[{{ :kurz:jak_citovat_korpus.png?300|Zobrazení základních informací o korpusu a jeho bibliografické citace. }}]+[{{ :kurz:jak_citovat_korpus.png?direct&300|Zobrazení základních informací o korpusu a jeho bibliografické citace. }}]
  
 Pokud ve svém lingvistickém (či jiném) výzkumu používáte některý z [[cnk:uvod|korpusů ČNK]], je třeba ho citovat v seznamu literatury. Pádných důvodů k tomu je hned několik: Pokud ve svém lingvistickém (či jiném) výzkumu používáte některý z [[cnk:uvod|korpusů ČNK]], je třeba ho citovat v seznamu literatury. Pádných důvodů k tomu je hned několik:
  
-  - Každý výzkum by měl být replikovatelný, tedy ověřitelný dalšími badateli. V případě [[pojmy:referencni|korpusů referenčních]], jako je např. [[cnk:syn2015|SYN2015]] nebo [[cnk:oral2013|ORAL2013]], lze stejným dotazem vždy dojít ke stejnému výsledku, tedy i ověřit závěry vyvozené z jakéhokoli předchozího výzkumu. U korpusů verzovaných (např. [[cnk:syn|SYN]], [[cnk:intercorp|InterCorp]], [[cnk:diakorp|DIAKORP]]), které s každou novou verzí rostou, je třeba dodat také informaci o verzi.+  - Každý výzkum by měl být replikovatelný, tedy ověřitelný dalšími badateli. V případě [[pojmy:referencni|korpusů referenčních]], jako je např. [[cnk:syn2020|SYN2020]] nebo [[cnk:oral2013|ORAL2013]], lze stejným dotazem vždy dojít ke stejnému výsledku, tedy i ověřit závěry vyvozené z jakéhokoli předchozího výzkumu. U korpusů verzovaných (např. [[cnk:syn|SYN]], [[cnk:intercorp|InterCorp]], [[cnk:diakorp|DIAKORP]], [[cnk:online|ONLINE]]), které s každou novou verzí rostou, je třeba dodat také informaci o verzi, příp. o datu zveřejnění.
   - Bez údaje o tom, v kterém z korpusů ČNK byl daný jev vyhledán, nemůže být jeho analýza úplná. U většiny jevů totiž zcela zásadně záleží na velikosti korpusu (viz např. [[pojmy:typ#pomer_poctu_typu_a_tokenu|TTR]]), ale i na tom, o jaký typ dat jde (např. data psaná vs. mluvená).   - Bez údaje o tom, v kterém z korpusů ČNK byl daný jev vyhledán, nemůže být jeho analýza úplná. U většiny jevů totiž zcela zásadně záleží na velikosti korpusu (viz např. [[pojmy:typ#pomer_poctu_typu_a_tokenu|TTR]]), ale i na tom, o jaký typ dat jde (např. data psaná vs. mluvená).
   - Korpusy ČNK jsou zahrnuty v [[https://www.rvvi.cz/riv|RIV]] a na základě toho je třeba je citovat jako jakékoli jiné akademické dílo.   - Korpusy ČNK jsou zahrnuty v [[https://www.rvvi.cz/riv|RIV]] a na základě toho je třeba je citovat jako jakékoli jiné akademické dílo.
Řádek 80: Řádek 77:
  
 <WRAP round help 70%> <WRAP round help 70%>
-  * Umíte v korpusu [[cnk:syn2015|SYN2015]] najít všechny výskyty slovního tvaru //nejneobvyklejší//? +  * Umíte v korpusu [[cnk:syn2020|SYN2020]] najít všechny výskyty slovního tvaru //nejvznešenější//? 
-  * Pokud byste chtěli zobrazit všechny výskyty tohoto slova spadající pod příslušný základní tvar, použijte lemma //obvyklý//.+  * Pokud byste chtěli zobrazit všechny výskyty tohoto slova spadající pod příslušný základní tvar, použijte lemma //vznešený//.
   * Výsledek najdete na speciální stránce s [[kurz:reseni_ukolu|řešeními úkolů]].   * Výsledek najdete na speciální stránce s [[kurz:reseni_ukolu|řešeními úkolů]].
 </WRAP> </WRAP>