Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
kurz:prvni_dotaz [2021/01/07 12:16] – michalskrabal | kurz:prvni_dotaz [2021/03/08 10:31] (aktuální) – [Jak citovat korpus] vaclavcvrcek |
---|
V úvodní lekci se naučíme zadávat do korpusu dotazy a vysvětlíme si, v čem se liší jejich různé typy. Na závěr si ještě ukážeme, jak korpusy citovat. | V úvodní lekci se naučíme zadávat do korpusu dotazy a vysvětlíme si, v čem se liší jejich různé typy. Na závěr si ještě ukážeme, jak korpusy citovat. |
| |
Rozhraní **KonText** spustíme odkazem na horní liště portálu [[https://www.korpus.cz|www.korpus.cz]] nebo přímo, zadáním adresy [[https://kontext.korpus.cz]]. První dotaz zadáme po [[kurz:zaciname|registraci a přihlášení]], píšeme ho do prázdného řádku s názvem **Dotaz**. | Rozhraní **KonText** spustíme odkazem na horní liště portálu [[https://www.korpus.cz|www.korpus.cz]] nebo přímo, zadáním adresy [[https://www.korpus.cz/kontext]]. K plnohodnotné práci s rozhraním je nezbytné se [[kurz:zaciname|zaregistrovat a přihlásit se k svému účtu]]. První dotaz napíšeme do prázdného dotazovacího řádku. |
| |
[{{:kurz:zakladnidotaz.png?500|Zadání nového dotazu do [[manualy:kontext:index|rozhraní KonText]] }}]\\ | |
| |
===== Výchozí nastavení ===== | ===== Výchozí nastavení ===== |
| |
Hledání je ve [[manualy:kontext:novy_dotaz|formuláři pro zadávání nového dotazu]] automaticky přednastaveno na nejnovější referenční vyvážený korpus (my ale budeme často pracovat i se starším korpusem [[cnk:syn2010|SYN2010]]) a jako výchozí (defaultní) je nastaven typ dotazu zvaný //základní//. Korpus, s kterým pracujete, je vždy uveden v levém horním rohu pod logem rozhraní, kde se nachází tzv. //drobečková navigace//, zaznamenávající průběh manipulace s dotazem; pokud kliknete na název korpusu, dostanete se k podrobnějším informacím o něm včetně toho, jak zvolený korpus [[cnk:citace|citovat]]. | Hledání je ve [[manualy:kontext:novy_dotaz|formuláři pro zadávání nového dotazu]] automaticky přednastaveno na nejnovější referenční vyvážený korpus, tj. [[cnk:syn2020|SYN2020]] (my ale budeme často pracovat i se staršími korpusy) a jako výchozí (defaultní) je nastaven jednoduchý typ dotazu. Korpus, s kterým pracujete, je vždy uveden v levém horním rohu pod logem rozhraní, kde se nachází tzv. //drobečková navigace//, zaznamenávající průběh manipulace s dotazem; pokud kliknete na název korpusu, dostanete se k podrobnějším informacím o něm včetně toho, jak zvolený korpus [[cnk:citace|citovat]]. |
| |
Do dotazovacího řádku v [[manualy:kontext:index|rozhraní KonText]] můžete napsat jakékoli slovo či kombinaci slov a sledovat, kolikrát se v daném korpusu vyskytuje. (Je dobré mít na paměti, že pro [[pojmy:korpusovy_manazer|korpusový manažer]] je slovo pouhým řetězcem alfabetických znaků a že umí vyhledávat i znaky jiné povahy, např. číslice či [[pojmy:regularni_vyrazy|regulární výrazy]].) | Do dotazovacího řádku v [[manualy:kontext:index|rozhraní KonText]] můžete napsat jakékoli slovo či kombinaci slov a sledovat, kolikrát se v daném korpusu vyskytuje. (Je dobré mít na paměti, že pro [[pojmy:korpusovy_manazer|korpusový manažer]] je slovo pouhým řetězcem alfabetických znaků a že umí vyhledávat i znaky jiné povahy, např. číslice či [[pojmy:regularni_vyrazy|regulární výrazy]].) |
| |
<WRAP round help 40%> | <WRAP round help 40%> |
**Zkuste si v korpusu SYN2015 najít třeba** | **Zkuste si v korpusu SYN2020 najít třeba** |
- své jméno, případně příjmení | - své jméno, případně příjmení |
- otazník -- //?// (tj. tázací věty) či vykřičník -- //!// (tedy mj. věty zvolací) | - otazník -- //?// (tj. tázací věty) či vykřičník -- //!// (tedy mj. věty zvolací) |
</WRAP> | </WRAP> |
| |
[{{:kurz:kuriozita_kontext.png?700|Konkordance slova //kuriozita//. }}] | [{{:kurz:kuriozita_kontext.png?direct&700|Konkordance slova //kuriozita//. }}] |
| |
<WRAP clear/> | <WRAP clear/> |
| |
\\ | \\ |
Funguje vám vyhledávání? Ověřte si výsledky v korpusu SYN2015: | Funguje vám vyhledávání? Ověřte si výsledky v korpusu SYN2020: |
| |
^ Dotaz ^ Počet výskytů ^ Relativní frekvence ([[pojmy:ipm|i.p.m.]]) ^ | ^ Dotaz ^ Počet výskytů ^ Relativní frekvence ([[pojmy:ipm|i.p.m.]]) ^ |
| ''kuriozita'' | 467 | 3,87 | | | ''kuriozita'' | 456 | 3,74 | |
| ''?'' | 483 771 | 4006,43 | | | ''?'' | 493 417 | 4050,15 | |
| ''!'' | 197 997 | 1639,74 | | | ''!'' | 179 982 | 1477,36 | |
| ''cmunda'' | 6 | 0,05 | | | ''cmunda'' | 9 | 0,07 | |
| ''eklovat'' | 9 | 0,07 | | | ''eklovat'' | 6 | 0,05 | |
| ''eklovat se'' | 1 | 0,01 | | | ''eklovat se'' | 1 | 0,01 | |
| |
Můžeme si všimnout, že v korpusu [[cnk:syn2015|SYN2015]], který obsahuje zhruba sto milionů [[pojmy:pozice|pozic]], má jeden výskyt určitého výrazu (např. kombinace //eklovat se//) relativní [[pojmy:frekvence|frekvenci]] 0,01 výskytů na milion. Proč to stojí za povšimnutí? Relativní frekvence je velmi důležitá při srovnávání výsledků z různě velkých korpusů (10 výskytů ve stomilionovém korpusu neznamená stejnou četnost jako 10 výskytů v korpusu miliardovém). | Můžeme si všimnout, že v korpusu [[cnk:syn2020|SYN2020]], který obsahuje zhruba sto milionů [[pojmy:pozice|pozic]], má jeden výskyt určitého výrazu (např. kombinace //eklovat se//) relativní [[pojmy:frekvence|frekvenci]] 0,01 výskytů na milion. Proč to stojí za povšimnutí? Relativní frekvence je velmi důležitá při srovnávání výsledků z různě velkých korpusů (10 výskytů ve stomilionovém korpusu neznamená stejnou četnost jako 10 výskytů v korpusu miliardovém). |
| |
A ještě jedna věc: vyhledanému výrazu či kombinaci výrazů -- v našem rozhraní <fc #e2007a>**růžově zvýrazněnému**</fc> -- se říká [[pojmy:kwic|KWIC]]; tato zkratka pochází z anglického //key word in context// (klíčové slovo v kontextu). Celému řádku se říká konkordanční řádek, ten je součástí [[pojmy:konkordance|konkordance]] (seznamu všech konkordančních řádků, tedy všech výskytů hledaného výrazu spolu s jejich kontexty). | A ještě jedna věc: vyhledanému výrazu či kombinaci výrazů -- v našem rozhraní <fc #e2007a>**růžově zvýrazněnému**</fc> -- se říká [[pojmy:kwic|KWIC]]; tato zkratka pochází z anglického //key word in context// (klíčové slovo v kontextu). Celému řádku se říká konkordanční řádek, ten je součástí [[pojmy:konkordance|konkordance]] (seznamu všech konkordančních řádků, tedy všech výskytů hledaného výrazu spolu s jejich kontexty). |
===== Typy dotazů ===== | ===== Typy dotazů ===== |
| |
FIXME | |
V rozhraní KonText rozlišujeme mezi dvěma základními typy dotazů: | V rozhraní KonText rozlišujeme mezi dvěma základními typy dotazů: |
| |
Výchozím nastavením je **jednoduchý dotaz**, v němž je dále implicitně nastaveno nerozlišování velikosti písmen (přepínač Shoda velikosti písmen je vypnutý), není povoleno použití regulárních výrazů (přepínač Povolit regulární výrazy je vypnutý) a vyhledávání je nastaveno podle výchozího atributu lemma|word (v SYN2020 lemma|sublemma|word), čímž se vyhledá nejen uvedený tvar (podle atributu word), ale i další tvary slova (podle atributů lemma nebo sublemma), pokud je zadaný tvar zároveň lemmatem nebo sublemmatem (poznámka: oproti předchozím verzím KonTextu nejde o změnu, jen o zobecnění chování původního základního dotazu). Do vstupního řádku je možné kromě jednotlivých slov zadávat i celé fráze. Vyhledávání lze na jednotlivých pozicích upřesnit jednak pomocí [[manualy:kontext:novy_dotaz#naseptavac|našeptávače]], jednak změnou výchozího atributu (atribut je pak platný pro všechny pozice) a/nebo přepnutím shody velikosti písmen. Složitější dotazy je možné pokládat i v rámci jednoduchého dotazu, pokud uživatel využije volby Povolit regulární výrazy. | Výchozím nastavením je **jednoduchý dotaz**, v němž je dále implicitně nastaveno nerozlišování velikosti písmen (přepínač Shoda velikosti písmen je vypnutý), není povoleno použití regulárních výrazů (přepínač Povolit regulární výrazy je vypnutý) a vyhledávání je nastaveno podle výchozího atributu ''lemma|word'' (v SYN2020 ''lemma|sublemma|word''), čímž se vyhledá nejen uvedený tvar (podle atributu word), ale i další tvary slova (podle atributů lemma nebo sublemma), pokud je zadaný tvar zároveň lemmatem nebo sublemmatem (poznámka: oproti předchozím verzím KonTextu nejde o změnu, jen o zobecnění chování původního základního dotazu). Do vstupního řádku je možné kromě jednotlivých slov zadávat i celé fráze. Vyhledávání lze na jednotlivých pozicích upřesnit jednak pomocí [[manualy:kontext:novy_dotaz#naseptavac|našeptávače]], jednak změnou výchozího atributu (atribut je pak platný pro všechny pozice) a/nebo přepnutím shody velikosti písmen. Složitější dotazy je možné pokládat i v rámci jednoduchého dotazu, pokud uživatel využije volby Povolit regulární výrazy. |
| |
**Pokročilý dotaz** se aktivuje spínačem nad vstupním řádkem a plně odpovídá dotazu typu CQL předchozích verzí KonTextu. Při zadávání dotazovacího jazyka CQL KonText automaticky kontroluje a zvýrazňuje syntax dotazu. V případě, že dotaz není validní, KonText na to uživatele upozorní a umožní mu dotaz před vyhodnocením opravit. Vzhledem k širokým možnostem CQL dotazování však není kontrola správnosti dotazu vždy přesná, výjimečně se tak může stát, že se varování objeví i v případě validního dotazu. | **Pokročilý dotaz** se aktivuje spínačem nad vstupním řádkem a plně odpovídá dotazu typu CQL předchozích verzí KonTextu. Při zadávání dotazovacího jazyka CQL KonText automaticky kontroluje a zvýrazňuje syntax dotazu. V případě, že dotaz není validní, KonText na to uživatele upozorní a umožní mu dotaz před vyhodnocením opravit. Vzhledem k širokým možnostem CQL dotazování však není kontrola správnosti dotazu vždy přesná, výjimečně se tak může stát, že se varování objeví i v případě validního dotazu. |
===== Jak citovat korpus ===== | ===== Jak citovat korpus ===== |
| |
[{{ :kurz:jak_citovat_korpus.png?300|Zobrazení základních informací o korpusu a jeho bibliografické citace. }}] | [{{ :kurz:jak_citovat_korpus.png?direct&300|Zobrazení základních informací o korpusu a jeho bibliografické citace. }}] |
| |
Pokud ve svém lingvistickém (či jiném) výzkumu používáte některý z [[cnk:uvod|korpusů ČNK]], je třeba ho citovat v seznamu literatury. Pádných důvodů k tomu je hned několik: | Pokud ve svém lingvistickém (či jiném) výzkumu používáte některý z [[cnk:uvod|korpusů ČNK]], je třeba ho citovat v seznamu literatury. Pádných důvodů k tomu je hned několik: |
| |
- Každý výzkum by měl být replikovatelný, tedy ověřitelný dalšími badateli. V případě [[pojmy:referencni|korpusů referenčních]], jako je např. [[cnk:syn2015|SYN2015]] nebo [[cnk:oral2013|ORAL2013]], lze stejným dotazem vždy dojít ke stejnému výsledku, tedy i ověřit závěry vyvozené z jakéhokoli předchozího výzkumu. U korpusů verzovaných (např. [[cnk:syn|SYN]], [[cnk:intercorp|InterCorp]], [[cnk:diakorp|DIAKORP]]), které s každou novou verzí rostou, je třeba dodat také informaci o verzi. | - Každý výzkum by měl být replikovatelný, tedy ověřitelný dalšími badateli. V případě [[pojmy:referencni|korpusů referenčních]], jako je např. [[cnk:syn2020|SYN2020]] nebo [[cnk:oral2013|ORAL2013]], lze stejným dotazem vždy dojít ke stejnému výsledku, tedy i ověřit závěry vyvozené z jakéhokoli předchozího výzkumu. U korpusů verzovaných (např. [[cnk:syn|SYN]], [[cnk:intercorp|InterCorp]], [[cnk:diakorp|DIAKORP]], [[cnk:online|ONLINE]]), které s každou novou verzí rostou, je třeba dodat také informaci o verzi, příp. o datu zveřejnění. |
- Bez údaje o tom, v kterém z korpusů ČNK byl daný jev vyhledán, nemůže být jeho analýza úplná. U většiny jevů totiž zcela zásadně záleží na velikosti korpusu (viz např. [[pojmy:typ#pomer_poctu_typu_a_tokenu|TTR]]), ale i na tom, o jaký typ dat jde (např. data psaná vs. mluvená). | - Bez údaje o tom, v kterém z korpusů ČNK byl daný jev vyhledán, nemůže být jeho analýza úplná. U většiny jevů totiž zcela zásadně záleží na velikosti korpusu (viz např. [[pojmy:typ#pomer_poctu_typu_a_tokenu|TTR]]), ale i na tom, o jaký typ dat jde (např. data psaná vs. mluvená). |
- Korpusy ČNK jsou zahrnuty v [[https://www.rvvi.cz/riv|RIV]] a na základě toho je třeba je citovat jako jakékoli jiné akademické dílo. | - Korpusy ČNK jsou zahrnuty v [[https://www.rvvi.cz/riv|RIV]] a na základě toho je třeba je citovat jako jakékoli jiné akademické dílo. |
| |
<WRAP round help 70%> | <WRAP round help 70%> |
* Umíte v korpusu [[cnk:syn2015|SYN2015]] najít všechny výskyty slovního tvaru //nejneobvyklejší//? | * Umíte v korpusu [[cnk:syn2020|SYN2020]] najít všechny výskyty slovního tvaru //nejvznešenější//? |
* Pokud byste chtěli zobrazit všechny výskyty tohoto slova spadající pod příslušný základní tvar, použijte lemma //obvyklý//. | * Pokud byste chtěli zobrazit všechny výskyty tohoto slova spadající pod příslušný základní tvar, použijte lemma //vznešený//. |
* Výsledek najdete na speciální stránce s [[kurz:reseni_ukolu|řešeními úkolů]]. | * Výsledek najdete na speciální stránce s [[kurz:reseni_ukolu|řešeními úkolů]]. |
</WRAP> | </WRAP> |