Toto je starší verze dokumentu!

Obsah

1. lekce: Začínáme

1. lekce: Začínáme

V úvodní lekci se naučíme zadávat do korpusu dotazy a vysvětlíme si, v čem se liší jejich různé typy. Na závěr si ještě ukážeme, jak korpusy citovat.

Rozhraní KonText spustíme odkazem na horní liště portálu www.korpus.cz nebo přímo, zadáním adresy https://kontext.korpus.cz. První dotaz zadáme po registraci a přihlášení, píšeme ho do prázdného řádku s názvem Dotaz.

Zadání nového dotazu do rozhraní KonText

Výchozí nastavení

Hledání je ve formuláři pro zadávání nového dotazu automaticky přednastaveno na nejnovější referenční vyvážený korpus (my ale budeme často pracovat i se starším korpusem SYN2010) a jako výchozí (defaultní) je nastaven typ dotazu zvaný základní. Korpus, s kterým pracujete, je vždy uveden v levém horním rohu pod logem rozhraní, kde se nachází tzv. drobečková navigace, zaznamenávající průběh manipulace s dotazem; pokud kliknete na název korpusu, dostanete se k podrobnějším informacím o něm včetně toho, jak zvolený korpus citovat.

Do dotazovacího řádku v rozhraní KonText můžete napsat jakékoli slovo či kombinaci slov a sledovat, kolikrát se v daném korpusu vyskytuje. (Je dobré mít na paměti, že pro korpusový manažer je slovo pouhým řetězcem alfabetických znaků a že umí vyhledávat i znaky jiné povahy, např. číslice či regulární výrazy.)

Zkuste si v korpusu SYN2015 najít třeba

své jméno, případně příjmení
otazník – ? (tj. tázací věty) či vykřičník – !
nějakou kuriozitu
- třeba přímo slovo kuriozita
- regionalismus cmunda
- hovorové eklovat
- třeba i s reflexivem eklovat se

Konkordance slova kuriozita.

Funguje vám vyhledávání? Ověřte si výsledky (korpus: SYN2015, typ dotazu: základní):

Dotaz	Počet výskytů	Relativní frekvence (i.p.m.)
`kuriozita`	467	3,87
`?`	483 771	4006,43
`cmunda`	6	0,05
`eklovat`	9	0,07
`eklovat se`	1	0,01

Můžeme si všimnout, že v korpusu SYN2015, který obsahuje zhruba sto milionů pozic, má jeden výskyt určitého výrazu (např. kombinace eklovat se) relativní frekvenci 0,01 výskytů na milion. Proč to stojí za povšimnutí? Relativní frekvence je velmi důležitá při srovnávání výsledků z různě velkých korpusů (10 výskytů ve stomilionovém korpusu neznamená stejnou četnost jako 10 výskytů v korpusu miliardovém).

A ještě jedna věc: vyhledanému výrazu či kombinaci výrazů – v našem rozhraní růžově zvýrazněnému – se říká KWIC; tato zkratka pochází z anglického key word in context (klíčové slovo v kontextu). Celému řádku se říká konkordanční řádek, ten je součástí konkordance (seznamu všech konkordančních řádků, tedy všech výskytů hledaného výrazu spolu s jejich kontexty).

Jak přejít na nový dotaz

Pokud chceme do KonTextu zadat další dotaz, přejdeme na něj pomocí menu Dotaz → Zadat nový dotaz.

TIP: Nejjednodušším způsobem, jak rychle zadat nový dotaz, je kliknout přímo na ikonu v levém horním rohu.

Typy dotazů

Celkem je v rozhraní KonText k dispozici 6 typů dotazů (základní, lemma, fráze, slovní tvar, část slova, CQL), každý z nich je vhodný na jiný typ zkoumání. Je však třeba mít na paměti, že ne ve všech korpusech můžeme hledat pomocí všech typů dotazů (např. v některém nelemmatizovaném korpusu z řady ORAL chybí z pochopitelných důvodů typ dotazu lemma).

Typ dotazu: Slovní tvar (word)

Z hlediska výkladu je nejjednodušším typem dotazu slovní tvar (angl. word). S jeho pomocí nacházíme v korpusu přesnou shodu, tj. daný tvar v podobě, v jaké byl zadán. Dotazu na slovní tvar pes tak odpovídá pouze tvar pes, dotazu koček odpovídá pouze tvar koček.

Jedinou odlišností mezi dotazem a výsledkem může být velikost písmen. Ve výchozím nastavení je dotaz na slovní tvar case-insensitive, což znamená, že hledá zadaný tvar bez ohledu na velikost písmen (dotazu londýně nebo Londýně odpovídají tvary Londýně, londýně ale i třeba LONDÝNĚ). Citlivost k velikosti písmen lze při zadání dotazu ovlivnit pomocí volby Shoda velikosti písmen pod dotazovacím řádkem.

V syntaxi CQL odpovídá tento typ dotazu následujícímu výrazu: [word="pes"] příp. [word="(?i)pes"].

Typ dotazu: Lemma

Dalším typem dotazu je lemma. Tímto termínem se označuje základní tvar pro nějaký výraz (chápaný také jako reprezentant celého paradigmatu). Většinou právě lemma hledáme ve slovníku (např. místo slovního tvaru chytrého hledáme ve slovníku chytrý). Do značné míry je dáno tradicí, např. u substantiv lemmatem zpravidla bývá 1. pád jednotného čísla. Zde je orientační přehled tvarů lemmatu pro různé slovní druhy:

Slovní druh	základní tvar	lemma	příklady slovních tvarů pod ně spadajících
substantiva	nom. sg.	les	lesům, lesy, lesích
adjektiva	nom. sg. mask., nestupňovaný tvar (pozitiv) ¹⁾	chytrý	chytrého, nejchytřejším, chytrejma
verba	infinitiv, bez negace	chodit	chodil, chodíš, nechodíme
adverbia	nestupňovaný tvar (pozitiv)	černě	černěji, nejčerněji
zájmena	nom. sg. mask. ²⁾	ten	to, ta, ti
číslovky	nom. sg. mask.	osmý	osmá, osmou
ostatní slovní druhy	lemma = tvar (malými písmeny)	ať	ať, Ať, AŤ

Zadáme-li tedy jako typ dotazu lemma výraz pes, najdeme všechny výskyty všech slovních tvarů tohoto slova bez ohledu na velikost písmen (pes, psy, psem, psovi…, Pes, PSY, PseM…).

V syntaxi CQL odpovídá tento typ dotazu následujícímu výrazu: [lemma="les"].

Při zadávání dotazu typu lemma je třeba vědět, že velikost písmen tu má trochu jinou funkci než u slovního tvaru. Lemmata obecných jmen (apelativ) se píší malými písmeny, počáteční velké písmeno mají pouze jména vlastní (propria), příp. zkratky. V korpusu tak můžou existovat lemmata lišící se pouze velikostí písmen (např. hrad a Hrad, z nichž jedno označuje apelativní užití a druhé propriální).

Typ dotazu: Základní

Základní dotaz slouží pro potřeby rychlého informativního hledání v situacích, které nevyžadují přílišnou přesnost (v mnoha směrech je tak analogický hledání v běžných internetových vyhledávačích, např. Google). Princip základního dotazu pak spočívá v tom, že je-li zadán základní slovníkový tvar (lemma), vyhledají se také všechny jeho tvary; pokud se o lemma nejedná, vyhledají se jenom ty tvary, které se s dotazem přesně shodují. Základní dotaz by se tedy dal popsat zhruba touto instrukcí korpusovému manažeru: hledej zadané slovo jako case-insensitive tvar, a pokud zadané slovo existuje i jako lemma, přidej výskyty tohoto lemmatu do výsledku.

V syntaxi CQL je možné tento typ dotazu zapsat jako [word="(?i)les"|lemma="les"].

V korpusu SYN2015 u základního typu dotazu má slovo zdraví 10 355 výskytů a u dotazu typu lemma jen 10 143 výskytů. Je to dáno tím, že ne ve všech případech je tvar zdraví substantivem: kromě toho může být slovesem (Teď je na řadě bodrý úsměv, jakým se zdraví staří známí.) anebo adjektivem (A proste, abyste byli stále zdraví, byť bez slávy Boží.)

Typ dotazu: Fráze

Typ dotazu fráze slouží zejména k hledání víceslovných výrazů; dotazy typu slovní tvar ani lemma totiž neumožňují zadat víc slov najednou. V tom je fráze podobná i základnímu dotazu, je v nich ale přeci jen rozdíl. Zkusme nyní v korpusu SYN2015 zadat dvojici sousloví v jejich základních tvarech, lemmatech – prašivý pes a černý kočka:

Typ dotazu	`černý kočka`	`prašivý pes`
Základní	najde celé paradigma (černá kočka, černé kočky atd.)	najde celé paradigma (prašivý pes, prašivého psa atd.)
Fráze	– (nenajde nic)	najde sekvenci přesně těchto tvarů

Jelikož fráze hledá přesně vložený řetězec znaků (sekvenci slovních tvarů), černý kočka nenajde – v korpusu SYN2015 toto sousloví není doloženo ani jako případný překlep.

V syntaxi CQL odpovídá tento typ dotazu následujícímu výrazu: [word="černý"][word="kočka"].

Typ dotazu: Část slova

Pokud potřebujeme vyhledat všechna slova, která obsahují nějaký řetězec znaků (např. určitý kořen), může se hodit typ dotazu část slova. S jeho pomocí najdeme všechna slova, která obsahují danou sekvenci znaků, jíž předcházejí nebo za níž následují libovolné další znaky (ale také třeba žádný). Při zadání pes identifikuje tento typ dotazu kromě samotného pes i tvary jako kapesní, pestré, herpes atd.

V syntaxi CQL tento typ dotazu odpovídá výrazu [word=".*pes.*"]

Typ dotazu: CQL

Poslední a zároveň nejobecnější způsob hledání v korpusu představuje dotazovací jazyk CQL. Všechny výše zmíněné způsoby dotazovaní jsou rozhraním KonText převáděny právě na tento typ dotazu.

Jako nejobecnější způsob dotazování poskytuje CQL největší možnosti, zároveň ale vyžaduje zvládnutí několika málo formálních náležitostí. Podrobně se proto budeme věnovat CQL v pokročilejší fázi tohoto kurzu.

Shrnutí: Nač je který typ dotazu vhodný

Typ dotazu	Nač je vhodný	Jak funguje	Regulární výrazy	Case sensitive	Víceslovné dotazy	Slovní druhy	Příklady
Základní	pro orientační a rychlé hledání	Vyhledá vložený výraz jako slovní tvar bez ohledu na velikost písmen; jde-li zároveň o základní slovníkový tvar (lemma), vyhledají se také všechny jeho tvary.	✗	✗	✓	✗	`černý kočka` → černá kočka, černou kočku, černých koček… `černá kočka` → černá kočka
Lemma	pro analýzu celého paradigmatu/lexému	Vyhledá všechny tvary přiřazené k danému lemmatu.	✓	✓	✗	✓	`černý` → černý, černému, černá, černé, černými… `kočka` → kočka, kočku, koček, kočkám…
Fráze	pro posloupnost několika slovních tvarů	Vyhledá zadanou frázi složenou z konkrétních slovních tvarů.	✓	(✓)³⁾	✓	✗	`černý pes` → černý pes `český pes` → český pes `černého psa` → černého psa
Slovní tvar	pro analýzu jednoho konkrétního tvaru	Vyhledá zadaný slovní tvar (word).	✓	(✓)⁴⁾	✗	✓	`jakkoli` → jakkoli `jakkoliv` → jakkoliv `jakkoli.` → jakkoli, jakkoliv, Jakkoli, JAKKOLIV…*
Část slova	pro vyhledání řetězce znaků kdekoli ve slově	Vyhledá po sobě následující znaky v rámci jednoho slova.	✓	✓	✗	✗	`pra` → praděda, praxe, doprava, lepra… `křá` → pookřát, křáp, Jiskřákovi…
CQL	pro vyhledání všeho, co lze pomocí korpusového manažeru vyhledat	CQL je Corpus Query Language, korpusový dotazovací jazyk (do něhož si rozhraní KonText samo interně převádí všechny předchozí typy dotazů).	✓	✓	✓	✓	`[lemma="kočka"]` → kočka, kočku, koček, kočkám… `[word="černá"]` → černá `[lemma="číst"][tag="N."]` → číst levity, četli článek, nečtete noviny…*

Jak citovat korpus

Zobrazení základních informací o korpusu a jeho bibliografické citace.

Pokud ve svém lingvistickém (či jiném) výzkumu používáte některý z korpusů ČNK, je třeba ho citovat v seznamu literatury. Pádných důvodů k tomu je hned několik:

Každý výzkum by měl být replikovatelný, tedy ověřitelný dalšími badateli. V případě korpusů referenčních, jako je např. SYN2015 nebo ORAL2013, lze stejným dotazem vždy dojít ke stejnému výsledku, tedy i ověřit závěry vyvozené z jakéhokoli předchozího výzkumu. U korpusů verzovaných (např. SYN, InterCorp, DIAKORP), které s každou novou verzí rostou, je třeba dodat také informaci o verzi.
Bez údaje o tom, v kterém z korpusů ČNK byl daný jev vyhledán, nemůže být jeho analýza úplná. U většiny jevů totiž zcela zásadně záleží na velikosti korpusu (viz např. TTR), ale i na tom, o jaký typ dat jde (např. data psaná vs. mluvená).
Korpusy ČNK jsou zahrnuty v RIV a na základě toho je třeba je citovat jako jakékoli jiné akademické dílo.

Jak tedy citovat korpusy? V řádku pod logem KonTextu je k dispozici aktuální údaj o tom, který korpus byl pro vyhledání dotazu použit. Po kliknutí na jméno korpusu se zobrazí okno se základními informacemi. Pro práci s korpusem je zcela zásadní informace o jeho velikosti (je značný rozdíl, zda slovo či jev vyhledáme v korpusu milionovém, stomilionovém či několikamiliardovém), a měla by být proto samozřejmou součástí jakékoli korpusové analýzy. Ve spodní části je rovněž uveden návod, jak daný korpus citovat.

Vyzkoušejte si na závěr

Umíte v korpusu SYN2015 najít všechny výskyty slovního tvaru nejneobvyklejší?
Pokud byste chtěli zobrazit všechny výskyty tohoto slova spadající pod příslušný základní tvar, použijte lemma obvyklý.
Výsledek najdete na speciální stránce s řešeními úkolů.

První seznámení s korpusem a typy dotazů máme za sebou, můžeme tedy směle pokračovat 2. lekcí: zobrazením dotazu.

Menu: Nový dotaz • Subkorpus • Uložit • Konkordance • Filtr • Frekvence • Kolokace • Zobrazení • Nápověda • Kurz práce s korpusem v 7 lekcích • 2. lekce