AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


1. lekce: Začínáme

V úvodní lekci se naučíme zadávat do korpusu dotazy a vysvětlíme si, v čem se liší jejich různé typy. Na závěr si ještě ukážeme, jak korpusy citovat.

První dotaz zadáme po registraci a přihlášení, píšeme ho do prázdného řádku s názvem Dotaz.

Zadání nového dotazu do rozhraní KonText

Výchozí nastavení

Hledání je ve formuláři pro zadávání nového dotazu automaticky přednastaveno v nejnovějším referenčním vyváženém korpusu (my ale budeme často pracovat i se starším korpusem SYN2010) a jako výchozí (defaultní) je nastaven typ dotazu zvaný základní. Korpus, s kterým pracujete, je vždy uveden v levém horním rohu pod logem rozhraní, kde se nachází tzv. drobečková navigace, zaznamenávající průběh manipulace s dotazem; pokud kliknete na název korpusu, dostanete se k podrobnějším informacím o něm včetně toho, jak zvolený korpus citovat.

Do dotazovacího řádku v rozhraní KonText můžete napsat jakékoli slovo či kombinaci slov a sledovat, kolikrát se v daném korpusu vyskytuje. (Je dobré mít na paměti, že pro korpusový manažer je slovo pouhý řetězec alfabetických znaků a umí vyhledávat i znaky jiné povahy, např. číslice či regulární výrazy.)

Zkuste si v korpusu SYN2010 najít třeba

  1. své jméno, případně příjmení
  2. otazník – ? (tj. tázací věty) či vykřičník – !
  3. nějakou kuriozitu
    • třeba přímo slovo kuriozita
    • regionalismus cmunda
    • hovorové eklovat
    • třeba i s reflexivem eklovat se
Konkordance slova kuriozita v korpusu SYN2010.

Funguje vám vyhledávání? Ověřte si výsledky (korpus: SYN2010, typ dotazu: základní):

Dotaz Počet výskytů Relativní frekvence (i.p.m.)
kuriozita 453 3,72
? 473 027 3887,87
cmunda 18 0,15
eklovat 5 0,04
eklovat se 1 0,01

Můžeme si všimnout, že v korpusu SYN2010, který obsahuje zhruba sto milionů pozic, má jeden výskyt určitého výrazu (např. kombinace eklovat se) relativní frekvenci 0,01 výskytů na milion. Proč to stojí za povšimnutí? Relativní frekvence je velmi důležitá při srovnávání výsledků z různě velkých korpusů (10 výskytů ve stomilionovém korpusu neznamená stejnou četnost jako 10 výskytů v korpusu miliardovém).

A ještě jedna věc: vyhledanému výrazu či kombinaci výrazů – v našem rozhraní růžově zvýrazněnému – se říká KWIC; tato zkratka pochází z anglického key word in context (klíčové slovo v kontextu). Celému řádku se říká konkordanční řádek, ten je součástí konkordance (seznamu všech konkordančních řádků, tedy všech výskytů hledaného výrazu spolu s jejich kontexty).

Jak přejít na nový dotaz

Pokud chceme do KonTextu zadat další dotaz, přejdeme na něj pomocí menu Dotaz → Nový dotaz.

TIP: Nejjednodušším způsobem, jak rychle zadat nový dotaz, je kliknout přímo na ikonu v levém horním rohu.

Typy dotazů

Celkem je v rozhraní KonText k dispozici 6 typů dotazů (základní, lemma, fráze, slovní tvar, podřetězec, CQL), každý z nich je vhodný na jiný typ zkoumání. Je však třeba mít na paměti, že ne ve všech korpusech můžeme hledat pomocí všech typů dotazů (např. v nelemmatizovaném korpusu řady ORAL chybí z pochopitelných důvodů typ dotazu lemma).

Typ dotazu: Slovní tvar (word)

Z hlediska výkladu je nejjednodušším typem dotazu slovní tvar (angl. word). S jeho pomocí nacházíme v korpusu přesnou shodu, tj. daný tvar v podobě, v jaké byl zadán. Dotazu na slovní tvar pes tak odpovídá pouze tvar pes, dotazu koček odpovídá pouze tvar koček.

Jedinou odlišností mezi dotazem a výsledkem může být velikost písmen. Ve výchozím nastavení je dotaz na slovní tvar case-insensitive, což znamená, že hledá zadaný tvar bez ohledu na velikost písmen (dotazu londýně nebo Londýně odpovídají tvary Londýně, londýně ale i třeba LONDÝNĚ). Citlivost k velikosti písmen lze při zadání dotazu ovlivnit pomocí políčka Shoda velikosti pod dotazovacím řádkem.

Typ dotazu: Lemma

Dalším typem dotazu je lemma. Tímto termínem se označuje základní tvar pro nějaký výraz (chápaný také jako reprezentant celého paradigmatu). Většinou právě lemma hledáme ve slovníku (např. místo slovního tvaru chytrého hledáme ve slovníku chytrý). Do značné míry je chápáno intuitivně, např. u substantiv lemmatem zpravidla bývá 1. pád jednotného čísla. Zde je orientační přehled tvarů lemmatu pro různé slovní druhy:

Slovní druh základní tvar lemma příklady slovních tvarů pod něj spadajících
substantiva nom. sg. les lesům, lesy, lesích
adjektiva nom. sg. mask., nestupňovaný tvar (pozitiv) 1) chytrý chytrého, nejchytřejším, chytrejma
verba inf., bez negace chodit chodil, chodíš, nechodíme
adverbia nestupňovaný tvar (pozitiv) černě černěji, nejčerněji
zájmena nom. sg. mask. 2) ten to, ta, ti
číslovky nom. sg. mask. osmý osmá, osmou
ostatní slovní druhy tvar = lemma

Zadáme-li tedy jako typ dotazu lemma výraz pes, najdeme všechny výskyty všech slovních tvarů tohoto slova bez ohledu na velikost písmen (pes, psy, psem, psovi…, Pes, PSY, PseM…).

Při zadávání dotazu na lemma je třeba vědět, že velikost písmen zde má trochu jinou funkci než u slovního tvaru. Lemmata obecných jmen (apelativ) se píší malými písmeny, počáteční velké písmeno mají pouze jména vlastní (propria), příp. zkratky. V korpusu tak můžou existovat lemmata lišící se pouze velikostí písmen (např. hrad a Hrad, z nichž jedno označuje apelativní užití a druhé propriální).

Typ dotazu: Základní

Základní dotaz slouží pro potřeby rychlého informativního hledání v situacích, které nevyžadují přílišnou přesnost (v mnoha směrech je tak analogický hledání v běžných internetových vyhledávačích, např. Google). Princip základního dotazu pak spočívá v tom, že je-li zadán základní slovníkový tvar (lemma), vyhledají se také všechny jeho tvary; pokud se o lemma nejedná, vyhledají se jenom ty tvary, které se s dotazem přesně shodují. Základní dotaz by se tedy dal popsat zhruba touto instrukcí korpusovému manažeru: hledej zadané slovo jako case-insensitive tvar, a pokud zadané slovo existuje i jako lemma, přidej výskyty tohoto lemmatu do výsledku.

V syntaxi CQL je možné tento typ dotazu zapsat jako [word="(?i)les"|lemma="les"].

U základního typu dotazu má např. lemma vědomí 9331 výskytů a u dotazu typu lemma 9325 výskytů kvůli tomu, že ve větách typu Jen málokteří z těch lidí jsou vědomí zrádci, někteří nejsou ani pošetilí, je lemmatem adjektivum vědomý, nikoli substantivum vědomí. Takovýchto nástrah základního dotazu si musíme být při jeho používání vědomi.

Typ dotazu: Fráze

Typ dotazu fráze slouží zejména k hledání víceslovných výrazů; dotazy typu slovní tvar ani lemma totiž neumožňují zadat víc slov najednou. V tom je fráze podobná i základnímu dotazu, je v nich ale přeci jen rozdíl. Zkusme nyní v korpusu SYN2010 zadat dvojici sousloví v jejich základních tvarech, lemmatech – prašivý pes a černý kočka:

Typ dotazu černý kočka prašivý pes
Základní najde celé paradigma (černá kočka, černé kočky atd.) najde celé paradigma (prašivý pes, prašivého psa atd.)
Fráze – (nenajde nic) najde sekvenci přesně těchto tvarů

Jelikož fráze hledá přesně vložený řetězec znaků (sekvenci slovních tvarů), černý kočka nenajde – v korpusu SYN2010 toto sousloví není doloženo ani jako případný překlep.

V syntaxi CQL odpovídá tento typ dotazu následujícímu výrazu: [word="černý"][word="kočka"].

Typ dotazu: Podřetězec

Pokud potřebujeme vyhledat všechna slova, která obsahují nějaký řetězec znaků (např. určitý kořen), může se hodit typ dotazu podřetězec. S jeho pomocí najdeme všechna slova, která obsahují danou sekvenci znaků, jíž předcházejí nebo za níž následují libovolné další znaky (ale také třeba žádný). Při zadání pes identifikuje tento typ dotazu kromě samotného pes i tvary jako kapesní, pestré, herpes atd.

V syntaxi CQL tento typ dotazu odpovídá výrazu [word=".*pes.*"]

Typ dotazu: CQL

Poslední a zároveň nejobecnější způsob hledání v korpusu představuje dotazovací jazyk CQL. Všechny výše zmíněné způsoby dotazovaní jsou rozhraním KonText převáděny právě na tento typ dotazu.

Jako nejobecnější způsob dotazování poskytuje CQL největší možnosti, zároveň ale vyžaduje zvládnutí několika málo formálních náležitostí. Podrobně se proto budeme věnovat CQL v pokročilejší fázi tohoto kurzu.

Nač je který typ dotazu vhodný

Typ dotazu Nač je vhodný Jak funguje
Víceslovné dotazy
Slovní druhy
Příklady
Základní pro první seznámení s korpusem, pro základní rychlou orientaci Vyhledá vložený výraz jako slovní tvar bez ohledu na velikost písmen; jde-li zároveň o základní slovníkový tvar (lemma), vyhledají se také všechny jeho tvary. černý kočkačerná kočka, černou kočku, černých koček…
černá kočkačerná kočka
Lemma pro analýzu celého paradigmatu/lexému Vyhledá všechny tvary přiřazené k danému lemmatu. černýčerný, černému, černá, černé, černými…
kočkakočka, kočku, koček, kočkám…
Fráze pro víceslovnou kombinaci v daném tvaru Vyhledá přesně zadanou frázi. (✓)3) černý pesčerný pes
český pesčeský pes
černého psačerného psa
Slovní tvar pro analýzu jednoho konkrétního tvaru Vyhledá přesně zadaný tvar (word). (✓)4) jakkolijakkoli
jakkolivjakkoliv
jakkoli.*jakkoli, jakkoliv, Jakkoli, JAKKOLIV…
Podřetězec pro vyhledání řetězce znaků kdekoli ve slově Vyhledá po sobě následující znaky v rámci jednoho slova. prapraděda, praxe, doprava, lepra…
křápookřát, křáp, Jiskřákovi…
CQL pro vyhledání všeho, co lze pomocí korpusového manažeru vyhledat CQL je Corpus Query Language, korpusový dotazovací jazyk (do něhož si rozhraní KonText samo interně převádí všechny předchozí typy dotazů). [lemma="kočka"]kočka, kočku, koček, kočkám…
[word="černá"]černá
[lemma="číst"][tag="N.*"]číst levity, četli článek, nečtete noviny…

Jak citovat korpus

Zobrazení základních informací o korpusu a jeho bibliografické citace.

Pokud ve svém lingvistickém (či jiném) výzkumu používáte některý z korpusů ČNK, je třeba ho citovat v seznamu literatury. Pádných důvodů k tomu je hned několik:

  1. Každý výzkum by měl být replikovatelný, tedy ověřitelný dalšími badateli. V případě korpusů referenčních, jako je např. SYN2015 nebo ORAL2013, lze stejným dotazem vždy dojít ke stejnému výsledku, tedy i ověřit závěry vyvozené z jakéhokoli předchozího výzkumu. U korpusů verzovaných (např. SYN, InterCorp, DIAKORP), které s každou novou verzí rostou, je třeba dodat také informaci o verzi.
  2. Bez údaje o tom, v kterém z korpusů ČNK byl daný jev vyhledán, nemůže být jeho analýza úplná. U většiny jevů totiž zcela zásadně záleží na velikosti korpusu (viz např. TTR), ale i na tom, o jaký typ dat jde (např. data psaná vs. mluvená).
  3. Korpusy ČNK jsou zahrnuty v RIV a na základě toho je třeba je citovat jako jakékoli jiné akademické dílo.

Jak tedy citovat korpusy? V řádku pod logem KonTextu je k dispozici aktuální údaj o tom, který korpus byl pro vyhledání dotazu použit. Po kliknutí na jméno korpusu (viz oranžová šipka) se zobrazí okno se základními informacemi. Pro práci s korpusem je zcela zásadní informace o jeho velikosti (je značný rozdíl, zda slovo či jev vyhledáme v korpusu milionovém, stomilionovém či několikamiliardovém), a měla by být proto samozřejmou součástí jakékoli korpusové analýzy. Ve spodní části je rovněž uveden návod, jak daný korpus citovat.

Vyzkoušejte si na závěr

  • Hledejte i v dalších korpusech: umíte v korpusu SYN2015 najít všechny výskyty slovního tvaru nejneobvyklejší?
  • Pokud byste chtěli zobrazit všechny výskyty tohoto slova spadající pod příslušný základní tvar, použijte lemma obvyklý.
  • Výsledek najdete na speciální stránce s řešeními úkolů.

První seznámení s korpusem a typy dotazů máme za sebou, můžeme tedy směle pokračovat 2. lekcí: zobrazením dotazu.


1)
Pozor: většinou (nikoli však ve všech případech) je základním tvarem adjektivum bez negace, tedy afirmativní.
2)
Pozor: lemma to je vyhrazeno částicím.
3) , 4)
Lze ovlivnit pomocí volby Shoda velikosti pod dotazovacím řádkem.