AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


1. lekce: Začínáme

V úvodní lekci se naučíme zadávat do korpusu dotazy a vysvětlíme si, v čem se liší jejich různé typy. Na závěr si ještě ukážeme, jak korpusy citovat.

Rozhraní KonText spustíme odkazem na horní liště portálu www.korpus.cz nebo přímo, zadáním adresy https://kontext.korpus.cz. První dotaz zadáme po registraci a přihlášení, píšeme ho do prázdného řádku s názvem Dotaz.

Zadání nového dotazu do rozhraní KonText

Výchozí nastavení

Hledání je ve formuláři pro zadávání nového dotazu automaticky přednastaveno na nejnovější referenční vyvážený korpus (my ale budeme často pracovat i se starším korpusem SYN2010) a jako výchozí (defaultní) je nastaven typ dotazu zvaný základní. Korpus, s kterým pracujete, je vždy uveden v levém horním rohu pod logem rozhraní, kde se nachází tzv. drobečková navigace, zaznamenávající průběh manipulace s dotazem; pokud kliknete na název korpusu, dostanete se k podrobnějším informacím o něm včetně toho, jak zvolený korpus citovat.

Do dotazovacího řádku v rozhraní KonText můžete napsat jakékoli slovo či kombinaci slov a sledovat, kolikrát se v daném korpusu vyskytuje. (Je dobré mít na paměti, že pro korpusový manažer je slovo pouhým řetězcem alfabetických znaků a že umí vyhledávat i znaky jiné povahy, např. číslice či regulární výrazy.)

Zkuste si v korpusu SYN2015 najít třeba

  1. své jméno, případně příjmení
  2. otazník – ? (tj. tázací věty) či vykřičník – ! (tedy mj. věty zvolací)
  3. nějakou kuriozitu
    • třeba přímo slovo kuriozita
    • regionalismus cmunda
    • hovorové eklovat
    • třeba i s reflexivem eklovat se
Konkordance slova kuriozita.

Funguje vám vyhledávání? Ověřte si výsledky v korpusu SYN2015:

Dotaz Počet výskytů Relativní frekvence (i.p.m.)
kuriozita 467 3,87
? 483 771 4006,43
! 197 997 1639,74
cmunda 6 0,05
eklovat 9 0,07
eklovat se 1 0,01

Můžeme si všimnout, že v korpusu SYN2015, který obsahuje zhruba sto milionů pozic, má jeden výskyt určitého výrazu (např. kombinace eklovat se) relativní frekvenci 0,01 výskytů na milion. Proč to stojí za povšimnutí? Relativní frekvence je velmi důležitá při srovnávání výsledků z různě velkých korpusů (10 výskytů ve stomilionovém korpusu neznamená stejnou četnost jako 10 výskytů v korpusu miliardovém).

A ještě jedna věc: vyhledanému výrazu či kombinaci výrazů – v našem rozhraní růžově zvýrazněnému – se říká KWIC; tato zkratka pochází z anglického key word in context (klíčové slovo v kontextu). Celému řádku se říká konkordanční řádek, ten je součástí konkordance (seznamu všech konkordančních řádků, tedy všech výskytů hledaného výrazu spolu s jejich kontexty).

Jak přejít na nový dotaz

Pokud chceme do KonTextu zadat další dotaz, přejdeme na něj pomocí menu Dotaz → Zadat nový dotaz.

TIP: Nejjednodušším způsobem, jak rychle zadat nový dotaz, je kliknout přímo na ikonu v levém horním rohu.

Typy dotazů

Celkem je v rozhraní KonText k dispozici 6 typů dotazů (základní, lemma, fráze, slovní tvar, část slova, CQL), každý z nich je vhodný na jiný typ zkoumání. Je však třeba mít na paměti, že ne ve všech korpusech můžeme hledat pomocí všech typů dotazů (např. v některém nelemmatizovaném korpusu z řady ORAL chybí z pochopitelných důvodů typ dotazu lemma).

Typ dotazu: Slovní tvar (word)

Z hlediska výkladu je nejjednodušším typem dotazu slovní tvar (angl. word). S jeho pomocí nacházíme v korpusu přesnou shodu, tj. daný tvar v podobě, v jaké byl zadán. Dotazu na slovní tvar pes tak odpovídá pouze tvar pes, dotazu koček odpovídá pouze tvar koček.

Jedinou odlišností mezi dotazem a výsledkem může být velikost písmen. Ve výchozím nastavení je dotaz na slovní tvar case-insensitive, což znamená, že hledá zadaný tvar bez ohledu na velikost písmen (dotazu londýně nebo Londýně odpovídají tvary Londýně, londýně ale i třeba LONDÝNĚ). Citlivost k velikosti písmen lze při zadání dotazu ovlivnit pomocí volby Shoda velikosti písmen pod dotazovacím řádkem.

V syntaxi CQL odpovídá tento typ dotazu následujícímu výrazu: [word="pes"] příp. [word="(?i)pes"].

Typ dotazu: Lemma

Dalším typem dotazu je lemma. Tímto termínem se označuje základní tvar pro nějaký výraz (chápaný také jako reprezentant celého paradigmatu). Většinou právě lemma hledáme ve slovníku (např. místo slovního tvaru chytrého hledáme ve slovníku chytrý). Do značné míry je dáno tradicí, např. u substantiv lemmatem zpravidla bývá 1. pád jednotného čísla. Zde je orientační přehled tvarů lemmatu pro různé slovní druhy:

Slovní druh základní tvar lemma příklady slovních tvarů pod ně spadajících
substantiva nom. sg. les lesům, lesy, lesích
adjektiva nom. sg. mask., nestupňovaný tvar (pozitiv) 1) chytrý chytrého, nejchytřejším, chytrejma
verba infinitiv, bez negace chodit chodil, chodíš, nechodíme
adverbia nestupňovaný tvar (pozitiv) černě černěji, nejčerněji
zájmena nom. sg. mask. 2) ten to, ta, ti
číslovky nom. sg. mask. osmý osmá, osmou
ostatní slovní druhy lemma = tvar (malými písmeny) , ,

Zadáme-li tedy jako typ dotazu lemma výraz pes, najdeme všechny výskyty všech slovních tvarů tohoto slova bez ohledu na velikost písmen (pes, psy, psem, psovi…, Pes, PSY, PseM…).

V syntaxi CQL odpovídá tento typ dotazu následujícímu výrazu: [lemma="les"].

Při zadávání dotazu typu lemma je třeba vědět, že velikost písmen tu má trochu jinou funkci než u slovního tvaru. Lemmata obecných jmen (apelativ) se píší malými písmeny, počáteční velké písmeno mají pouze jména vlastní (propria), příp. zkratky. V korpusu tak můžou existovat lemmata lišící se pouze velikostí písmen (např. hrad a Hrad, z nichž jedno označuje apelativní užití a druhé propriální).

Typ dotazu: Základní

Základní dotaz slouží pro potřeby rychlého informativního hledání v situacích, které nevyžadují přílišnou přesnost (v mnoha směrech je tak analogický hledání v běžných internetových vyhledávačích, např. Google). Princip základního dotazu pak spočívá v tom, že je-li zadán základní slovníkový tvar (lemma), vyhledají se také všechny jeho tvary; pokud se o lemma nejedná, vyhledají se jenom ty tvary, které se s dotazem přesně shodují. Základní dotaz by se tedy dal popsat zhruba touto instrukcí korpusovému manažeru: hledej zadané slovo jako case-insensitive tvar, a pokud zadané slovo existuje i jako lemma, přidej výskyty tohoto lemmatu do výsledku.

V syntaxi CQL je možné tento typ dotazu zapsat jako [word="(?i)les"|lemma="les"].

V korpusu SYN2015 u základního typu dotazu má slovo zdraví 10 355 výskytů a u dotazu typu lemma jen 10 143 výskytů. Je to dáno tím, že ne ve všech případech je tvar zdraví substantivem: kromě toho může být slovesem (Teď je na řadě bodrý úsměv, jakým se zdraví staří známí.) anebo adjektivem (A proste, abyste byli stále zdraví, byť bez slávy Boží.)

Typ dotazu: Fráze

Typ dotazu fráze slouží zejména k hledání víceslovných výrazů; dotazy typu slovní tvar ani lemma totiž neumožňují zadat víc slov najednou. V tom je fráze podobná i základnímu dotazu, je v nich ale přeci jen rozdíl. Zkusme nyní v korpusu SYN2015 zadat dvojici sousloví v jejich základních tvarech, lemmatech – prašivý pes a černý kočka:

Typ dotazu černý kočka prašivý pes
Základní najde celé paradigma (černá kočka, černé kočky atd.) najde celé paradigma (prašivý pes, prašivého psa atd.)
Fráze – (nenajde nic) najde sekvenci přesně těchto tvarů

Jelikož fráze hledá přesně vložený řetězec znaků (sekvenci slovních tvarů), černý kočka nenajde – v korpusu SYN2015 toto sousloví není doloženo ani jako případný překlep.

V syntaxi CQL odpovídá tento typ dotazu následujícímu výrazu: [word="černý"][word="kočka"].

Typ dotazu: Část slova

Pokud potřebujeme vyhledat všechna slova, která obsahují nějaký řetězec znaků (např. určitý kořen), může se hodit typ dotazu část slova. S jeho pomocí najdeme všechna slova, která obsahují danou sekvenci znaků, jíž předcházejí nebo za níž následují libovolné další znaky (ale také třeba žádný). Při zadání pes identifikuje tento typ dotazu kromě samotného pes i tvary jako kapesní, pestré, herpes atd.

V syntaxi CQL tento typ dotazu odpovídá výrazu [word=".*pes.*"]

Typ dotazu: CQL

Poslední a zároveň nejobecnější způsob hledání v korpusu představuje dotazovací jazyk CQL. Všechny výše zmíněné způsoby dotazovaní jsou rozhraním KonText převáděny právě na tento typ dotazu.

Jako nejobecnější způsob dotazování poskytuje CQL největší možnosti, zároveň ale vyžaduje zvládnutí několika málo formálních náležitostí. Podrobně se proto budeme věnovat CQL v pokročilejší fázi tohoto kurzu.

Shrnutí: Nač je který typ dotazu vhodný

Typ dotazu Nač je vhodný Jak funguje
Víceslovné dotazy
Slovní druhy
Příklady
Základní pro orientační a rychlé hledání Vyhledá vložený výraz jako slovní tvar bez ohledu na velikost písmen; jde-li zároveň o základní slovníkový tvar (lemma), vyhledají se také všechny jeho tvary. černý kočkačerná kočka, černou kočku, černých koček…
černá kočkačerná kočka
Lemma pro analýzu celého paradigmatu/lexému Vyhledá všechny tvary přiřazené k danému lemmatu. černýčerný, černému, černá, černé, černými…
kočkakočka, kočku, koček, kočkám…
Fráze pro posloupnost několika slovních tvarů Vyhledá zadanou frázi složenou z konkrétních slovních tvarů. (✓)3) černý pesčerný pes
český pesčeský pes
černého psačerného psa
Slovní tvar pro analýzu jednoho konkrétního tvaru Vyhledá zadaný slovní tvar (word). (✓)4) jakkolijakkoli
jakkolivjakkoliv
jakkoli.*jakkoli, jakkoliv, Jakkoli, JAKKOLIV…
Část slova pro vyhledání řetězce znaků kdekoli ve slově Vyhledá po sobě následující znaky v rámci jednoho slova. prapraděda, praxe, doprava, lepra…
křápookřát, křáp, Jiskřákovi…
CQL pro vyhledání všeho, co lze pomocí korpusového manažeru vyhledat CQL je Corpus Query Language, korpusový dotazovací jazyk (do něhož si rozhraní KonText samo interně převádí všechny předchozí typy dotazů). [lemma="kočka"]kočka, kočku, koček, kočkám…
[word="černá"]černá
[lemma="číst"][tag="N.*"]číst levity, četli článek, nečtete noviny…

Jak citovat korpus

Zobrazení základních informací o korpusu a jeho bibliografické citace.

Pokud ve svém lingvistickém (či jiném) výzkumu používáte některý z korpusů ČNK, je třeba ho citovat v seznamu literatury. Pádných důvodů k tomu je hned několik:

  1. Každý výzkum by měl být replikovatelný, tedy ověřitelný dalšími badateli. V případě korpusů referenčních, jako je např. SYN2015 nebo ORAL2013, lze stejným dotazem vždy dojít ke stejnému výsledku, tedy i ověřit závěry vyvozené z jakéhokoli předchozího výzkumu. U korpusů verzovaných (např. SYN, InterCorp, DIAKORP), které s každou novou verzí rostou, je třeba dodat také informaci o verzi.
  2. Bez údaje o tom, v kterém z korpusů ČNK byl daný jev vyhledán, nemůže být jeho analýza úplná. U většiny jevů totiž zcela zásadně záleží na velikosti korpusu (viz např. TTR), ale i na tom, o jaký typ dat jde (např. data psaná vs. mluvená).
  3. Korpusy ČNK jsou zahrnuty v RIV a na základě toho je třeba je citovat jako jakékoli jiné akademické dílo.

Jak tedy citovat korpusy? V řádku pod logem KonTextu je k dispozici aktuální údaj o tom, který korpus byl pro vyhledání dotazu použit. Po kliknutí na jméno korpusu se zobrazí okno se základními informacemi. Pro práci s korpusem je zcela zásadní informace o jeho velikosti (je značný rozdíl, zda slovo či jev vyhledáme v korpusu milionovém, stomilionovém či několikamiliardovém), a měla by být proto samozřejmou součástí jakékoli korpusové analýzy. Ve spodní části je rovněž uveden návod, jak daný korpus citovat.

Vyzkoušejte si na závěr

  • Umíte v korpusu SYN2015 najít všechny výskyty slovního tvaru nejneobvyklejší?
  • Pokud byste chtěli zobrazit všechny výskyty tohoto slova spadající pod příslušný základní tvar, použijte lemma obvyklý.
  • Výsledek najdete na speciální stránce s řešeními úkolů.

První seznámení s korpusem a typy dotazů máme za sebou, můžeme tedy směle pokračovat 2. lekcí: zobrazením dotazu.


1)
Pozor: většinou (nikoli však ve všech případech) je základním tvarem adjektivum bez negace, tedy afirmativní.
2)
Pozor: lemma to je vyhrazeno částicím.
3) , 4)
Lze ovlivnit pomocí volby Shoda velikosti písmen pod dotazovacím řádkem.