Toto je starší verze dokumentu!
Obsah
1. lekce: Začínáme
V úvodní lekci se naučíme zadávat do korpusu dotazy a vysvětlíme si, v čem se liší jejich různé typy. Na závěr si ještě ukážeme, jak korpusy citovat.
Rozhraní KonText spustíme odkazem na horní liště portálu www.korpus.cz nebo přímo, zadáním adresy https://kontext.korpus.cz. První dotaz zadáme po registraci a přihlášení, píšeme ho do prázdného řádku s názvem Dotaz.
Výchozí nastavení
Hledání je ve formuláři pro zadávání nového dotazu automaticky přednastaveno na nejnovější referenční vyvážený korpus (my ale budeme často pracovat i se starším korpusem SYN2010) a jako výchozí (defaultní) je nastaven typ dotazu zvaný základní. Korpus, s kterým pracujete, je vždy uveden v levém horním rohu pod logem rozhraní, kde se nachází tzv. drobečková navigace, zaznamenávající průběh manipulace s dotazem; pokud kliknete na název korpusu, dostanete se k podrobnějším informacím o něm včetně toho, jak zvolený korpus citovat.
Do dotazovacího řádku v rozhraní KonText můžete napsat jakékoli slovo či kombinaci slov a sledovat, kolikrát se v daném korpusu vyskytuje. (Je dobré mít na paměti, že pro korpusový manažer je slovo pouhým řetězcem alfabetických znaků a že umí vyhledávat i znaky jiné povahy, např. číslice či regulární výrazy.)
Zkuste si v korpusu SYN2015 najít třeba
- své jméno, případně příjmení
- otazník – ? (tj. tázací věty) či vykřičník – !
- nějakou kuriozitu
- třeba přímo slovo kuriozita
- regionalismus cmunda
- hovorové eklovat
- třeba i s reflexivem eklovat se
Funguje vám vyhledávání? Ověřte si výsledky (korpus: SYN2015, typ dotazu: základní):
Dotaz | Počet výskytů | Relativní frekvence (i.p.m.) |
---|---|---|
kuriozita | 467 | 3,87 |
? | 483 771 | 4006,43 |
cmunda | 6 | 0,05 |
eklovat | 9 | 0,07 |
eklovat se | 1 | 0,01 |
Můžeme si všimnout, že v korpusu SYN2015, který obsahuje zhruba sto milionů pozic, má jeden výskyt určitého výrazu (např. kombinace eklovat se) relativní frekvenci 0,01 výskytů na milion. Proč to stojí za povšimnutí? Relativní frekvence je velmi důležitá při srovnávání výsledků z různě velkých korpusů (10 výskytů ve stomilionovém korpusu neznamená stejnou četnost jako 10 výskytů v korpusu miliardovém).
A ještě jedna věc: vyhledanému výrazu či kombinaci výrazů – v našem rozhraní růžově zvýrazněnému – se říká KWIC; tato zkratka pochází z anglického key word in context (klíčové slovo v kontextu). Celému řádku se říká konkordanční řádek, ten je součástí konkordance (seznamu všech konkordančních řádků, tedy všech výskytů hledaného výrazu spolu s jejich kontexty).
Jak přejít na nový dotaz
Pokud chceme do KonTextu zadat další dotaz, přejdeme na něj pomocí menu Dotaz → Zadat nový dotaz.
Typy dotazů
Celkem je v rozhraní KonText k dispozici 6 typů dotazů (základní, lemma, fráze, slovní tvar, část slova, CQL), každý z nich je vhodný na jiný typ zkoumání. Je však třeba mít na paměti, že ne ve všech korpusech můžeme hledat pomocí všech typů dotazů (např. v některém nelemmatizovaném korpusu z řady ORAL chybí z pochopitelných důvodů typ dotazu lemma).
Typ dotazu: Slovní tvar (word)
Z hlediska výkladu je nejjednodušším typem dotazu slovní tvar (angl. word). S jeho pomocí nacházíme v korpusu přesnou shodu, tj. daný tvar v podobě, v jaké byl zadán. Dotazu na slovní tvar pes
tak odpovídá pouze tvar pes, dotazu koček
odpovídá pouze tvar koček.
Jedinou odlišností mezi dotazem a výsledkem může být velikost písmen. Ve výchozím nastavení je dotaz na slovní tvar case-insensitive, což znamená, že hledá zadaný tvar bez ohledu na velikost písmen (dotazu londýně
nebo Londýně
odpovídají tvary Londýně, londýně ale i třeba LONDÝNĚ). Citlivost k velikosti písmen lze při zadání dotazu ovlivnit pomocí volby Shoda velikosti písmen pod dotazovacím řádkem.
V syntaxi CQL odpovídá tento typ dotazu následujícímu výrazu: [word="pes"]
příp. [word="(?i)pes"]
.
Typ dotazu: Lemma
Dalším typem dotazu je lemma. Tímto termínem se označuje základní tvar pro nějaký výraz (chápaný také jako reprezentant celého paradigmatu). Většinou právě lemma hledáme ve slovníku (např. místo slovního tvaru chytrého hledáme ve slovníku chytrý). Do značné míry je dáno tradicí, např. u substantiv lemmatem zpravidla bývá 1. pád jednotného čísla. Zde je orientační přehled tvarů lemmatu pro různé slovní druhy:
Slovní druh | základní tvar | lemma | příklady slovních tvarů pod ně spadajících |
---|---|---|---|
substantiva | nom. sg. | les | lesům, lesy, lesích |
adjektiva | nom. sg. mask., nestupňovaný tvar (pozitiv) 1) | chytrý | chytrého, nejchytřejším, chytrejma |
verba | infinitiv, bez negace | chodit | chodil, chodíš, nechodíme |
adverbia | nestupňovaný tvar (pozitiv) | černě | černěji, nejčerněji |
zájmena | nom. sg. mask. 2) | ten | to, ta, ti |
číslovky | nom. sg. mask. | osmý | osmá, osmou |
ostatní slovní druhy | lemma = tvar (malými písmeny) | ať | ať, Ať, AŤ |
Zadáme-li tedy jako typ dotazu lemma výraz pes
, najdeme všechny výskyty všech slovních tvarů tohoto slova bez ohledu na velikost písmen (pes, psy, psem, psovi…, Pes, PSY, PseM…).
V syntaxi CQL odpovídá tento typ dotazu následujícímu výrazu: [lemma="les"]
.
Při zadávání dotazu typu lemma je třeba vědět, že velikost písmen tu má trochu jinou funkci než u slovního tvaru. Lemmata obecných jmen (apelativ) se píší malými písmeny, počáteční velké písmeno mají pouze jména vlastní (propria), příp. zkratky. V korpusu tak můžou existovat lemmata lišící se pouze velikostí písmen (např. hrad
a Hrad
, z nichž jedno označuje apelativní užití a druhé propriální).
Typ dotazu: Základní
Základní dotaz slouží pro potřeby rychlého informativního hledání v situacích, které nevyžadují přílišnou přesnost (v mnoha směrech je tak analogický hledání v běžných internetových vyhledávačích, např. Google). Princip základního dotazu pak spočívá v tom, že je-li zadán základní slovníkový tvar (lemma), vyhledají se také všechny jeho tvary; pokud se o lemma nejedná, vyhledají se jenom ty tvary, které se s dotazem přesně shodují. Základní dotaz by se tedy dal popsat zhruba touto instrukcí korpusovému manažeru: hledej zadané slovo jako case-insensitive tvar, a pokud zadané slovo existuje i jako lemma, přidej výskyty tohoto lemmatu do výsledku.
V syntaxi CQL je možné tento typ dotazu zapsat jako [word="(?i)les"|lemma="les"]
.
V korpusu SYN2015 u základního typu dotazu má slovo zdraví 10 355 výskytů a u dotazu typu lemma jen 10 143 výskytů. Je to dáno tím, že ne ve všech případech je tvar zdraví substantivem: kromě toho může být slovesem (Teď je na řadě bodrý úsměv, jakým se zdraví staří známí.) anebo adjektivem (A proste, abyste byli stále zdraví, byť bez slávy Boží.)
Typ dotazu: Fráze
Typ dotazu fráze slouží zejména k hledání víceslovných výrazů; dotazy typu slovní tvar ani lemma totiž neumožňují zadat víc slov najednou. V tom je fráze podobná i základnímu dotazu, je v nich ale přeci jen rozdíl. Zkusme nyní v korpusu SYN2015 zadat dvojici sousloví v jejich základních tvarech, lemmatech – prašivý pes
a černý kočka
:
Typ dotazu | černý kočka | prašivý pes |
---|---|---|
Základní | najde celé paradigma (černá kočka, černé kočky atd.) | najde celé paradigma (prašivý pes, prašivého psa atd.) |
Fráze | – (nenajde nic) | najde sekvenci přesně těchto tvarů |
Jelikož fráze hledá přesně vložený řetězec znaků (sekvenci slovních tvarů), černý kočka
nenajde – v korpusu SYN2015 toto sousloví není doloženo ani jako případný překlep.
V syntaxi CQL odpovídá tento typ dotazu následujícímu výrazu: [word="černý"][word="kočka"]
.
Typ dotazu: Část slova
Pokud potřebujeme vyhledat všechna slova, která obsahují nějaký řetězec znaků (např. určitý kořen), může se hodit typ dotazu část slova. S jeho pomocí najdeme všechna slova, která obsahují danou sekvenci znaků, jíž předcházejí nebo za níž následují libovolné další znaky (ale také třeba žádný). Při zadání pes
identifikuje tento typ dotazu kromě samotného pes i tvary jako kapesní, pestré, herpes atd.
V syntaxi CQL tento typ dotazu odpovídá výrazu [word=".*pes.*"]
Typ dotazu: CQL
Poslední a zároveň nejobecnější způsob hledání v korpusu představuje dotazovací jazyk CQL. Všechny výše zmíněné způsoby dotazovaní jsou rozhraním KonText převáděny právě na tento typ dotazu.
Jako nejobecnější způsob dotazování poskytuje CQL největší možnosti, zároveň ale vyžaduje zvládnutí několika málo formálních náležitostí. Podrobně se proto budeme věnovat CQL v pokročilejší fázi tohoto kurzu.
Shrnutí: Nač je který typ dotazu vhodný
Typ dotazu | Nač je vhodný | Jak funguje | Víceslovné dotazy | Slovní druhy | Příklady | ||
---|---|---|---|---|---|---|---|
Základní | pro orientační a rychlé hledání | Vyhledá vložený výraz jako slovní tvar bez ohledu na velikost písmen; jde-li zároveň o základní slovníkový tvar (lemma), vyhledají se také všechny jeho tvary. | ✗ | ✗ | ✓ | ✗ | černý kočka → černá kočka, černou kočku, černých koček…černá kočka → černá kočka |
Lemma | pro analýzu celého paradigmatu/lexému | Vyhledá všechny tvary přiřazené k danému lemmatu. | ✓ | ✓ | ✗ | ✓ | černý → černý, černému, černá, černé, černými…kočka → kočka, kočku, koček, kočkám… |
Fráze | pro posloupnost několika slovních tvarů | Vyhledá zadanou frázi složenou z konkrétních slovních tvarů. | ✓ | (✓)3) | ✓ | ✗ | černý pes → černý pesčeský pes → český pesčerného psa → černého psa |
Slovní tvar | pro analýzu jednoho konkrétního tvaru | Vyhledá zadaný slovní tvar (word). | ✓ | (✓)4) | ✗ | ✓ | jakkoli → jakkolijakkoliv → jakkolivjakkoli.* → jakkoli, jakkoliv, Jakkoli, JAKKOLIV… |
Část slova | pro vyhledání řetězce znaků kdekoli ve slově | Vyhledá po sobě následující znaky v rámci jednoho slova. | ✓ | ✓ | ✗ | ✗ | pra → praděda, praxe, doprava, lepra…křá → pookřát, křáp, Jiskřákovi… |
CQL | pro vyhledání všeho, co lze pomocí korpusového manažeru vyhledat | CQL je Corpus Query Language, korpusový dotazovací jazyk (do něhož si rozhraní KonText samo interně převádí všechny předchozí typy dotazů). | ✓ | ✓ | ✓ | ✓ | [lemma="kočka"] → kočka, kočku, koček, kočkám…[word="černá"] → černá[lemma="číst"][tag="N.*"] → číst levity, četli článek, nečtete noviny… |
Jak citovat korpus
Pokud ve svém lingvistickém (či jiném) výzkumu používáte některý z korpusů ČNK, je třeba ho citovat v seznamu literatury. Pádných důvodů k tomu je hned několik:
- Každý výzkum by měl být replikovatelný, tedy ověřitelný dalšími badateli. V případě korpusů referenčních, jako je např. SYN2015 nebo ORAL2013, lze stejným dotazem vždy dojít ke stejnému výsledku, tedy i ověřit závěry vyvozené z jakéhokoli předchozího výzkumu. U korpusů verzovaných (např. SYN, InterCorp, DIAKORP), které s každou novou verzí rostou, je třeba dodat také informaci o verzi.
- Bez údaje o tom, v kterém z korpusů ČNK byl daný jev vyhledán, nemůže být jeho analýza úplná. U většiny jevů totiž zcela zásadně záleží na velikosti korpusu (viz např. TTR), ale i na tom, o jaký typ dat jde (např. data psaná vs. mluvená).
- Korpusy ČNK jsou zahrnuty v RIV a na základě toho je třeba je citovat jako jakékoli jiné akademické dílo.
Jak tedy citovat korpusy? V řádku pod logem KonTextu je k dispozici aktuální údaj o tom, který korpus byl pro vyhledání dotazu použit. Po kliknutí na jméno korpusu se zobrazí okno se základními informacemi. Pro práci s korpusem je zcela zásadní informace o jeho velikosti (je značný rozdíl, zda slovo či jev vyhledáme v korpusu milionovém, stomilionovém či několikamiliardovém), a měla by být proto samozřejmou součástí jakékoli korpusové analýzy. Ve spodní části je rovněž uveden návod, jak daný korpus citovat.
Vyzkoušejte si na závěr
- Umíte v korpusu SYN2015 najít všechny výskyty slovního tvaru nejneobvyklejší?
- Pokud byste chtěli zobrazit všechny výskyty tohoto slova spadající pod příslušný základní tvar, použijte lemma obvyklý.
- Výsledek najdete na speciální stránce s řešeními úkolů.
První seznámení s korpusem a typy dotazů máme za sebou, můžeme tedy směle pokračovat 2. lekcí: zobrazením dotazu.
Menu: Nový dotaz • Subkorpus • Uložit • Konkordance • Filtr • Frekvence • Kolokace • Zobrazení • Nápověda • Kurz práce s korpusem v 7 lekcích • 2. lekce