Specifika vyhledávání v diachronním korpusu

Při vyhledávání v korpusu Diakorp je třeba počítat s tím, že:

korpus není lemmatizovaný ani morfologicky označkovaný (na rozdíl např. od korpusů řady SYN) – je tedy možné klást pouze dotazy vycházející z konkrétních lexikálních jednotek (nikoli z gramatických kategorií) a pro obecnější zadání (např. mohla v minulosti stát vokalizovaná předložka před slovem začínajícím na samohlásku?) je nutné využít klikacích voleb grafického rozhraní nebo přímo regulárních výrazů;
texty jsou transkribované a pravidla přepisu se musela vyrovnat jak s dosavadní ediční praxí, tak s faktem, že se v průběhu sedmi staletí vývoje češtiny pravopisné systémy měnily – důsledkem je, že pravopisné jevy lze v korpusu zkoumat jen v omezené míře;
jedno slovo (slovní tvar) může mít více variant (podobně jako v mluvených korpusech), např. tehdy – tehdyť – tehdyž – tehda – tehdaž – tehdať – tehdas – tehdá – tehdáž. Některé z nich bývají uvedeny ve slovnících, je však vhodné zkontrolovat možnosti variant pomocí regulárních výrazů (např. [word="(?i)tehd.*"])
Výběr skupiny textů

Jak se v korpusu snadno zorientovat?

Základní přehled o tom, co Diakorp obsahuje, získáme po kliknutí na nabídku Vybrat texty. Zobrazí se seznamy textových kategorií zastoupených v korpusu (pod hlavičkou txtype_group jsou obecnější skupiny textů, pod txtype konkrétnější). Pokud nás některá kategorie zajímá, můžeme hledání rovnou omezit jen na ni.

Výběr časového úseku

Podobně je možné prohledávat pouze data z určitého časového období. K urychlení výběru textů podle roku vzniku (tj. aby nebylo nutné zaklikávat všechny jednotlivé roky) slouží textové pole, kam napíšeme počáteční a koncový rok (např. 1460 a 1620). Volbou částečně vyhovující hodnoty → vyřadit můžeme vyloučit texty, které do vybraného rozmezí patří jen vlivem nepřesné datace (např. 1450±10).

Jak v dotazu využít strukturního značkování textů?

Hledání v Diakorpu pomocí podmínky within

Značky vymezující zvláštní součásti textu (poznámky pod čarou <n> </n>, verše <v> </v>, nadpisy <k> </k>, cizojazyčný text <o> </o> aj.) jsou v Diakorpu verze 6 strukturními atributy a lze v jejich rámci hledat pomocí podmínky within. Můžeme např. zjistit, jak často začínaly nadpisy či součásti nadpisů v různých dílech tázacím příslovcem proč, anebo předložkou o.

Pomocí strukturních atributů můžeme také odstranit ta vyhledaná klíčová slova (KWIC), která spadají do nežádoucí součásti textu. Hledáme např. slovní tvary s koncovou diftongizací -uo(v) a chceme odfiltrovat všechen cizojazyčný text (např. quo). Po zadání dotazu typu CQL [word=".*uov?"], kterým nalezneme slovní tvary končící jak na -uov, tak na -uo, zvolíme v horní nabídce rozhraní KonText Filtr → Negativní a zapíšeme, co má být z konkordance vymazáno.

Zadání negativního filtru. Zápis můžeme číst jako „vymaž jakékoli klíčové slovo (KWIC), které je součástí cizojazyčného textu“.

Počáteční (<k>) a koncovou část atributů (</k>) můžeme použít také samostatně, k vyhledání slovního tvaru stojícího na začátku, nebo na konci daného textového úseku. Ani tehdy se strukturní atribut neuvádí v uvozovkách či v jiných závorkách (např. CQL dotazem <v> [word="A"] hledáme všechny případy, kdy veršovaný úsek začíná spojkou a).

Jak najít původní podobu upraveného slova?

Pokud se editor setkal s neočekávanou grafickou podobou slova a vyhodnotil tuto odchylku spíše jako záležitost pravopisu než fonologie, podobu slova upravil (emendoval) a původní, transliterovaný zápis uložil do pozičního atributu e. Tato informace je užitečná zejména ve dvou případech:

Hledáme v korpusu slovo, na které jsme narazili jinde a je rovněž neobvyklé, např. polowjce (polovina) – standardní dotazy žádný výskyt nenaleznou (např. Slovní tvar: polovíce; CQL: [word="(?i)poloví[cč].*"]), ale dotaz na opravené podoby ano: CQL: [e="(?i)polowj[cč].*"]. Poziční atribut „e“ se zobrazuje i hledá podobně jako lemma, word a jiné známé atributy.
Potřebujeme odfiltrovat emendovaná slova z konkordance – v nabídce Filtr → Negativní zadáme podmínku kdykoli atribut něco obsahuje: CQL: [e=".+"]¹⁾.

První případ zmiňujeme i proto, že rozhodování mezi emendací (s uložením původní podoby), nebo pouhou transkripcí neprobíhalo u některých méně jasných případů zcela konzistentně (roli hrálo mj. množství editorů, různé stáří textů a rozdíly mezi edičními zásadami uplatňovanými na texty z různých období, doklady nalezené i mimo slovníky apod.). Uživatelům je doporučeno kontrolovat u variantních tvarů s kolísající délkou samohlásky i atribut „e“.

Manuál rozhraní KonText • Korpusy ČNK • Jak začít pracovat s ČNK • Přehled pojmů korpusové lingvistiky • Kurz práce s korpusem v 7 lekcích • Dotazovací jazyk • Regulární výrazy • Subkorpus • Kolokace