+
je namísto znaku *
právě proto, aby byl vyloučen nulový obsahPři vyhledávání v korpusu Diakorp je třeba počítat s tím, že:
[word="(?i)tehd.*"]
)
Základní přehled o tom, co Diakorp obsahuje, získáme po kliknutí na nabídku Omezit hledání. Zobrazí se seznamy textových kategorií zastoupených v korpusu (pod hlavičkou txtype_group
jsou obecnější skupiny textů, pod txtype
konkrétnější). Pokud nás některá kategorie zajímá, můžeme hledání rovnou omezit jen na ni.
Podobně je možné prohledávat pouze data z určitého časového období. K urychlení výběru textů podle roku vzniku (tj. aby nebylo nutné zaklikávat všechny jednotlivé roky) slouží textové pole, kam napíšeme počáteční a koncový rok (např. 1460 a 1620). Volbou částečně vyhovující hodnoty → vyřadit můžeme vyloučit texty, které do vybraného rozmezí patří jen vlivem nepřesné datace (např. 1450±10).
Značky vymezující zvláštní součásti textu (poznámky pod čarou <n> </n>
, verše <v> </v>
, nadpisy <k> </k>
, cizojazyčný text <o> </o>
aj.) jsou v Diakorpu verze 6 strukturními atributy a lze v jejich rámci hledat pomocí podmínky within
. Můžeme např. zjistit, jak často začínaly nadpisy či součásti nadpisů v různých dílech tázacím příslovcem proč anebo předložkou o.
Pomocí strukturních atributů můžeme také odstranit ta vyhledaná klíčová slova (KWIC), která spadají do nežádoucí součásti textu. Hledáme např. slovní tvary s koncovou diftongizací -uo(v) a chceme odfiltrovat všechen cizojazyčný text (např. quo). Po zadání dotazu typu CQL [word=".*uov?"]
, kterým nalezneme slovní tvary končící jak na -uov, tak na -uo, zvolíme v horní nabídce rozhraní KonText Filtr → Negativní a zapíšeme, co má být z konkordance vymazáno.
Počáteční (<k>
) a koncovou část atributů (</k>
) můžeme použít také samostatně, k vyhledání slovního tvaru stojícího na začátku, nebo na konci daného textového úseku. Ani tehdy se strukturní atribut neuvádí v uvozovkách či v jiných závorkách (např. CQL dotazem <v> [word="A"]
hledáme všechny případy, kdy veršovaný úsek začíná spojkou a).
Pokud se editor setkal s neočekávanou grafickou podobou slova a vyhodnotil tuto odchylku spíše jako záležitost pravopisu než fonologie, podobu slova upravil (emendoval) a původní, transliterovaný zápis uložil do pozičního atributu e. Tato informace je užitečná zejména ve dvou případech:
polovíce
; CQL: [word="(?i)poloví[cč].*"]
), ale dotaz na opravené podoby ano: CQL: [e="(?i)polowj[cč].*"]
. Poziční atribut „e“ se zobrazuje i hledá podobně jako lemma, word a jiné známé atributy.[e=".+"]
1) (kdykoli atribut něco obsahuje).První případ zmiňujeme i proto, že rozhodování mezi emendací (s uložením původní podoby), nebo pouhou transkripcí neprobíhalo u některých méně jasných případů zcela konzistentně (roli hrálo mj. množství editorů, různé stáří textů a rozdíly mezi edičními zásadami uplatňovanými na texty z různých období, doklady nalezené i mimo slovníky apod.). Uživatelům je doporučeno kontrolovat u variantních tvarů s kolísající délkou samohlásky i atribut „e“.
+
je namísto znaku *
právě proto, aby byl vyloučen nulový obsah