Obsah
Specifika vyhledávání v diachronním korpusu
Při vyhledávání v korpusu Diakorp je třeba počítat s tím, že:
- korpus není lemmatizovaný ani morfologicky označkovaný (na rozdíl např. od korpusů řady SYN) – je tedy možné klást pouze dotazy vycházející z konkrétních lexikálních jednotek (nikoli z gramatických kategorií) a pro obecnější zadání (např. mohla v minulosti stát vokalizovaná předložka před slovem začínajícím na samohlásku?) je nutné využít klikacích voleb grafického rozhraní nebo přímo regulárních výrazů;
- texty jsou transkribované a pravidla přepisu se musela vyrovnat jak s dosavadní ediční praxí, tak s faktem, že se v průběhu sedmi staletí vývoje češtiny pravopisné systémy měnily – důsledkem je, že pravopisné jevy lze v korpusu zkoumat jen v omezené míře;
- jedno slovo (slovní tvar) může mít více variant (podobně jako v mluvených korpusech), např. tehdy – tehdyť – tehdyž – tehda – tehdaž – tehdať – tehdas – tehdá – tehdáž. Některé z nich bývají uvedeny ve slovnících, je však vhodné zkontrolovat možnosti variant pomocí regulárních výrazů (např.
[word="(?i)tehd.*"]
)
Jak se v korpusu snadno zorientovat?
Základní přehled o tom, co Diakorp obsahuje, získáme po kliknutí na nabídku Omezit hledání. Zobrazí se seznamy textových kategorií zastoupených v korpusu (pod hlavičkou txtype_group
jsou obecnější skupiny textů, pod txtype
konkrétnější). Pokud nás některá kategorie zajímá, můžeme hledání rovnou omezit jen na ni.
Podobně je možné prohledávat pouze data z určitého časového období. K urychlení výběru textů podle roku vzniku (tj. aby nebylo nutné zaklikávat všechny jednotlivé roky) slouží textové pole, kam napíšeme počáteční a koncový rok (např. 1460 a 1620). Volbou částečně vyhovující hodnoty → vyřadit můžeme vyloučit texty, které do vybraného rozmezí patří jen vlivem nepřesné datace (např. 1450±10).
Jak v dotazu využít strukturního značkování textů?
Značky vymezující zvláštní součásti textu (poznámky pod čarou <n> </n>
, verše <v> </v>
, nadpisy <k> </k>
, cizojazyčný text <o> </o>
aj.) jsou v Diakorpu verze 6 strukturními atributy a lze v jejich rámci hledat pomocí podmínky within
. Můžeme např. zjistit, jak často začínaly nadpisy či součásti nadpisů v různých dílech tázacím příslovcem proč anebo předložkou o.
Pomocí strukturních atributů můžeme také odstranit ta vyhledaná klíčová slova (KWIC), která spadají do nežádoucí součásti textu. Hledáme např. slovní tvary s koncovou diftongizací -uo(v) a chceme odfiltrovat všechen cizojazyčný text (např. quo). Po zadání dotazu typu CQL [word=".*uov?"]
, kterým nalezneme slovní tvary končící jak na -uov, tak na -uo, zvolíme v horní nabídce rozhraní KonText Filtr → Negativní a zapíšeme, co má být z konkordance vymazáno.
Počáteční (<k>
) a koncovou část atributů (</k>
) můžeme použít také samostatně, k vyhledání slovního tvaru stojícího na začátku, nebo na konci daného textového úseku. Ani tehdy se strukturní atribut neuvádí v uvozovkách či v jiných závorkách (např. CQL dotazem <v> [word="A"]
hledáme všechny případy, kdy veršovaný úsek začíná spojkou a).
Jak najít původní podobu upraveného slova?
Pokud se editor setkal s neočekávanou grafickou podobou slova a vyhodnotil tuto odchylku spíše jako záležitost pravopisu než fonologie, podobu slova upravil (emendoval) a původní, transliterovaný zápis uložil do pozičního atributu e. Tato informace je užitečná zejména ve dvou případech:
- Hledáme v korpusu slovo, na které jsme narazili jinde a je rovněž neobvyklé, např. polowjce (polovina) – standardní dotazy žádný výskyt nenaleznou (např. Slovní tvar:
polovíce
; CQL:[word="(?i)poloví[cč].*"]
), ale dotaz na opravené podoby ano: CQL:[e="(?i)polowj[cč].*"]
. Poziční atribut „e“ se zobrazuje i hledá podobně jako lemma, word a jiné známé atributy. - Potřebujeme odfiltrovat emendovaná slova z konkordance – v nabídce Filtr → Negativní zadáme podmínku
[e=".+"]
1) (kdykoli atribut něco obsahuje).
První případ zmiňujeme i proto, že rozhodování mezi emendací (s uložením původní podoby), nebo pouhou transkripcí neprobíhalo u některých méně jasných případů zcela konzistentně (roli hrálo mj. množství editorů, různé stáří textů a rozdíly mezi edičními zásadami uplatňovanými na texty z různých období, doklady nalezené i mimo slovníky apod.). Uživatelům je doporučeno kontrolovat u variantních tvarů s kolísající délkou samohlásky i atribut „e“.
+
je namísto znaku *
právě proto, aby byl vyloučen nulový obsah