Korpus EEBO obsahuje více než 25 000 anglických textů z let 1475–1700, které byly zdigitalizovány konsorciem Text Creation Partnership v rámci projektu Early English Books Online; proces digitalizace je podrobně popsán zde. Celkový rozsah korpusu je přibližně 730 mil. slov.
Metadata a strukturace textů byly pro použití v rozhraní KonText upraveny tak, aby byly zachovány základní strukturní informace (zvýraznění textu, jeho rozčlenění apod.) včetně odkazů na on-line verzi. Význam jednotlivých struktur a jejich atributů vychází z TEI P5 a popisuje ho také následující tabulka:
struktura | atribut | popis |
---|---|---|
<doc> | title | název dokumentu |
<doc> | author | autor dokumentu |
<doc> | year | rok vydání (může být zadán intervalem) |
<doc> | decade | dekáda, do níž spadá rok vydání |
<doc> | period | období, do něhož spadá rok vydání |
<doc> | biblio | bibliografický údaj |
<doc> | webSource | odkaz na plný text ve formátu HTML |
<doc> | ePubSource | odkaz na plný text ve formátu ePUB |
<doc> | id | identifikátor dokumentu |
<div> | type | část textu a její druh |
<head> | nadpis | |
<p> | odstavec | |
<hi> | rend | zvýraznění a jeho druh (řezy písma apod.) |
<pb> | facs | odkaz na stránku se scanem (omezená dostupnost) |
<lg> | sloka | |
<l> | verš | |
<sp> | promluva (zejm. v dramatech) | |
<speaker> | mluvčí (zejm. v dramatech) | |
<stage> | scénická poznámka (zejm. v dramatech) | |
<list> | seznam | |
<label> | nadpis položky seznamu | |
<item> | položka seznamu | |
<abbr> | zkratka | |
<q> | citace | |
<bibl> | bibliografická citace |
Základní seznámení s korpusem EEBO a s rozhraním KonText získáte v krátkém kurzu o 8 lekcích (v angličtině):
EEBO - Early English Books Online. Ústav Českého národního korpusu FF UK, Praha 2014. Dostupný z WWW: http://www.korpus.cz