Obsah

Korpus HOTKO

HOTKO (HOrnjoserbski Tekstowy KOrpus) je korpus horní lužické srbštiny připravovaný v Lužickosrbském institutu v Budyšíně. Korpus obsahuje publicistické, beletristické, náboženské a vědecké texty od poloviny 19. století až do současnosti. Největší část tvoří publicistika (57 %) a beletristika (23 %), zahrnuta je též řada slovníků (12 %). Co se časového zařazení týče, pochází více než polovina textů z nedávné doby po politickém převratu 1989/1990 (54 %). Většina textů byla naskenována a prošla OCR, avšak nebyla zkorigována. Malá část korpusu je prezentována v historickém pravopisu. Korpus není morfologicky anotován ani lemmatizován, což může komplikovat vyhledávání.

Podrobnější informace o korpusu najdete na stránce http://www.serbski-institut.de/cms/os/48/hornjoserbski.

HOTKO je nereferenční korpus, v plánu je jeho průběžné vylepšování, rozšiřování a aktualizace.

Momentálně je aktuální verze 2 z března 2021.

Jak citovat HOTKO

Serbski Institut Budyšín: HOTKO: hornolužický textový korpus, verze 2 z 6. 3. 2021. Ústav Českého národního korpusu FF UK, Praha 2021. Dostupný z WWW: <http://www.korpus.cz>.

Související odkazy