Obsah

Korpus DOTKO

DOTKO v2 (DOlnoserbski Tekstowy KOrpus) je rozšířená verze diachronního korpusu dolní lužické srbštiny připravovaného v chotěbuzské pobočce Lužickosrbského institutu. Zahrnuje největší část historických dolnolužickosrbských tisků od počátku 18. století do úplného zákazu veřejného užívání lužické srbštiny v roce 1937. Nejstarší text korpusu v tuto chvíli pochází z roku 1706, nejnovější z roku 1936. Podstatnou část tvoří texty Bramborského Casniku (dolnolužických novin) z let 1848 – 1933. Texty byly získány metodou double-keying, a mají tedy poměrně vysokou přesnost přepisu. Největším pokrokem oproti verzi 1 je však normalizace a lemmatizace textů. Při vhodném nastavení je tedy možné vyhledávat i tvary v dnešním pravopisu, přičemž historické pravopisné podoby jsou podle toho stále vyhledávány. Morfologické značkování zatím nebylo provedeno, což se u některých specifických otázek může ukázat jako problematické.

Podrobnější informace o korpusu najdete na stránce http://www.dolnoserbski.de/korpus/. Texty jsou rovněž součástí Dolnolužickosrbské digitální knihovny, více informací naleznete na https://www.dolnoserbski.de/biblioteka/informacije/.

DOTKO je nereferenční korpus, v plánu je jeho průběžné vylepšování, rozšiřování a aktualizace.

Jak citovat DOTKO

Serbski Institut, Oddělení dolnolužickosrbského výzkumu Chotěbuz: DOTKO: dolnolužický textový korpus, verze 2 z 27. 9. 2023. Ústav Českého národního korpusu FF UK, Praha 2023. Dostupný z WWW: <http://www.korpus.cz>.

Související odkazy