AplikaceAplikace
Nastavení

This is an old revision of the document!


KorpusDB: Database of word forms and lemmas attested in the CNC corpora

Databáze obsahuje všechny rozpoznané slovní tvary lemmat, která se reálně vyskytují v některém ze zpracovaných korpusů ČNK: SYN v8 (současná psaná čeština), ORAL v1 a ORTOFON v1 (současná mluvená čeština), DIAKORP v6 a nezveřejněný korpus textů 19. stol. Protože se lemmatizace a morfologické značkování těchto korpusů mírně liší, byly jako zdroj dat použity jejich interní verze s jednotným zpracováním.

Webové rozhraní nad databází je dostupné bez registrace na adrese: https://db.korpus.cz/

Webové rozhraní uka­zuje mj. celá pa­ra­dig­mata spolu s frek­ven­cemi tvarů v růz­ných ty­pech textu a s mož­ností fil­tro­vání ka­te­go­rií podle míry va­ri­a­bi­lity tvarů v nich. Zkuste si například na https://db.korpus.cz/search/lemmas najít lemma motýl, zapnout přepínač “seskupit varianty” a změnit “úroveň filtru” na 4. Objeví se celkem 5 morfologických kategorií, v nichž je doložena největší variabilita, jejímž zdrojem jsou v některých kategoriích současné psané texty (dat.sg., loc.sg.), v některých čeština 19. století (nom.pl., acc.pl.) a jindy primárně čeština mluvená (inst.pl.):

Lemma motýl in KorpusDB

A more detailed help page on how to work with KorpusDB is available directly in the application after clicking on the question mark icon.

How to cite KorpusDB

Vondřička, P. (2020): KorpusDB: Database of word forms and lemmas attested in the CNC corpora. Version 1.0. FF UK, Praha. Available at: <http://db.korpus.cz/>.