Next revision | Previous revision |
en:manualy:korpusdb [2020/07/27 18:21] – created michalkren | en:manualy:korpusdb [2021/02/15 11:15] (current) – jankocek |
---|
====== KorpusDB: Database of word forms and lemmas attested in the CNC corpora ====== | ====== KorpusDB: Database of word forms and lemmas attested in the CNC corpora ====== |
| |
Databáze obsahuje všechny rozpoznané slovní tvary lemmat, která se reálně vyskytují v některém ze zpracovaných korpusů ČNK: [[cnk:syn:verze8|SYN v8]] (současná psaná čeština), [[cnk:oral|ORAL v1]] a [[cnk:ortofon|ORTOFON v1]] (současná mluvená čeština), [[cnk:diakorp|DIAKORP v6]] a nezveřejněný korpus textů 19. stol. Protože se lemmatizace a morfologické značkování těchto korpusů mírně liší, byly jako zdroj dat použity jejich interní verze s jednotným zpracováním. | {{ :manualy:korpusdb_logo.png?nolink&200|}} |
| |
Webové rozhraní nad databází je dostupné bez registrace na adrese: **[[https://db.korpus.cz/]]** | The database contains all recognized word forms of all lemmata that actually occur in any of the processed CNC corpora: [[cnk:syn:verze8|SYN v8]] (contemporary written Czech), [[cnk:oral|ORAL v1]] and [[cnk:ortofon|ORTOFON v1]] (contemporary spoken Czech), [[cnk:diakorp|DIAKORP v6]] and an unpublished corpus of 19th century texts. Since their lemmatization and POS-tagging may differ, internal versions of these corpora have been processed, using a common tagging. |
| |
Webové rozhraní ukazuje mj. celá paradigmata spolu s frekvencemi tvarů v různých typech textu a s možností filtrování kategorií podle míry variability tvarů v nich. Zkuste si například na https://db.korpus.cz/search/lemmas najít lemma //motýl//, zapnout přepínač "seskupit varianty" a změnit "úroveň filtru" na 4. Objeví se celkem 5 morfologických kategorií, v nichž je doložena největší variabilita, jejímž zdrojem jsou v některých kategoriích současné psané texty (dat.sg., loc.sg.), v některých čeština 19. století (nom.pl., acc.pl.) a jindy primárně čeština mluvená (inst.pl.): | The web interface is available for querying at: **[[https://db.korpus.cz/]]** |
| |
| The interface shows complete paradigms together with frequency breakdown of word forms in various types of text and offers filtering of categories with different degree of variability. For instance, you can try to search for the lemma //motýl// (butterfly) at https://db.korpus.cz/search/lemmas , then turn on the "stack variants" switch and set the "filter level" to four. Five morphological categories will appear with the greatest attested variability. There are several sources of this variability: contemporary written texts (dat.sg., loc.sg.), 19th century texts (nom.pl., acc.pl.) and contemporary spoken Czech (inst.pl.): |
| |
[{{:manualy:korpusdb_motyl.png?direct&400|Lemma //motýl// in KorpusDB}}] | [{{:manualy:korpusdb_motyl.png?direct&400|Lemma //motýl// in KorpusDB}}] |