Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
manualy:korpusdb [2020/07/27 17:43] – [KorpusDB: Databáze slovních tvarů a lemmat doložených v korpusech ČNK] michalkren | manualy:korpusdb [2021/02/15 11:15] (aktuální) – jankocek |
---|
====== KorpusDB: Databáze slovních tvarů a lemmat doložených v korpusech ČNK ====== | ====== KorpusDB: databáze slovních tvarů a lemmat doložených v korpusech ČNK ====== |
| |
| {{ :manualy:korpusdb_logo.png?nolink&200|}} |
| |
Databáze obsahuje všechny rozpoznané slovní tvary lemmat, která se reálně vyskytují v některém ze zpracovaných korpusů ČNK: [[cnk:syn:verze8|SYN v8]] (současná psaná čeština), [[cnk:oral|ORAL v1]] a [[cnk:ortofon|ORTOFON v1]] (současná mluvená čeština), [[cnk:diakorp|DIAKORP v6]] a nezveřejněný korpus textů 19. stol. Protože se lemmatizace a morfologické značkování těchto korpusů mírně liší, byly jako zdroj dat použity jejich interní verze s jednotným zpracováním. | Databáze obsahuje všechny rozpoznané slovní tvary lemmat, která se reálně vyskytují v některém ze zpracovaných korpusů ČNK: [[cnk:syn:verze8|SYN v8]] (současná psaná čeština), [[cnk:oral|ORAL v1]] a [[cnk:ortofon|ORTOFON v1]] (současná mluvená čeština), [[cnk:diakorp|DIAKORP v6]] a nezveřejněný korpus textů 19. stol. Protože se lemmatizace a morfologické značkování těchto korpusů mírně liší, byly jako zdroj dat použity jejich interní verze s jednotným zpracováním. |
Webové rozhraní nad databází je dostupné bez registrace na adrese: **[[https://db.korpus.cz/]]** | Webové rozhraní nad databází je dostupné bez registrace na adrese: **[[https://db.korpus.cz/]]** |
| |
Webové rozhraní ukazuje mj. celá paradigmata spolu s frekvencemi tvarů v různých typech textu a s možností filtrování kategorií podle míry variability tvarů v nich. Zkuste si například na https://db.korpus.cz/search/lemmas najít lemma //motýl//, zapnout přepínač "seskupit varianty" a změnit "úroveň filtru" na 4. Objeví se celkem 5 morfologických kategorií, v nichž je doložena největší variabilita: | Webové rozhraní ukazuje mj. celá paradigmata spolu s frekvencemi tvarů v různých typech textu a s možností filtrování kategorií podle míry variability tvarů v nich. Zkuste si například na https://db.korpus.cz/search/lemmas najít lemma //motýl//, zapnout přepínač "seskupit varianty" a změnit "úroveň filtru" na 4. Objeví se celkem 5 morfologických kategorií, v nichž je doložena největší variabilita, jejímž zdrojem jsou v některých kategoriích současné psané texty (dat.sg., loc.sg.), v některých čeština 19. století (nom.pl., acc.pl.) a jindy primárně čeština mluvená (inst.pl.): |
| |
[{{:manualy:korpusdb_motyl.png?direct&400|Lemma //motýl// v rozhraní KorpusDB}}] | [{{:manualy:korpusdb_motyl.png?direct&400|Lemma //motýl// v rozhraní KorpusDB}}] |
<WRAP round tip 80%> | <WRAP round tip 80%> |
| |
Vondřička, P. (2020): KorpusDB: Databáze slovních tvarů a lemmat doložených v korpusech ČNK. Verze 1.0. ÚČNK FF UK, Praha. Dostupný z WWW: <http://korpus.cz/mapka/>. | Vondřička, P. (2020): KorpusDB: Databáze slovních tvarů a lemmat doložených v korpusech ČNK. Verze 1.0. ÚČNK FF UK, Praha. Dostupný z WWW: <http://db.korpus.cz/>. |
| |
</WRAP> | </WRAP> |
| |