AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
en:manualy:korpusdb [2020/07/27 18:21] – created michalkrenen:manualy:korpusdb [2021/02/15 11:15] (current) jankocek
Line 1: Line 1:
 ====== KorpusDB: Database of word forms and lemmas attested in the CNC corpora ====== ====== KorpusDB: Database of word forms and lemmas attested in the CNC corpora ======
  
-Databáze obsahuje všechny rozpoznané slovní tvary lemmat, která se reálně vyskytují v některém ze zpracovaných korpusů ČNK[[cnk:syn:verze8|SYN v8]] (současná psaná čeština), [[cnk:oral|ORAL v1]] a [[cnk:ortofon|ORTOFON v1]] (současná mluvená čeština), [[cnk:diakorp|DIAKORP v6]] a nezveřejněný korpus textů 19. stol. Protože se lemmatizace a morfologické značkování těchto korpusů mírně liší, byly jako zdroj dat použity jejich interní verze s jednotným zpracováním.+{{ :manualy:korpusdb_logo.png?nolink&200|}}
  
-Webové rozhraní nad databází je dostupné bez registrace na adrese**[[https://db.korpus.cz/]]**+The database contains all recognized word forms of all lemmata that actually occur in any of the processed CNC corpora: [[cnk:syn:verze8|SYN v8]] (contemporary written Czech), [[cnk:oral|ORAL v1]] and [[cnk:ortofon|ORTOFON v1]] (contemporary spoken Czech), [[cnk:diakorp|DIAKORP v6]] and an unpublished corpus of 19th century texts. Since their lemmatization and POS-tagging may differ, internal versions of these corpora have been processed, using a common tagging.
  
-Webové rozhraní uka­zuje mj. celá pa­ra­dig­mata spolu s frek­ven­cemi tvarů v růz­ných ty­pech textu a s mož­ností fil­tro­vání ka­te­go­rií podle míry va­ri­a­bi­lity tvarů v nich. Zkuste si například na https://db.korpus.cz/search/lemmas najít lemma //motýl//, zapnout přepínač "seskupit variantya změnit "úroveň filtruna 4Objeví se celkem 5 morfologických kategorií, v nichž je doložena největší variabilita, jejímž zdrojem jsou v některých kategoriích současné psané texty (dat.sg., loc.sg.), v některých čeština 19. století (nom.pl., acc.pl.) a jindy primárně čeština mluvená (inst.pl.):+The web interface is available for querying at: **[[https://db.korpus.cz/]]** 
 + 
 +The interface shows complete paradigms together with frequency breakdown of word forms in various types of text and offers filtering of categories with different degree of variability. For instance, you can try to search for the lemma //motýl// (butterfly) at https://db.korpus.cz/search/lemmas then turn on the "stack variantsswitch and set the "filter levelto fourFive morphological categories will appear with the greatest attested variability. There are several sources of this variability: contemporary written texts (dat.sg., loc.sg.), 19th century texts (nom.pl., acc.pl.) and contemporary spoken Czech (inst.pl.):
  
 [{{:manualy:korpusdb_motyl.png?direct&400|Lemma //motýl// in KorpusDB}}] [{{:manualy:korpusdb_motyl.png?direct&400|Lemma //motýl// in KorpusDB}}]