Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
cnk:itwac [2014/03/10 15:06]
Michal Křen [Korpus itWaC]
cnk:itwac [2014/03/10 15:11] (aktuální)
Michal Křen [Korpus itWaC]
Řádek 2: Řádek 2:
 ====== Korpus itWaC ====== ====== Korpus itWaC ======
  
-Korpus webových textů stažených z domény .it, jeho celkový rozsah je miliardy slov. Korpus je slovnědruhově označkován a lemmatizován nástrojem [[http://​www.cis.uni-muenchen.de/​~schmid/​tools/​TreeTagger/​|TreeTagger]],​ podrobnější informace o vzniku korpusu a použitém lexikonu [[http://​dev.sslmit.unibo.it/​linguistics/​morph-it.php|Morph-it!]] najdete [[http://​wacky.sslmit.unibo.it/​doku.php?​id=corpora|zde]]. ​+Korpus webových textů stažených z domény .it, jeho celkový rozsah je 1,6 miliardy slov. Korpus je slovnědruhově označkován a lemmatizován nástrojem [[http://​www.cis.uni-muenchen.de/​~schmid/​tools/​TreeTagger/​|TreeTagger]],​ podrobnější informace o vzniku korpusu a použitém lexikonu [[http://​dev.sslmit.unibo.it/​linguistics/​morph-it.php|Morph-it!]] najdete [[http://​wacky.sslmit.unibo.it/​doku.php?​id=corpora|zde]]. ​
  
 == Jak citovat == == Jak citovat ==