Nastavení

Toto je starší verze dokumentu!


Korpusy Aranea

Rodina nereferenčních srovnatelných webových korpusů sestavených Vladimírem Benkem. V současné době pokrývá celkem 7 jazyků (de, en, fr, nl, pl, ru, sk), pro každý z nich jsou k dispozici dva korpusy: základní větší (maius, cca 1 mld. slov) a jeho 10% menší vzorek (minus). Srovnatelnosti korpusů pro jednotlivé jazyky bylo dosaženo shodnou metodikou jejich tvorby, přibližně stejnou velikostí, dobou akvizice dat a použitím shodných nástrojů pro další zpracování (filtrace, deduplikace, lemmatizace a morfologické značkování). Podrobnější informace o korpusech Aranea najdete zde.

Jak citovat korpusy Aranea

Benko, V.: Srovnatelné webové korpusy Aranea. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: <http://www.korpus.cz>.

Benko, V. (2014): Aranea: Yet Another Family of (Comparable) Web Corpora. In: Sojka, P. – Horák, A. – Kopeček, I. – Pala, K. (eds): TSD 2014, LNAI 8655, 257–264. Springer International Publishing.