Skrýt
Nastavení

Korpusy Aranea

Rodina nereferenčních srovnatelných webových korpusů sestavených Vladimírem Benkem. V současné době pokrývá celkem 14 jazyků (cs, de, en, es, fi, fr, hu, it, nl, pl, pt, ru, sk, zh), pro některé jazyky jsou dále k dispozici specifické korpusy obsahující pouze některou z variet (vedle globální angličtiny také angličtina africká a asijská, vedle celku ruštiny také ruština z ruských a neruských domén). Pro každý jazyk či varietu jsou k dispozici vždy dva korpusy: základní větší (maius, cca 1 mld. slov) a jeho 10% menší vzorek (minus). Pouze pro češtinu a slovenštinu je k dispozici navíc také korpus o co největším rozsahu (maximum).

Srovnatelnosti korpusů pro jednotlivé jazyky bylo dosaženo shodnou metodikou jejich tvorby, přibližně stejnou velikostí, dobou akvizice dat a použitím shodných nástrojů pro další zpracování (filtrace, deduplikace, lemmatizace a morfologické značkování). Podrobnější informace o korpusech Aranea najdete zde.

Jak citovat korpusy Aranea

Benko, V.: Srovnatelné webové korpusy Aranea. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: <http://www.korpus.cz>.

Benko, V. (2014): Aranea: Yet Another Family of (Comparable) Web Corpora. In: Sojka, P. – Horák, A. – Kopeček, I. – Pala, K. (eds): TSD 2014, LNAI 8655, 257–264. Springer International Publishing.