Nastavení

Toto je starší verze dokumentu!


Korpusy Aranea

Rodina srovnatelných webových korpusů pro několik evropských jazyků sestavených Vladimírem Benkem. V současné době pokrývá celkem 7 jazyků (de, en, fr, nl, pl, ru, sk), pro každý z nich jsou k dispozici dva korpusy: základní větší (maius, cca 1 mld. slov) a jeho 10% menší vzorek (minus). Srovnatelnosti korpusů pro jednotlivé jazyky bylo dosaženo jejich stejnou velikostí, dobou akvizice dat a použitím shodných nástrojů na jejich další zpracování (filtrace, deduplikace, lemmatizace a morfologické značkování). Podrobnější informace o korpusech Aranea najdete zde.