Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:aranea [2014/05/13 11:42] – michalkren | cnk:aranea [2015/06/18 13:21] (aktuální) – [Korpusy Aranea] michalkren |
---|
====== Korpusy Aranea ====== | ====== Korpusy Aranea ====== |
| |
Rodina nereferenčních srovnatelných webových korpusů sestavených Vladimírem Benkem. V současné době pokrývá celkem 7 jazyků (de, en, fr, nl, pl, ru, sk), pro každý z nich jsou k dispozici dva korpusy: základní větší (maius, cca 1 mld. slov) a jeho 10% menší vzorek (minus). Srovnatelnosti korpusů pro jednotlivé jazyky bylo dosaženo jejich stejnou velikostí, dobou akvizice dat a použitím shodných nástrojů na jejich další zpracování (filtrace, deduplikace, lemmatizace a morfologické značkování). Podrobnější informace o korpusech Aranea najdete [[http://sketch.juls.savba.sk/aranea_about/index.html|zde]]. | Rodina nereferenčních srovnatelných webových korpusů sestavených [[http://www.juls.savba.sk/~vladob/|Vladimírem Benkem]]. V současné době pokrývá celkem 14 jazyků (cs, de, en, es, fi, fr, hu, it, nl, pl, pt, ru, sk, zh), pro některé jazyky jsou dále k dispozici specifické korpusy obsahující pouze některou z variet (vedle globální angličtiny také angličtina africká a asijská, vedle celku ruštiny také ruština z ruských a neruských domén). Pro každý jazyk či varietu jsou k dispozici vždy dva korpusy: základní větší (**maius**, cca 1 mld. slov) a jeho 10% menší vzorek (**minus**). Pouze pro češtinu a slovenštinu je k dispozici navíc také korpus o co největším rozsahu (**maximum**). |
| |
| Srovnatelnosti korpusů pro jednotlivé jazyky bylo dosaženo shodnou metodikou jejich tvorby, přibližně stejnou velikostí, dobou akvizice dat a použitím shodných nástrojů pro další zpracování (filtrace, deduplikace, lemmatizace a morfologické značkování). Podrobnější informace o korpusech Aranea najdete [[http://ucts.uniba.sk/aranea_about/index.html|zde]]. |
| |
===== Jak citovat korpusy Aranea ===== | ===== Jak citovat korpusy Aranea ===== |
<WRAP round tip 30%> | <WRAP round tip 70%> |
Benko, V.: Srovnatelné webové korpusy Aranea. Ústav Českého národního korpusu FF UK, Praha 2014. Dostupný z WWW: <http://www.korpus.cz>. | Benko, V.: Srovnatelné webové korpusy Aranea. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: <http://www.korpus.cz>. |
</WRAP> | |
| |
| Benko, V. (2014): Aranea: Yet Another Family of (Comparable) Web Corpora. In: Sojka, P. – Horák, A. – Kopeček, I. – Pala, K. (eds): //TSD 2014//, LNAI 8655, 257–264. Springer International Publishing. |
| </WRAP> |