AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:aranea [2014/05/13 11:42] Michal Křencnk:aranea [2015/06/18 13:21] (aktuální) – [Korpusy Aranea] Michal Křen
Řádek 1: Řádek 1:
 ====== Korpusy Aranea ====== ====== Korpusy Aranea ======
  
-Rodina nereferenčních srovnatelných webových korpusů sestavených Vladimírem Benkem. V současné době pokrývá celkem jazyků (de, en, fr, nl, pl, ru, sk), pro každý z nich jsou k dispozici dva korpusy: základní větší (maius, cca 1 mld. slov) a jeho 10% menší vzorek (minus). Srovnatelnosti korpusů pro jednotlivé jazyky bylo dosaženo jejich stejnou velikostí, dobou akvizice dat a použitím shodných nástrojů na jejich další zpracování (filtrace, deduplikace, lemmatizace a morfologické značkování). Podrobnější informace o korpusech Aranea najdete [[http://sketch.juls.savba.sk/aranea_about/index.html|zde]]. +Rodina nereferenčních srovnatelných webových korpusů sestavených [[http://www.juls.savba.sk/~vladob/|Vladimírem Benkem]]. V současné době pokrývá celkem 14 jazyků (cs, de, en, es, fi, fr, hu, it, nl, pl, pt, ru, sk, zh), pro některé jazyky jsou dále k dispozici specifické korpusy obsahující pouze některou z variet (vedle globální angličtiny také angličtina africká a asijská, vedle celku ruštiny také ruština z ruských a neruských domén). Pro každý jazyk či varietu jsou k dispozici vždy dva korpusy: základní větší (**maius**, cca 1 mld. slov) a jeho 10% menší vzorek (**minus**). Pouze pro češtinu a slovenštinu je k dispozici navíc také korpus o co největším rozsahu (**maximum**). 
 + 
 +Srovnatelnosti korpusů pro jednotlivé jazyky bylo dosaženo shodnou metodikou jejich tvorby, přibližně stejnou velikostí, dobou akvizice dat a použitím shodných nástrojů pro další zpracování (filtrace, deduplikace, lemmatizace a morfologické značkování). Podrobnější informace o korpusech Aranea najdete [[http://ucts.uniba.sk/aranea_about/index.html|zde]].
  
 ===== Jak citovat korpusy Aranea ===== ===== Jak citovat korpusy Aranea =====
-<WRAP round tip 30%> +<WRAP round tip 70%> 
-Benko, V.: Srovnatelné webové korpusy Aranea. Ústav Českého národního korpusu FF UK, Praha 2014. Dostupný z WWW: <http://www.korpus.cz>. +Benko, V.: Srovnatelné webové korpusy Aranea. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: <http://www.korpus.cz>.
-</WRAP>+
  
 +Benko, V. (2014): Aranea: Yet Another Family of (Comparable) Web Corpora. In: Sojka, P. – Horák, A. – Kopeček, I. – Pala, K. (eds): //TSD 2014//, LNAI 8655, 257–264. Springer International Publishing.
 +</WRAP>