Webová aplikace Akalex je věnována slovní zásobě akademické češtiny. Jejím hlavním cílem je poskytnout uživatelům z akademické sféry seznam nejčastějších akademických slov a víceslovných jednotek v češtině; takové seznamy známe i z jiných jazyků, zvláště pak z angličtiny. Tento seznam může sloužit jako pomůcka při výuce či při psaní akademických textů, zvláště pak kvalifikačních prací. Dále je určen pro studenty vysokých škol, pro něž čeština není mateřským jazykem.
Aplikace Akalex je založena na datech z korpusu SYN2015.
Do seznamu akademických slov Akalex jsou zahrnuty 1-gramy, které splňují následující podmínky:
Pro angličtinu vzniklo v posledních dvou desetiletích několik seznamů akademických slov, mezi nejznámější patří Academic Word List (AWL, Coxhead 2000) s 570 položkami a Academic Keyword List s 930 položkami (AKL, Paquot 2010). Naším cílem bylo vytvořit seznam co do velikosti řádově srovnatelný s těmito seznamy. Hlavní motivací byla pochopitelně uživatelská perspektiva, seznam obsahující zhruba 1000 slov (a víceslovných jednotek) je ještě uchopitelný, ale není příliš stručný. Bonusem je i to, že český seznam lze porovnávat s už existujícími anglickými také co do obsahu.
Vedle toho však aplikace slouží i jako materiál pro další výzkum české akademické slovní zásoby. Obsahuje totiž tisíce n-gramů (1- až 6-gramy), které se v akademických textech vyskytují častěji než v textech obecných, a v jejich rámci lze za pomoci atributů různého typu vyhledávat a třídit.
V databázi jsou obsaženy takové n-gramy (1- až 6-gramy), které jsou alespoň dvakrát častější v akademických textech než v textech publicistických a beletristických. Zároveň jsou to n-gramy, které jsou obsaženy alespoň ve třetině akademických disciplín (tj. 8 z celkových 24 disciplín v SYN2015) – tím je zaručeno, že se nejedná o vysoce specializované odborné termíny, ale spíš o n-gramy typické pro akademické texty obecně. Nastavováním jednotlivých hodnot (např. n-gramy 4x častější v akademických textech a/nebo vyskutující se alespoň ve 20 disciplínách) lze dosáhnout různých výsledků podle konkrétního výzkumného záměru.
Výzkumu prostřednictvím databázové části Akalexu se věnuje připravovaný článek Víceslovné jednotky typické pro české akademické texty (Kováříková et al., v tisku).
Ve třetí části je seznam více než 400 často používaných 2- a 3-gramů. Tento počet vysoko převyšuje počet základních akademických frází v seznamu Základní akademická slovní zásoba a je určen výhradně pro pedagogické účely (zvláště pro výuku češtiny pro cizince).
Aplikace je dostupná na adrese https://www.korpus.cz/akalex/ a je opatřena nápovědou ve formě informačních panelů.
Kováříková, D., Kovářík, O. : Akalex. FF UK. Praha 2021. Dostupný z WWW: <http://www.korpus.cz/akalex>.