Obsah

Akalex

Webová aplikace Akalex je věnována slovní zásobě akademické češtiny. Jejím hlavním cílem je poskytnout uživatelům z akademické sféry seznam nejčastějších akademických slov a víceslovných jednotek v češtině; takové seznamy známe i z jiných jazyků, zvláště pak z angličtiny. Tento seznam může sloužit jako pomůcka při výuce či při psaní akademických textů, zvláště pak kvalifikačních prací. Dále je určen pro studenty vysokých škol, pro něž čeština není mateřským jazykem.

Aplikace Akalex je založena na datech z korpusu SYN2015.

Seznam akademických slov

Do seznamu akademických slov Akalex jsou zahrnuty 1-gramy, které splňují následující podmínky:

  1. jsou znatelně častější v korpusu akademických textů, než v korpusu referenčním (3x častější)
  2. jsou v akademických textech frekventované (jejich relativní frekvence v korpusu akademických textů je alespoň 20)
  3. vyskytují se ve velkém počtu akademických oborů (alespoň ve 20 z 24)
  4. jejich rozmístění v akademických disciplínách je rovnoměrné (maximální hodnota disperze v oborech je 1,5)

Pro angličtinu vzniklo v posledních dvou desetiletích několik seznamů akademických slov, mezi nejznámější patří Academic Word List (AWL, Coxhead 2000) s 570 položkami a Academic Keyword List s 930 položkami (AKL, Paquot 2010). Naším cílem bylo vytvořit seznam co do velikosti řádově srovnatelný s těmito seznamy. Hlavní motivací byla pochopitelně uživatelská perspektiva, seznam obsahující zhruba 1000 slov (a víceslovných jednotek) je ještě uchopitelný, ale není příliš stručný. Bonusem je i to, že český seznam lze porovnávat s už existujícími anglickými také co do obsahu.

Databázová část aplikace

Vedle toho však aplikace slouží i jako materiál pro další výzkum české akademické slovní zásoby. Obsahuje totiž tisíce n-gramů (1- až 6-gramy), které se v akademických textech vyskytují častěji než v textech obecných, a v jejich rámci lze za pomoci atributů různého typu vyhledávat a třídit.

V databázi jsou obsaženy takové n-gramy (1- až 6-gramy), které jsou alespoň dvakrát častější v akademických textech než v textech publicistických a beletristických. Zároveň jsou to n-gramy, které jsou obsaženy alespoň ve třetině akademických disciplín (tj. 8 z celkových 24 disciplín v SYN2015) – tím je zaručeno, že se nejedná o vysoce specializované odborné termíny, ale spíš o n-gramy typické pro akademické texty obecně. Nastavováním jednotlivých hodnot (např. n-gramy 4x častější v akademických textech a/nebo vyskutující se alespoň ve 20 disciplínách) lze dosáhnout různých výsledků podle konkrétního výzkumného záměru.

Výzkumu prostřednictvím databázové části Akalexu se věnuje připravovaný článek Víceslovné jednotky typické pro české akademické texty (Kováříková et al., v tisku).

Seznam akademických frází

Ve třetí části je seznam více než 400 často používaných 2- a 3-gramů. Tento počet vysoko převyšuje počet základních akademických frází v seznamu Základní akademická slovní zásoba a je určen výhradně pro pedagogické účely (zvláště pro výuku češtiny pro cizince).

Aplikace je dostupná na adrese https://www.korpus.cz/akalex/ a je opatřena nápovědou ve formě informačních panelů.

Jak citovat Akalex

Kováříková, D., Kovářík, O. : Akalex. FF UK. Praha 2021. Dostupný z WWW: <http://www.korpus.cz/akalex>.