Hapax (legomenon)

Termín odvozený z řeckého hapax legomenon (= jednou řečené).

Jako hapaxy se v korpusové lingvistice označují takové jednotky, které se v korpusu (nebo textu) nacházejí právě jednou (jedná se tedy o typ, který má pouze jeden token, jednu realizaci, tj. frekvenci 1, přičemž typem se v této souvislosti nejčastěji rozumí slovní tvar nebo lemma). Jejich využití v lingvistickém výzkumu je dosud nejasné a sporné, protože jediný výskyt neumožňuje zobecňovat nebo vytvářet jakékoli závěry o vlastnostech a způsobech užití dané jednotky.

Počet hapaxů v textu nebo korpusu se značí V(1,N), kde N je celková délka textu, resp. velikost korpusu.

Poměr počtu hapaxů k počtu typů

Poměr počtu hapaxů k celkovému počtu typů v korpusu se v závislosti na velikosti korpusu mění. V hypotetickém korpusu o velikosti např. 10 slov bude velmi pravděpodobně každá jednotka zastoupena právě jedním hapaxem (poměr hapaxů ku všem typům bude 1). Přidáváním celých textů do korpusu (v řádech jednotek milionů slov) poměr klesá až k hodnotě téměř 0,35 hapaxů (ze všech typů), poté opět narůstá až k hladině 0,55 (u 120 milionového korpusu). To, zda se poměr s přidáváním dalšího textu ještě mění, nebo zůstává na této hladině, není dosud známo.

U velkých korpusů můžeme tedy počítat s tím, že zhruba polovina všech typů se bude vyskytovat právě jednou (srov. Zipfovy zákony ). Jejich podíl na celkovém počtu tokenů je ovšem zanedbatelný (ve stomilionovém korpusu SYN2010 představují lemmata s frekvencí 1 zhruba 0,4 % všech výskytů). Většinu z hapaxů tvoří lingvisticky nezajímavé jevy (překlepy, konverzní chyby, číselné údaje a kódy, cizojazyčné úseky apod.); mezi hapaxy se však objevují také slova, která korpus, jakkoliv je velký, zaznamenal poprvé, někdy jako neologismy či autorské novotvary apod.

Přírůstek hapaxů

Obdobný vztah, jaký najdeme mezi tokeny a typy a jež aproximuje Heapsův zákon, je možné pozorovat i u vztahu mezi přibývajícím počtem hapaxů v závislosti na zvětšujícím se korpusu. Parametry jsou zde jiné, princip je ovšem stejný:

$V(1,N) = aN^{b}$

kde V(1,N) je počet hapaxů při velikosti korpusu N, a a b jsou jazykově a žánrově specifické konstanty. Pro hapaxy tvořené českými lemmaty platí, že $a = 1.6935112$ a $b = 0.6678874$. Pro hapaxy tvořené slovními tvary v češtině platí, že $a = 57.28$ a $b = 0.5086$.

Využití hapaxů

Hapaxy (resp. jejich počet) jako snadno uchopitelný indikátor frekvenčního rozložení jednotek v korpusu slouží pro výpočet různých druhů charakteristik. Tempo přírůstku nových typů se zvětšením korpusu o jeden token se počítá podle vzorce $\frac{V(1,N)}{N}$. Stejný vzorec se pak v důsledku Good-Turingova odhadu používá pro vyjádření sumární pravděpodobnosti těch typů, které v korpusu z důvodu jeho omezenosti dosud nenacházíme.