ARF (average reduced frequency, průměrná redukovaná frekvence)

ARF¹⁾ je jednou z mnoha upravených frekvencí (adjusted frequencies) slovního tvaru v korpusu. Upravené frekvence přizpůsobují prostou frekvenci (počet výskytů) daného výrazu či jevu v korpusu míře rovnoměrnosti rozložení jeho výskytů, a berou tak v úvahu disperzi (dispersion). Díky ARF se mj. zamezuje tomu, aby se ve frekvenčních seznamech dostala do popředí slova, která se vyskytují jen v jednom díle, avšak mnohokrát, zatímco obecně ve zbytku jazyka a korpusu se naopak vyskytují mnohem méně často.

Redukovaná četnost a ARF

Předpokládejme, že jsme nalezli v korpusu dvě slova se stejnou četností. První z nich se nachází pouze v jediném dokumentu, zatímco druhé je víceméně rovnoměrně rozprostřeno v celém korpusu. Druhé slovo bude pravděpodobně běžnější než to první, ale z vypočítané četnosti se to nedozvíme. Proto se zavádí tzv. redukovaná četnost.

Její definice je následující: Označme si písmenem f četnost (frekvenci) daného slova v korpusu. Rozdělíme pozice v celém korpusu do f stejně velkých úseků. Pokud je celkový počet slov v korpusu dělitelný číslem f, budou úseky stejně velké; v opačném případě se mohou o jednu pozici lišit. Redukovaná četnost je potom počet úseků, ve kterých se dané slovo (alespoň jednou) nachází.

První slovo z našeho příkladu bude mít redukovanou četnost buď 1, padnou-li všechny jeho výskyty do jednoho úseku, nebo 2, jestliže náhodou bude hranice mezi dvěma úseky uprostřed shluku výskytů. Druhé slovo bude mít redukovanou četnost mnohem vyšší. V krajním případě může být teoreticky redukovaná četnost stejná jako četnost, a to právě tehdy, když každý výskyt daného slova padne do jednoho úseku. Prakticky se toto většinou nestává, alespoň ne pro slova s vyšší četností.

Průměrná redukovaná četnost (ARF) je pak odvozena od redukované četnosti v tom smyslu, že zohledňuje všechna možná sestavení korpusu (pořadí textů v něm). Počítá se jako průměrná hodnota redukované četnosti z všech možných sestavení korpusu.

Výpočet ARF

Hodnota ARF je dána vztahem

$$ARF = \frac{1}{v} \sum_{i=1}^{f} \min (d_{i}, v)$$

kde $f$ je frekvence daného výrazu v korpusu velikosti $N$, $d_{i}$ jsou vzdálenosti mezi jednotlivými výskyty tohoto výrazu v korpusu (počty mezilehlých slov) a $v$ je průměrná vzdálenost mezi jeho výskyty daná vztahem $v = \frac{N}{f}$.

Hodnoty ARF

Protože N je dělitelné f pouze výjimečně, nabývá ARF typicky neceločíselných hodnot, což je pro upravené frekvence běžné. Hodnota ARF pro daný výraz je korekcí jeho frekvence založenou na rozložení jeho výskytů v korpusu: čím je rozložení rovnoměrnější, tím více se hodnota ARF blíží frekvenci a naopak; pro výrazy, jejichž výskyty jsou v korpusu soustředěny do jediného shluku, se hodnota ARF blíží jedné bez ohledu na frekvenci.

Maximální hodnota ARF je tedy rovna frekvenci (je-li $d_{i} = v$ pro všechna $i$, tj. jsou-li vzdálenosti mezi všemi výskyty daného výrazu shodné), její nejmenší hodnota je rovna jedné.

Hodnota ARF se pro frekventovaná slova s rovnoměrným rozložením výskytů pohybuje okolo třetiny jejich frekvence (specificky však jen pro frekvenci větší než 50 000), pro odborné termíny vyskytující se pouze v několika dokumentech ale může být i mnohonásobně (10-krát až 100-krát) menší než frekvence. ARF je ve srovnání s frekvencí mnohem méně náchylná na (ne)zařazení konkrétních textů do korpusu, a lépe tedy odpovídá intuitivně chápané běžnosti slov.

ARF je v českém prostředí známá díky její implementaci v korpusovém manažeru Manatee/Bonito používaném v ČNK, obstála také ve srovnání s ostatními běžně používanými upravenými frekvencemi a disperzními mírami.²⁾ Mimoto se ARF prakticky osvědčila jako hlavní kritérium pro stanovení běžnosti slov při sestavování obou nejnovějších frekvenčních slovníků češtiny.

— M. Křen, V. Cvrček