ARF (average reduced frequency, průměrná redukovaná frekvence)

ARF¹⁾ je jednou z několika upravených frekvencí (adjusted frequencies) slovního tvaru v korpusu. Upravené frekvence přizpůsobují prostou frekvenci (počet výskytů) daného výrazu či jevu v korpusu míře rovnoměrnosti rozložení jeho výskytů, a berou tak v úvahu disperzi (dispersion). Díky ARF se mj. zamezuje tomu, aby se ve frekvenčních seznamech dostala do popředí slova, která se vyskytují jen v jednom díle, avšak mnohokrát, zatímco obecně ve zbytku jazyka a korpusu se naopak vyskytují mnohem méně často.

Redukovaná četnost a ARF

Předpokládejme, že jsme nalezli v korpusu dvě slova se stejnou četností. První z nich se nachází pouze v jediném dokumentu, zatímco druhé je víceméně rovnoměrně rozprostřeno v celém korpusu. Druhé slovo bude pravděpodobně běžnější než to první, ale z vypočítané četnosti se to nedozvíme. Proto se zavádí tzv. redukovaná četnost.

Její definice je následující: Označme si písmenem f četnost (frekvenci) daného slova v korpusu. Rozdělíme pozice v celém korpusu do f stejně velkých úseků. Pokud je celkový počet slov v korpusu dělitelný číslem f, budou úseky stejně velké; v opačném případě se mohou o jednu pozici lišit. Redukovaná četnost je potom počet úseků, ve kterých se dané slovo (alespoň jednou) nachází.

První slovo z našeho příkladu bude mít redukovanou četnost buď 1, padnou-li všechny jeho výskyty do jednoho úseku, nebo 2, jestliže náhodou bude hranice mezi dvěma úseky uprostřed shluku výskytů. Druhé slovo bude mít redukovanou četnost mnohem vyšší. V krajním případě může být teoreticky redukovaná četnost stejná jako četnost, a to právě tehdy, když každý výskyt daného slova padne do jednoho úseku. Prakticky se toto většinou nestává, alespoň ne pro slova s vyšší četností.

Průměrná redukovaná četnost (ARF) je pak odvozena od redukované četnosti tak, že – při zachování téhož pořadí všech slov (pozic) v korpusu – zohledňuje všechny možné začátky korpusu. Lze si to představit tak, že pokud pomyslně spojíme poslední slovo v korpusu s prvním, vznikne zacyklení, v němž pro každé slovo platí, že před ním právě jedno slovo předchází a právě jedno po něm následuje. ARF se pak počítá jako průměrná hodnota přes všechny možné začátky korpusu v takovém cyklu, kterých je právě tolik, kolik činí velikost korpusu (hodnota $N$ níže).

Důležitou vlastností ARF je, že chápe korpus jako sekvenci pozic bez jakékoli strukturace. To se na jednu stranu dá chápat jako nevýhoda (ARF nedokáže využít hranic dokumentů jakožto přirozených hranic vymezujících jednotlivé texty), na druhou stranu to ale může být i výhoda, protože ARF lze spočítat i v korpusu bez strukturace (nehledě na to, že stanovení těchto hranic může být někdy arbitrární, přitom však významně ovlivňující hodnotu disperze).

Výpočet ARF

Hodnota ARF je dána vztahem

$$ARF = \frac{1}{v} \sum_{i=1}^{f} \min (d_{i}, v)$$

kde $f$ je frekvence daného výrazu v korpusu velikosti $N$, $d_{i}$ jsou vzdálenosti mezi jednotlivými výskyty tohoto výrazu v korpusu (počty mezilehlých slov) a $v$ je průměrná vzdálenost mezi jeho výskyty daná vztahem $v = \frac{N}{f}$.

Hodnoty ARF

Protože N je dělitelné f pouze výjimečně, nabývá ARF typicky neceločíselných hodnot, což je pro upravené frekvence běžné. Hodnota ARF pro daný výraz je korekcí jeho frekvence založenou na rozložení jeho výskytů v korpusu: čím je rozložení rovnoměrnější, tím více se hodnota ARF blíží frekvenci a naopak; pro výrazy, jejichž výskyty jsou v korpusu soustředěny do jediného shluku, se hodnota ARF blíží jedné bez ohledu na frekvenci.

Maximální hodnota ARF je tedy rovna frekvenci (je-li $d_{i} = v$ pro všechna $i$, tj. jsou-li vzdálenosti mezi všemi výskyty daného výrazu shodné), její nejmenší hodnota je rovna jedné.

Hodnota ARF se pro frekventovaná slova s rovnoměrným rozložením výskytů pohybuje okolo třetiny jejich frekvence (specificky však jen pro frekvenci větší než 50 000), pro odborné termíny vyskytující se pouze v několika dokumentech ale může být i mnohonásobně (10-krát až 100-krát) menší než frekvence. ARF je ve srovnání s frekvencí mnohem méně náchylná na (ne)zařazení konkrétních textů do korpusu, a lépe tedy odpovídá intuitivně chápané běžnosti slov.

ARF je v českém prostředí známá díky její implementaci v někdejším korpusovém manažeru Manatee/Bonito (dnes v rozhraní KonText), obstála také ve srovnání s ostatními běžně používanými upravenými frekvencemi a disperzními mírami.²⁾ Mimoto se ARF prakticky osvědčila jako hlavní kritérium pro stanovení běžnosti slov při sestavování obou nejnovějších frekvenčních slovníků češtiny.

— M. Křen, V. Cvrček (viz též heslo v NESČ)

Související odkazy

Frekvence • ipm

¹⁾

Savický, P. & J. Hlaváčová: Measures of Word Commonness. In Journal of Quantitative Linguistics 9, 2002, 215–231. (https://www.tandfonline.com/doi/abs/10.1076/jqul.9.3.215.14124)

²⁾

Gries, S. T.: Dispersions and adjusted frequencies in corpora. In International Journal of Corpus Linguistics 13, 2008, 403–437.

Historie: • bigram • ngram • frazem • arf