Nastavení

Toto je starší verze dokumentu!


ARF (average reduced frequency, průměrná redukovaná frekvence)

ARF (Savický & Hlaváčová, 2002) je jednou z mnoha upravených frekvencí (adjusted frequencies) slovního tvaru v korpusu. Upravené frekvence modifikují prostou frekvenci (počet výskytů) daného výrazu či jevu v korpusu podle míry rovnoměrnosti rozložení jeho výskytů, a berou tak v úvahu disperzi (dispersion). Díky ní se mj. zamezuje tomu, že ve frekvenčních seznamech se můžou dostat do popředí slova, která se vyskytují jen v jednom díle, popř. několika, avšak mnohokrát, zatímco obecně se ve zbytku jazyka a korpusu naopak vyskytují mnohem méně často.

Redukovaná četnost a ARF

Předpokládejme, že jsme nalezli v korpusu dvě slova se stejnou četností. První z nich se nachází pouze v jediném dokumentu, zatímco druhé je víceméně rovnoměrně rozprostřeno po celém korpusu. Druhé slovo bude pravděpodobně běžnější než to první, ale z vypočítané četnosti se to nedozvíme. Proto se zavádí tzv. redukovaná četnost.

Její definice je následující: Označme si písmenem f četnost (frekvenci) daného slova v korpusu. Rozdělíme pozice v celém korpusu do f stejně velkých úseků. Pokud je celkový počet slov v korpusu dělitelný číslem f, budou úseky stejně velké; v opačném případě se mohou o jednu pozici lišit. Redukovaná četnost je potom počet úseků, ve kterých se dané slovo (alespoň jednou) nachází.

První slovo z našeho příkladu bude mít redukovanou četnost buď 1, padnou-li všechny jeho výskyty do jednoho úseku, nebo 2, jestliže náhodou bude hranice mezi dvěma úseky uprostřed shluku výskytů. Druhé slovo bude mít redukovanou četnost mnohem vyšší. V krajním případě může být teoreticky redukovaná četnost stejná jako četnost, a to v tom případě, že každý výskyt daného slova padne do jednoho úseku. Prakticky se toto většinou nestává, alespoň ne pro slova s vyšší četností.

Průměrná redukovaná četnost (ARF) je pak odvozena od redukované četnosti v tom smyslu, že zohledňuje všechna možná sestavení korpusu (pořadí textů v něm). Počítá se jako průměrná hodnota redukované četnosti z všech možných sestavení korpusu.

Výpočet ARF

Hodnota ARF je dána vztahem

$$ARF = \frac{1}{v \sum_{i=1}^{f} \min (d_{i}, v)}$$

kde $f$ je frekvence daného výrazu v korpusu velikosti $N$, $d_{i}$ jsou vzdálenosti mezi jednotlivými výskyty tohoto výrazu v korpusu (počty mezilehlých slov) a $v$ je průměrná vzdálenost mezi jeho výskyty daná vztahem $v = \frac{N}{f}$.

Hodnoty ARF

Protože N je dělitelné f pouze výjimečně, nabývá ARF typicky neceločíselných hodnot, což je pro upravené frekvence běžné. Hodnota ARF pro daný výraz je korekcí jeho frekvence založenou na rozložení jeho výskytů v korpusu: čím je rozložení rovnoměrnější, tím více se hodnota ARF blíží frekvenci a naopak; pro výrazy, jejichž výskyty jsou v korpusu soustředěny do jediného shluku, se hodnota ARF blíží jedné bez ohledu na frekvenci.

Maximální hodnota ARF je tedy rovna frekvenci (je-li $d_{i} = v$ pro všechna $i$, tj. jsou-li vzdálenosti mezi všemi výskyty daného výrazu shodné), její nejmenší hodnota je rovna jedné.

Hodnota ARF se pro frekventovaná slova s rovnoměrným rozložením výskytů pohybuje okolo třetiny jejich frekvence (specificky však jen pro frekvenci větší než 50 000), pro odborné termíny vyskytující se pouze v několika dokumentech ale může být i mnohonásobně (10-krát až 100-krát) menší než frekvence. ARF je ve srovnání s frekvencí mnohem méně náchylná na (ne)zařazení konkrétních textů do korpusu, a lépe tedy odpovídá intuitivně chápané běžnosti slov.

ARF je v českém prostředí známá díky implementaci v korpusovém manažeru Manatee/Bonito používaném v ČNK, obstála také ve srovnání s ostatními běžně používanými upravenými frekvencemi a disperzními mírami (Gries, 2008). Mimoto se ARF prakticky osvědčila jako hlavní kritérium pro stanovení běžnosti slov při sestavování obou nejnovějších frekvenčních slovníků češtiny.

M. Křen, V. Cvrček

Související odkazy

Frekvence

Gries, S. T.: Dispersions and adjusted frequencies in corpora. In International Journal of Corpus Linguistics 13, 2008, 403–437.

Savický, P. & J. Hlaváčová: Measures of Word Commonness. In Journal of Quantitative Linguistics 9, 2002, 215–231.