Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
pojmy:arf [2021/03/14 21:32] – [Redukovaná četnost a ARF] michalkren | pojmy:arf [2022/06/07 13:12] (aktuální) – vaclavcvrcek | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== ARF (average reduced frequency, průměrná redukovaná frekvence) ====== | ====== ARF (average reduced frequency, průměrná redukovaná frekvence) ====== | ||
- | ARF((Savický, | + | ARF((Savický, |
===== Redukovaná četnost a ARF ===== | ===== Redukovaná četnost a ARF ===== | ||
Řádek 10: | Řádek 10: | ||
První slovo z našeho příkladu bude mít redukovanou četnost buď 1, padnou-li všechny jeho výskyty do jednoho úseku, nebo 2, jestliže náhodou bude hranice mezi dvěma úseky uprostřed shluku výskytů. Druhé slovo bude mít redukovanou četnost mnohem vyšší. V krajním případě může být teoreticky redukovaná četnost stejná jako četnost, a to právě tehdy, když každý výskyt daného slova padne do jednoho úseku. Prakticky se toto většinou nestává, alespoň ne pro slova s vyšší četností. | První slovo z našeho příkladu bude mít redukovanou četnost buď 1, padnou-li všechny jeho výskyty do jednoho úseku, nebo 2, jestliže náhodou bude hranice mezi dvěma úseky uprostřed shluku výskytů. Druhé slovo bude mít redukovanou četnost mnohem vyšší. V krajním případě může být teoreticky redukovaná četnost stejná jako četnost, a to právě tehdy, když každý výskyt daného slova padne do jednoho úseku. Prakticky se toto většinou nestává, alespoň ne pro slova s vyšší četností. | ||
- | Průměrná redukovaná četnost (ARF) je pak odvozena od redukované četnosti tak, že -- při zachování téhož pořadí všech slov ([[pojmy: | + | Průměrná redukovaná četnost (ARF) je pak odvozena od redukované četnosti tak, že -- při zachování téhož pořadí všech slov ([[pojmy: |
+ | |||
+ | Důležitou vlastností ARF je, že chápe korpus jako sekvenci pozic bez jakékoli strukturace. To se na jednu stranu dá chápat jako nevýhoda (ARF nedokáže využít hranic dokumentů jakožto přirozených hranic vymezujících jednotlivé texty), na druhou stranu to ale může být i výhoda, protože ARF lze spočítat i v korpusu bez strukturace (nehledě na to, že stanovení těchto hranic může být někdy arbitrární, | ||
===== Výpočet ARF ===== | ===== Výpočet ARF ===== |