Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
pojmy:arf [2021/03/14 21:33]
Michal Křen [Redukovaná četnost a ARF]
pojmy:arf [2021/03/14 21:42] (aktuální)
Michal Křen [Redukovaná četnost a ARF]
Řádek 10: Řádek 10:
 První slovo z našeho příkladu bude mít redukovanou četnost buď 1, padnou-li všechny jeho výskyty do jednoho úseku, nebo 2, jestliže náhodou bude hranice mezi dvěma úseky uprostřed shluku výskytů. Druhé slovo bude mít redukovanou četnost mnohem vyšší. V krajním případě může být teoreticky redukovaná četnost stejná jako četnost, a to právě tehdy, když každý výskyt daného slova padne do jednoho úseku. Prakticky se toto většinou nestává, alespoň ne pro slova s vyšší četností. První slovo z našeho příkladu bude mít redukovanou četnost buď 1, padnou-li všechny jeho výskyty do jednoho úseku, nebo 2, jestliže náhodou bude hranice mezi dvěma úseky uprostřed shluku výskytů. Druhé slovo bude mít redukovanou četnost mnohem vyšší. V krajním případě může být teoreticky redukovaná četnost stejná jako četnost, a to právě tehdy, když každý výskyt daného slova padne do jednoho úseku. Prakticky se toto většinou nestává, alespoň ne pro slova s vyšší četností.
  
-Průměrná redukovaná četnost (ARF) je pak odvozena od redukované četnosti tak, že -- při zachování téhož pořadí všech slov ([[pojmy:pozice|pozic]]) v korpusu -- zohledňuje všechny možné začátky korpusu. Lze si to představit tak, že pokud pomyslně spojíme poslední slovo v korpusu s prvním, vznikne zacyklení, v němž pro každé slovo platí, že před ním právě jedno slovo předchází a právě jedno po něm následuje. ARF se pak počítá jako průměrná hodnota přes všechny možné začátky korpusu v takovém cyklu, kterých je právě tolik, jako je velikost korpusu.+Průměrná redukovaná četnost (ARF) je pak odvozena od redukované četnosti tak, že -- při zachování téhož pořadí všech slov ([[pojmy:pozice|pozic]]) v korpusu -- zohledňuje všechny možné začátky korpusu. Lze si to představit tak, že pokud pomyslně spojíme poslední slovo v korpusu s prvním, vznikne zacyklení, v němž pro každé slovo platí, že před ním právě jedno slovo předchází a právě jedno po něm následuje. ARF se pak počítá jako průměrná hodnota přes všechny možné začátky korpusu v takovém cyklu, kterých je právě tolik, kolik činí velikost korpusu (hodnota $N$ níže). 
 + 
 +Důležitou vlastností ARF je, že chápe korpus jako sekvenci pozic bez jakékoli strukturace. To se na jednu stranu dá chápat jako nevýhoda (ARF nedokáže využít hranic dokumentů jakožto přirozených hranic vymezujících jednotlivé texty), na druhou stranu to ale může být i výhoda, protože ARF lze spočítat i v korpusu bez strukturace (nehledě na to, že stanovení těchto hranic může být někdy arbitrární, přitom však významně ovlivňující hodnotu disperze).
  
 ===== Výpočet ARF ===== ===== Výpočet ARF =====