Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
pojmy:arf [2016/09/12 16:18] – [ARF (average reduced frequency, průměrná redukovaná frekvence)] Václav Cvrček | pojmy:arf [2021/03/14 21:34] – [Redukovaná četnost a ARF] Michal Křen |
---|
====== ARF (average reduced frequency, průměrná redukovaná frekvence) ====== | ====== ARF (average reduced frequency, průměrná redukovaná frekvence) ====== |
| |
ARF((Savický, P. & J. Hlaváčová: //Measures of Word Commonness//. In Journal of Quantitative Linguistics 9, 2002, 215–231. ([[http://www2.cs.cas.cz/~savicky/papers/commonness.pdf|preliminary version]]) )) je jednou z mnoha upravených frekvencí (adjusted frequencies) slovního tvaru v korpusu. Upravené frekvence přizpůsobují prostou [[frekvence|frekvenci]] (počet výskytů) daného výrazu či jevu v korpusu míře rovnoměrnosti rozložení jeho výskytů, a berou tak v úvahu disperzi (dispersion). Díky ARF se mj. zamezuje tomu, aby se ve frekvenčních seznamech dostala do popředí slova, která se vyskytují jen v jednom díle, avšak mnohokrát, zatímco obecně ve zbytku jazyka a korpusu se naopak vyskytují mnohem méně často. | ARF((Savický, P. & J. Hlaváčová: //Measures of Word Commonness//. In Journal of Quantitative Linguistics 9, 2002, 215–231. ([[https://www.tandfonline.com/doi/abs/10.1076/jqul.9.3.215.14124]]) )) je jednou z mnoha upravených frekvencí (adjusted frequencies) slovního tvaru v korpusu. Upravené frekvence přizpůsobují prostou [[frekvence|frekvenci]] (počet výskytů) daného výrazu či jevu v korpusu míře rovnoměrnosti rozložení jeho výskytů, a berou tak v úvahu [[pojmy:frekvence#disperze_jevu|disperzi]] (dispersion). Díky ARF se mj. zamezuje tomu, aby se ve frekvenčních seznamech dostala do popředí slova, která se vyskytují jen v jednom díle, avšak mnohokrát, zatímco obecně ve zbytku jazyka a korpusu se naopak vyskytují mnohem méně často. |
===== Redukovaná četnost a ARF ===== | ===== Redukovaná četnost a ARF ===== |
| |
První slovo z našeho příkladu bude mít redukovanou četnost buď 1, padnou-li všechny jeho výskyty do jednoho úseku, nebo 2, jestliže náhodou bude hranice mezi dvěma úseky uprostřed shluku výskytů. Druhé slovo bude mít redukovanou četnost mnohem vyšší. V krajním případě může být teoreticky redukovaná četnost stejná jako četnost, a to právě tehdy, když každý výskyt daného slova padne do jednoho úseku. Prakticky se toto většinou nestává, alespoň ne pro slova s vyšší četností. | První slovo z našeho příkladu bude mít redukovanou četnost buď 1, padnou-li všechny jeho výskyty do jednoho úseku, nebo 2, jestliže náhodou bude hranice mezi dvěma úseky uprostřed shluku výskytů. Druhé slovo bude mít redukovanou četnost mnohem vyšší. V krajním případě může být teoreticky redukovaná četnost stejná jako četnost, a to právě tehdy, když každý výskyt daného slova padne do jednoho úseku. Prakticky se toto většinou nestává, alespoň ne pro slova s vyšší četností. |
| |
Průměrná redukovaná četnost (ARF) je pak odvozena od redukované četnosti v tom smyslu, že zohledňuje všechna možná sestavení korpusu (pořadí textů v něm). Počítá se jako průměrná hodnota redukované četnosti z všech možných sestavení korpusu. | Průměrná redukovaná četnost (ARF) je pak odvozena od redukované četnosti tak, že -- při zachování téhož pořadí všech slov ([[pojmy:pozice|pozic]]) v korpusu -- zohledňuje všechny možné začátky korpusu. Lze si to představit tak, že pokud pomyslně spojíme poslední slovo v korpusu s prvním, vznikne zacyklení, v němž pro každé slovo platí, že před ním právě jedno slovo předchází a právě jedno po něm následuje. ARF se pak počítá jako průměrná hodnota přes všechny možné začátky korpusu v takovém cyklu, kterých je právě tolik, kolik činí velikost korpusu ($N$ níže). |
| |
===== Výpočet ARF ===== | ===== Výpočet ARF ===== |
ARF je v českém prostředí známá díky její implementaci v někdejším korpusovém manažeru [[pojmy:korpusovy_manazer|Manatee/Bonito]] (dnes v rozhraní [[manualy:kontext:index|KonText]]), obstála také ve srovnání s ostatními běžně používanými upravenými frekvencemi a disperzními mírami.((Gries, S. T.: //Dispersions and adjusted frequencies in corpora//. In International Journal of Corpus Linguistics 13, 2008, 403–437.)) Mimoto se ARF prakticky osvědčila jako hlavní kritérium pro stanovení běžnosti slov při sestavování obou nejnovějších frekvenčních slovníků češtiny. | ARF je v českém prostředí známá díky její implementaci v někdejším korpusovém manažeru [[pojmy:korpusovy_manazer|Manatee/Bonito]] (dnes v rozhraní [[manualy:kontext:index|KonText]]), obstála také ve srovnání s ostatními běžně používanými upravenými frekvencemi a disperzními mírami.((Gries, S. T.: //Dispersions and adjusted frequencies in corpora//. In International Journal of Corpus Linguistics 13, 2008, 403–437.)) Mimoto se ARF prakticky osvědčila jako hlavní kritérium pro stanovení běžnosti slov při sestavování obou nejnovějších frekvenčních slovníků češtiny. |
| |
--- //M. Křen, V. Cvrček// | --- //M. Křen, V. Cvrček// (viz též [[https://www.czechency.org/slovnik/ARF|heslo v NESČ]]) |
| |
==== Související odkazy ==== | ==== Související odkazy ==== |