Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:arf [2013/05/28 16:40] – cvrcek | pojmy:arf [2022/06/07 13:12] (aktuální) – vaclavcvrcek |
---|
====== ARF (average reduced frequency, průměrná redukovaná frekvence) ====== | ====== ARF (average reduced frequency, průměrná redukovaná frekvence) ====== |
| |
ARF (Savický & Hlaváčová, 2002) je jednou z mnoha upravených frekvencí (adjusted frequencies) slovního tvaru v korpusu. Upravené frekvence modifikují prostou [[frekvence|frekvenci]] (počet výskytů) daného výrazu či jevu v korpusu podle míry rovnoměrnosti rozložení jeho výskytů, a berou tak v úvahu disperzi (dispersion). Díky ní se mj. zamezuje tomu, že ve frekvenčních seznamech se můžou dostat do popředí slova, která se vyskytují jen v jednom díle, popř. několika, avšak mnohokrát, zatímco obecně se ve zbytku jazyka a korpusu naopak vyskytují mnohem méně často. | ARF((Savický, P. & J. Hlaváčová: //Measures of Word Commonness//. In Journal of Quantitative Linguistics 9, 2002, 215–231. ([[https://www.tandfonline.com/doi/abs/10.1076/jqul.9.3.215.14124]]) )) je jednou z několika upravených frekvencí (adjusted frequencies) slovního tvaru v korpusu. Upravené frekvence přizpůsobují prostou [[frekvence|frekvenci]] (počet výskytů) daného výrazu či jevu v korpusu míře rovnoměrnosti rozložení jeho výskytů, a berou tak v úvahu [[pojmy:frekvence#disperze_jevu|disperzi]] (dispersion). Díky ARF se mj. zamezuje tomu, aby se ve frekvenčních seznamech dostala do popředí slova, která se vyskytují jen v jednom díle, avšak mnohokrát, zatímco obecně ve zbytku jazyka a korpusu se naopak vyskytují mnohem méně často. |
===== Redukovaná četnost a ARF ===== | ===== Redukovaná četnost a ARF ===== |
| |
Předpokládejme, že jsme nalezli v korpusu dvě slova se stejnou četností. První z nich se nachází pouze v jediném dokumentu, zatímco druhé je víceméně rovnoměrně rozprostřeno po celém korpusu. Druhé slovo bude pravděpodobně běžnější než to první, ale z vypočítané četnosti se to nedozvíme. Proto se zavádí tzv. redukovaná četnost. | Předpokládejme, že jsme nalezli v korpusu dvě slova se stejnou četností. První z nich se nachází pouze v jediném dokumentu, zatímco druhé je víceméně rovnoměrně rozprostřeno v celém korpusu. Druhé slovo bude pravděpodobně běžnější než to první, ale z vypočítané četnosti se to nedozvíme. Proto se zavádí tzv. redukovaná četnost. |
| |
Její definice je následující: Označme si písmenem //f// četnost (frekvenci) daného slova v korpusu. Rozdělíme pozice v celém korpusu do //f// stejně velkých úseků. Pokud je celkový počet slov v korpusu dělitelný číslem //f//, budou úseky stejně velké; v opačném případě se mohou o jednu pozici lišit. Redukovaná četnost je potom počet úseků, ve kterých se dané slovo (alespoň jednou) nachází. | Její definice je následující: Označme si písmenem //f// četnost (frekvenci) daného slova v korpusu. Rozdělíme pozice v celém korpusu do //f// stejně velkých úseků. Pokud je celkový počet slov v korpusu dělitelný číslem //f//, budou úseky stejně velké; v opačném případě se mohou o jednu pozici lišit. Redukovaná četnost je potom počet úseků, ve kterých se dané slovo (alespoň jednou) nachází. |
| |
První slovo z našeho příkladu bude mít redukovanou četnost buď 1, padnou-li všechny jeho výskyty do jednoho úseku, nebo 2, jestliže náhodou bude hranice mezi dvěma úseky uprostřed shluku výskytů. Druhé slovo bude mít redukovanou četnost mnohem vyšší. V krajním případě může být teoreticky redukovaná četnost stejná jako četnost, a to v tom případě, že každý výskyt daného slova padne do jednoho úseku. Prakticky se toto většinou nestává, alespoň ne pro slova s vyšší četností. | První slovo z našeho příkladu bude mít redukovanou četnost buď 1, padnou-li všechny jeho výskyty do jednoho úseku, nebo 2, jestliže náhodou bude hranice mezi dvěma úseky uprostřed shluku výskytů. Druhé slovo bude mít redukovanou četnost mnohem vyšší. V krajním případě může být teoreticky redukovaná četnost stejná jako četnost, a to právě tehdy, když každý výskyt daného slova padne do jednoho úseku. Prakticky se toto většinou nestává, alespoň ne pro slova s vyšší četností. |
| |
Průměrná redukovaná četnost (ARF) je pak odvozena od redukované četnosti v tom smyslu, že zohledňuje všechna možná sestavení korpusu (pořadí textů v něm). Počítá se jako průměrná hodnota redukované četnosti z všech možných sestavení korpusu. | Průměrná redukovaná četnost (ARF) je pak odvozena od redukované četnosti tak, že -- při zachování téhož pořadí všech slov ([[pojmy:pozice|pozic]]) v korpusu -- zohledňuje všechny možné začátky korpusu. Lze si to představit tak, že pokud pomyslně spojíme poslední slovo v korpusu s prvním, vznikne zacyklení, v němž pro každé slovo platí, že před ním právě jedno slovo předchází a právě jedno po něm následuje. ARF se pak počítá jako průměrná hodnota přes všechny možné začátky korpusu v takovém cyklu, kterých je právě tolik, kolik činí velikost korpusu (hodnota $N$ níže). |
| |
| Důležitou vlastností ARF je, že chápe korpus jako sekvenci pozic bez jakékoli strukturace. To se na jednu stranu dá chápat jako nevýhoda (ARF nedokáže využít hranic dokumentů jakožto přirozených hranic vymezujících jednotlivé texty), na druhou stranu to ale může být i výhoda, protože ARF lze spočítat i v korpusu bez strukturace (nehledě na to, že stanovení těchto hranic může být někdy arbitrární, přitom však významně ovlivňující hodnotu disperze). |
| |
===== Výpočet ARF ===== | ===== Výpočet ARF ===== |
Hodnota ARF je dána vztahem | Hodnota ARF je dána vztahem |
| |
$$ARF = \frac{1}{v \sum_{i=1}^{f} \min (d_{i}, v)}$$ | $$ARF = \frac{1}{v} \sum_{i=1}^{f} \min (d_{i}, v)$$ |
| |
kde $f$ je frekvence daného výrazu v korpusu velikosti $N$, $d_{i}$ jsou vzdálenosti mezi jednotlivými výskyty tohoto výrazu v korpusu (počty mezilehlých slov) a $v$ je průměrná vzdálenost mezi jeho výskyty daná vztahem $v = \frac{N}{f}$. | kde $f$ je frekvence daného výrazu v korpusu velikosti $N$, $d_{i}$ jsou vzdálenosti mezi jednotlivými výskyty tohoto výrazu v korpusu (počty mezilehlých slov) a $v$ je průměrná vzdálenost mezi jeho výskyty daná vztahem $v = \frac{N}{f}$. |
Hodnota ARF se pro frekventovaná slova s rovnoměrným rozložením výskytů pohybuje okolo třetiny jejich frekvence (specificky však jen pro frekvenci větší než 50 000), pro odborné termíny vyskytující se pouze v několika dokumentech ale může být i mnohonásobně (10-krát až 100-krát) menší než frekvence. ARF je ve srovnání s frekvencí mnohem méně náchylná na (ne)zařazení konkrétních textů do korpusu, a lépe tedy odpovídá intuitivně chápané běžnosti slov. | Hodnota ARF se pro frekventovaná slova s rovnoměrným rozložením výskytů pohybuje okolo třetiny jejich frekvence (specificky však jen pro frekvenci větší než 50 000), pro odborné termíny vyskytující se pouze v několika dokumentech ale může být i mnohonásobně (10-krát až 100-krát) menší než frekvence. ARF je ve srovnání s frekvencí mnohem méně náchylná na (ne)zařazení konkrétních textů do korpusu, a lépe tedy odpovídá intuitivně chápané běžnosti slov. |
| |
ARF je v českém prostředí známá díky implementaci v korpusovém manažeru [[pojmy:manatee|Manatee]]/[[pojmy:bonito|Bonito]] používaném v [[http://www.korpus.cz|ČNK]], obstála také ve srovnání s ostatními běžně používanými upravenými frekvencemi a disperzními mírami (Gries, 2008). Mimoto se ARF prakticky osvědčila jako hlavní kritérium pro stanovení běžnosti slov při sestavování obou nejnovějších frekvenčních slovníků češtiny. | ARF je v českém prostředí známá díky její implementaci v někdejším korpusovém manažeru [[pojmy:korpusovy_manazer|Manatee/Bonito]] (dnes v rozhraní [[manualy:kontext:index|KonText]]), obstála také ve srovnání s ostatními běžně používanými upravenými frekvencemi a disperzními mírami.((Gries, S. T.: //Dispersions and adjusted frequencies in corpora//. In International Journal of Corpus Linguistics 13, 2008, 403–437.)) Mimoto se ARF prakticky osvědčila jako hlavní kritérium pro stanovení běžnosti slov při sestavování obou nejnovějších frekvenčních slovníků češtiny. |
| |
| --- //M. Křen, V. Cvrček// (viz též [[https://www.czechency.org/slovnik/ARF|heslo v NESČ]]) |
| |
| ==== Související odkazy ==== |
| |
--- //M. Křen, V. Cvrček// | <WRAP round box 49%> |
| [[pojmy:frekvence|Frekvence]] • [[pojmy:ipm|ipm]] |
| </WRAP> |