AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
Následující verze Obě strany příští revize
pojmy:arf [2013/05/28 16:52]
Václav Cvrček
pojmy:arf [2021/03/14 21:33]
Michal Křen [Redukovaná četnost a ARF]
Řádek 1: Řádek 1:
 ====== ARF (average reduced frequency, průměrná redukovaná frekvence) ====== ====== ARF (average reduced frequency, průměrná redukovaná frekvence) ======
  
-ARF (Savický & Hlaváčová, 2002) je jednou z mnoha upravených frekvencí (adjusted frequencies) slovního tvaru v korpusu. Upravené frekvence modifikují prostou [[frekvence|frekvenci]] (počet výskytů) daného výrazu či jevu v korpusu podle míry rovnoměrnosti rozložení jeho výskytů, a berou tak v úvahu disperzi (dispersion). Díky ní se mj. zamezuje tomu, že ve frekvenčních seznamech se můžou dostat do popředí slova, která se vyskytují jen v jednom díle, popř. několika, avšak mnohokrát, zatímco obecně se ve zbytku jazyka a korpusu naopak vyskytují mnohem méně často. +ARF((Savický, P. J. Hlaváčová: //Measures of Word Commonness//. In Journal of Quantitative Linguistics 9, 2002, 215–231. ([[https://www.tandfonline.com/doi/abs/10.1076/jqul.9.3.215.14124]]) )) je jednou z mnoha upravených frekvencí (adjusted frequencies) slovního tvaru v korpusu. Upravené frekvence přizpůsobují prostou [[frekvence|frekvenci]] (počet výskytů) daného výrazu či jevu v korpusu míře rovnoměrnosti rozložení jeho výskytů, a berou tak v úvahu [[pojmy:frekvence#disperze_jevu|disperzi]] (dispersion). Díky ARF se mj. zamezuje tomu, aby se ve frekvenčních seznamech dostala do popředí slova, která se vyskytují jen v jednom díle, avšak mnohokrát, zatímco obecně ve zbytku jazyka a korpusu se naopak vyskytují mnohem méně často.
 ===== Redukovaná četnost a ARF ===== ===== Redukovaná četnost a ARF =====
  
-Předpokládejme, že jsme nalezli v korpusu dvě slova se stejnou četností. První z nich se nachází pouze v jediném dokumentu, zatímco druhé je víceméně rovnoměrně rozprostřeno po celém korpusu. Druhé slovo bude pravděpodobně běžnější než to první, ale z vypočítané četnosti se to nedozvíme. Proto se zavádí tzv. redukovaná četnost.+Předpokládejme, že jsme nalezli v korpusu dvě slova se stejnou četností. První z nich se nachází pouze v jediném dokumentu, zatímco druhé je víceméně rovnoměrně rozprostřeno celém korpusu. Druhé slovo bude pravděpodobně běžnější než to první, ale z vypočítané četnosti se to nedozvíme. Proto se zavádí tzv. redukovaná četnost.
  
 Její definice je následující: Označme si písmenem //f// četnost (frekvenci) daného slova v korpusu. Rozdělíme pozice v celém korpusu do //f// stejně velkých úseků. Pokud je celkový počet slov v korpusu dělitelný číslem //f//, budou úseky stejně velké; v opačném případě se mohou o jednu pozici lišit. Redukovaná četnost je potom počet úseků, ve kterých se dané slovo (alespoň jednou) nachází. Její definice je následující: Označme si písmenem //f// četnost (frekvenci) daného slova v korpusu. Rozdělíme pozice v celém korpusu do //f// stejně velkých úseků. Pokud je celkový počet slov v korpusu dělitelný číslem //f//, budou úseky stejně velké; v opačném případě se mohou o jednu pozici lišit. Redukovaná četnost je potom počet úseků, ve kterých se dané slovo (alespoň jednou) nachází.
  
-První slovo z našeho příkladu bude mít redukovanou četnost buď 1, padnou-li všechny jeho výskyty do jednoho úseku, nebo 2, jestliže náhodou bude hranice mezi dvěma úseky uprostřed shluku výskytů. Druhé slovo bude mít redukovanou četnost mnohem vyšší. V krajním případě může být teoreticky redukovaná četnost stejná jako četnost, a to v tom případě, žkaždý výskyt daného slova padne do jednoho úseku. Prakticky se toto většinou nestává, alespoň ne pro slova s vyšší četností.+První slovo z našeho příkladu bude mít redukovanou četnost buď 1, padnou-li všechny jeho výskyty do jednoho úseku, nebo 2, jestliže náhodou bude hranice mezi dvěma úseky uprostřed shluku výskytů. Druhé slovo bude mít redukovanou četnost mnohem vyšší. V krajním případě může být teoreticky redukovaná četnost stejná jako četnost, a to právě tehdykdyž každý výskyt daného slova padne do jednoho úseku. Prakticky se toto většinou nestává, alespoň ne pro slova s vyšší četností.
  
-Průměrná redukovaná četnost (ARF) je pak odvozena od redukované četnosti v tom smyslu, že zohledňuje všechna možná sestavení korpusu (pořadí textů v něm)Počítá se jako průměrná hodnota redukované četnosti z ech možných sestavení korpusu.+Průměrná redukovaná četnost (ARF) je pak odvozena od redukované četnosti tak, že -- při zachování téhož pořadí všech slov ([[pojmy:pozice|pozic]]) v korpusu -- zohledňuje všechny možné začátky korpusu. Lze si to představit tak, že pokud pomyslně spojíme poslední slovo v korpusu s prvním, vznikne zacyklení, v němž pro každé slovo platí, že před ním právě jedno slovo předchází a právě jedno po něm následujeARF se pak počítá jako průměrná hodnota přes echny možné začátky korpusu v takovém cyklu, kterých je právě tolik, jako je velikost korpusu.
  
 ===== Výpočet ARF ===== ===== Výpočet ARF =====
Řádek 17: Řádek 16:
 Hodnota ARF je dána vztahem  Hodnota ARF je dána vztahem 
  
-$$ARF = \frac{1}{v \sum_{i=1}^{f} \min (d_{i}, v)}$$ +$$ARF = \frac{1}{v\sum_{i=1}^{f} \min (d_{i}, v)$$ 
  
 kde $f$ je frekvence daného výrazu v korpusu velikosti $N$, $d_{i}$ jsou vzdálenosti mezi jednotlivými výskyty tohoto výrazu v korpusu (počty mezilehlých slov) a $v$ je průměrná vzdálenost mezi jeho výskyty daná vztahem $v = \frac{N}{f}$.  kde $f$ je frekvence daného výrazu v korpusu velikosti $N$, $d_{i}$ jsou vzdálenosti mezi jednotlivými výskyty tohoto výrazu v korpusu (počty mezilehlých slov) a $v$ je průměrná vzdálenost mezi jeho výskyty daná vztahem $v = \frac{N}{f}$. 
Řádek 29: Řádek 28:
 Hodnota ARF se pro frekventovaná slova s rovnoměrným rozložením výskytů pohybuje okolo třetiny jejich frekvence  (specificky však jen pro frekvenci větší než 50 000), pro odborné termíny vyskytující se pouze v několika dokumentech ale může být i mnohonásobně (10-krát až 100-krát) menší než frekvence. ARF je ve srovnání s frekvencí mnohem méně náchylná na (ne)zařazení konkrétních textů do korpusu, a lépe tedy odpovídá intuitivně chápané běžnosti slov. Hodnota ARF se pro frekventovaná slova s rovnoměrným rozložením výskytů pohybuje okolo třetiny jejich frekvence  (specificky však jen pro frekvenci větší než 50 000), pro odborné termíny vyskytující se pouze v několika dokumentech ale může být i mnohonásobně (10-krát až 100-krát) menší než frekvence. ARF je ve srovnání s frekvencí mnohem méně náchylná na (ne)zařazení konkrétních textů do korpusu, a lépe tedy odpovídá intuitivně chápané běžnosti slov.
  
-ARF je v českém prostředí známá díky implementaci v korpusovém manažeru [[pojmy:manatee|Manatee]]/[[pojmy:bonito|Bonito]] používaném v [[http://www.korpus.cz|ČNK]], obstála také ve srovnání s ostatními běžně používanými upravenými frekvencemi a disperzními mírami (Gries, 2008). Mimoto se ARF prakticky osvědčila jako hlavní kritérium pro stanovení běžnosti slov při sestavování obou nejnovějších frekvenčních slovníků češtiny.+ARF je v českém prostředí známá díky její implementaci v někdejším korpusovém manažeru [[pojmy:korpusovy_manazer|Manatee/Bonito]] (dnes rozhraní [[manualy:kontext:index|KonText]]), obstála také ve srovnání s ostatními běžně používanými upravenými frekvencemi a disperzními mírami.((Gries, S. T.: //Dispersions and adjusted frequencies in corpora//. In International Journal of Corpus Linguistics 13, 2008, 403–437.)) Mimoto se ARF prakticky osvědčila jako hlavní kritérium pro stanovení běžnosti slov při sestavování obou nejnovějších frekvenčních slovníků češtiny.
  
 +--- //M. Křen, V. Cvrček// (viz též [[https://www.czechency.org/slovnik/ARF|heslo v NESČ]])
  
 +==== Související odkazy ====
  
---- //M. Křen, V. Cvrček//+<WRAP round box 49%> 
 +[[pojmy:frekvence|Frekvence]] • [[pojmy:ipm|ipm]] 
 +</WRAP>