AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
en:pojmy:arf [2016/12/12 15:45] – created veronikapojarovaen:pojmy:arf [2016/12/12 16:22] (current) – [ARF values] veronikapojarova
Line 9: Line 9:
 Its definition is as follows: We use the letter //f// to label the frequency of a given word in the corpus. We divide the positions in the entire corpus into //f// sections of equal size. If the total number of words in the corpus should be divisible by //f//, the sections would be the same size; in the opposite case they may differ in one position. A reduced frequency is then the number of sections in which the given word occurs at least once. Its definition is as follows: We use the letter //f// to label the frequency of a given word in the corpus. We divide the positions in the entire corpus into //f// sections of equal size. If the total number of words in the corpus should be divisible by //f//, the sections would be the same size; in the opposite case they may differ in one position. A reduced frequency is then the number of sections in which the given word occurs at least once.
  
-První slovo z našeho příkladu bude mít redukovanou četnost buď 1, padnou-li všechny jeho výskyty do jednoho úseku, nebo 2, jestliže náhodou bude hranice mezi dvěma úseky uprostřed shluku výskytůDruhé slovo bude mít redukovanou četnost mnohem vyššíV krajním případě může být teoreticky redukovaná četnost stejná jako četnost, a to právě tehdy, když každý výskyt daného slova padne do jednoho úsekuPrakticky se toto většinou nestáváalespoň ne pro slova s vyšší četností.+The first word from our example will have a reduced frequency of either (if all of its occurrences fall under on section) or (if the boundary between two sections should happen to be in the middle of a cluster of occurrencesThe second word will have a much higher value for reduced frequencyIn extremely unlikely cases the reduced frequency could theoretically be the same as the frequencywhich would happen should every occurrence of given word fall under one single sectionThis very rarely happens in realityespecially as far as words with higher frequencies are concerned.
  
 The average reduced frequency (ARF) is then derived from the reduced frequency in the sense that it takes into account all possible compilations of the corpus (the order of the texts in it). It is calculated as an average of the reduced frequency from all possible compilations of the corpus. The average reduced frequency (ARF) is then derived from the reduced frequency in the sense that it takes into account all possible compilations of the corpus (the order of the texts in it). It is calculated as an average of the reduced frequency from all possible compilations of the corpus.
Line 23: Line 23:
 ===== ARF values ===== ===== ARF values =====
  
-Protože //N// je dělitelné //f// pouze výjimečněnabývá ARF typicky neceločíselných hodnotcož je pro upravené frekvence běžnéHodnota ARF pro daný výraz je korekcí jeho frekvence založenou na rozložení jeho výskytů v korpusučím je rozložení rovnoměrnějšítím více se hodnota ARF blíží frekvenci a naopakpro výrazy, jejichž výskyty jsou v korpusu soustředěny do jediného shlukuse hodnota ARF blíží jedné bez ohledu na frekvenci+Because //N// is divisible by //f// only very rarelythe ARF typically takes on fractional valueswhich is common for adjusted frequenciesThe ARF value for a given expression is a correction of its frequency based on the distribution of its occurrence is the corpusthe more even the distributionthe closer the ARF value will be to the frequency and vice versafor expressions whose occurrences center around one cluster in the corpusthe ARF will be close to 1 regardless of frequency 
  
-Maximální hodnota ARF je tedy rovna frekvenci (je-li $d_{i} = v$ pro všechna $i$, tjjsou-li vzdálenosti mezi všemi výskyty daného výrazu shodné), její nejmenší hodnota je rovna jedné.+The maximum ARF value is equal to the frequency (if $d_{i} = v$ for all $i$, i.e. if the distance between all occurrences of the expression is the same), and its lowest possible value is equal to 1.
  
-Hodnota ARF se pro frekventovaná slova s rovnoměrným rozložením výskytů pohybuje okolo třetiny jejich frekvence  (specificky však jen pro frekvenci větší než 50 000), pro odborné termíny vyskytující se pouze v několika dokumentech ale může být i mnohonásobně (10-krát až 100-krátmenší než frekvence. ARF je ve srovnání s frekvencí mnohem méně náchylná na (ne)zařazení konkrétních textů do korpusua lépe tedy odpovídá intuitivně chápané běžnosti slov.+The value of ARF for high frequency expressions with an even distribution of occurrences is approximately a third of their frequency (but specifically only for frequencies over 50 000), however for technical terms occurring only in several documents it can be significantly (10 to 100 timeslower than the frequency. ARF is in comparison to the frequency much less sensitive to the (non-)inclusion of specific texts in the corpusand therefore corresponds better to the intuitive understanding of "common words".
  
-ARF je v českém prostředí známá díky její implementaci v někdejším korpusovém manažeru [[pojmy:korpusovy_manazer|Manatee/Bonito]] (dnes v rozhraní [[manualy:kontext:index|KonText]]), obstála také ve srovnání s ostatními běžně používanými upravenými frekvencemi a disperzními mírami.((Gries, S. T.: //Dispersions and adjusted frequencies in corpora//. In International Journal of Corpus Linguistics 13, 2008, 403–437.)) Mimoto se ARF prakticky osvědčila jako hlavní kritérium pro stanovení běžnosti slov při sestavování obou nejnovějších frekvenčních slovníků češtiny.+ARF became known in the Czech environment thanks to its implementation in the former corpus manager [[en:pojmy:korpusovy_manazer|Manatee/Bonito]] (today in the [[en:manualy:kontext:index|KonText]] interface), and did well in comparison with other commonly used adjusted frequencies and dispersion rates.((Gries, S. T.: //Dispersions and adjusted frequencies in corpora//. In International Journal of Corpus Linguistics 13, 2008, 403–437.)) Apart from this, the ARF was proven to work in practice as the main criterion for determining word commonness in the compilation of both the newest frequency dictionaries of Czech.
  
 --- //M. Křen, V. Cvrček// --- //M. Křen, V. Cvrček//