AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Last revisionBoth sides next revision
en:pojmy:frekvence [2016/12/12 17:06] – created veronikapojarovaen:pojmy:frekvence [2016/12/15 14:47] – [Measured and expected frequency] vaclavcvrcek
Line 3: Line 3:
 In corpus linguistics, **frequency** is the number of times a given form or phenomenon occurs in the corpus. It is either given as an **absolute value**, e.g. the [[en:pojmy:lemma|lemma]] //pes// occurs in the 100 million word corpus [[en:cnk:syn2010|SYN2010]] 17 701 times, or as a **relative** value, e.g. the lemma //pes// occurs in SYN2010 (after taking into account the varying number of words and positions in the corpus) 145 times per million words (the abbreviations used are **[[en:pojmy:ipm|ipm]]** = instances per million or **ppm** = parts per million).  In corpus linguistics, **frequency** is the number of times a given form or phenomenon occurs in the corpus. It is either given as an **absolute value**, e.g. the [[en:pojmy:lemma|lemma]] //pes// occurs in the 100 million word corpus [[en:cnk:syn2010|SYN2010]] 17 701 times, or as a **relative** value, e.g. the lemma //pes// occurs in SYN2010 (after taking into account the varying number of words and positions in the corpus) 145 times per million words (the abbreviations used are **[[en:pojmy:ipm|ipm]]** = instances per million or **ppm** = parts per million). 
  
-Zatímco absolutní frekvence (tjprostý počet výskytů slov v korpusuvyžaduje pro jejich zhodnocení další upřesnění (v podobě celkové velikosti korpusu nebo frekvence jiného jevu pro srovnání), relativní frekvence (tjabsolutní frekvence poměřovaná celkovou délkou korpususlouží jako ukazatel četnosti jevu sama o sobě a umožňuje porovnání i mezi korpusy nebo texty nestejné velikosti+While the absolute frequency (i.e. the number of a word's occurrences in the corpusrequires further specification (the total size of the corpus or the frequency of another phenomenon for comparison), relative frequency (i.e. absolute frequency in proportion to the total size of the corpusin and of itself serves to show the frequency of the phenomenon and makes it possible to compare corpora or texts of varying sizes.
  
-Relativní frekvence (//REL//vztažená k celkové velikosti korpusu (//N//se počítá z frekvence absolutní (//ABS//podle vzorce +The relative frequency (//REL//), based on the total size of the corpus (//N//), is calculated using the absolute frequency (//ABS//with the formula: 
  
 $REL = \frac{ABS}{N} \times 1000000$ $REL = \frac{ABS}{N} \times 1000000$
  
-Relativní frekvence je v takovém případě zároveň odhadem pravděpodobnosti výskytu jevu v jazyce (krát milion).+The relative frequency in such cases is at the same time an estimate of the probability of the given phenomenon in the language (times million).
  
-Jelikož je frekvence intuitivně a introspektivně nedostupnájsou korpusy hlavním zdrojem informací o níZároveň je frekvence v rámci korpusové lingvistiky považována za základní ukazatelkterý má rozhodující vliv na popis jazyka posouzení povahy, resp. i důležitosti studované formy či jevu.+Because frequency is intuitively and introspectively inaccessiblecorpora are the main source of information about itSimultaneouslyin corpus linguistics frequency is considered to be basic indicator  which has a crucial influence on the description of language and the evaluation of the nature (and importance) of a given form or phenomenon
  
 ===== Rank ===== ===== Rank =====
  
-Jiný způsob relativizace frekvencí představuje **rank** (pořadí)V soupisu jevů seřazeném podle frekvence přiřadíme rank 1 jevu s frekvencí nejvyšší, rank 2 jevu s druhou nejvyšší frekvencí atprank //n//, kde //n// je celkový počet položek v seznamujevu s frekvencí nejnižšíStejně jako frekvence může i rank být relativní (někdy se značí rr), jeho výpočet se řídí vzorcem +**Rank** is another way of relativizing frequencyIn a list of phenomena sorted by frequency, we assign rank 1 to the phenomenon with the highest frequency, rank 2 to the phenomenon with the second highest frequency, etcRank //n//, where //n// is the total number of items on the listis assigned to the phenomenon with the lowest frequencyJust like frequency, rank can also be relative (sometimes labelled rr), and it is calculated according to the formula: 
  
 $rr = \frac{r}{n}$,  $rr = \frac{r}{n}$, 
  
-kde //n// je počet [[pojmy:typ|typů]] v korpusu.+where //n// is the number of [[en:pojmy:typ|types]] in the corpus.
  
-===== Naměřená a očekávaná frekvence =====+===== Measured and expected frequency =====
  
-Vedle hodnotkteré v korpusu u jednotlivých jevů zjistíme, se pracuje také s hodnotami, které na základě externích informací (napřpředchozích výzkumů prováděných na jiných datechmůžeme v korpusu očekávatV anglické terminologii jde o rozdíl mezi hodnotami **O** (observed) **E** (expected). Poměřováním těchto ukazatelů můžeme dospět k zjištěnízda je nebo není zkoumaný jev v korpusu nápadně frekventovaný, což může sloužit k identifikaci některých specifických jevů (např. [[pojmy:kolokace|kolokací]], [[pojmy:keyword|klíčových slov]] apod.).+Aside from the values returned for the individual phenomena in the corpuswe also work with values which we can expect in the corpus based on external information (e.gprevious research conducted on different data). It is the difference between the values **O** (observed) and **E** (expected). By examining these indicators we can discover whether or not the given phenomenon is noticeably or unusually frequent in the corpuswhich can lead to the identification of some specific phenomena (e.g. [[en:pojmy:kolokace|collocations]], [[en:pojmy:keyword|keywords]] etc.).
  
-Známe-li pravděpodobnost výskytu slovamůžeme pomocí jednoduchého vzorce zjistit, jaká je očekávaná frekvence tohoto slova v korpusu o dané délce.+If we know the probability of a word's occurrencewe can use a simple formula to find the expected frequency of the given word in a corpus of a specified size.
  
 $ E = p(A) \times N $ $ E = p(A) \times N $
  
-kde:+where:
  
-  * //p(A)// je pravděpodobnost slova //A//  +  * //p(A)// is the probability of word //A//  
-  * //N// je velikost korpusu v počtu [[pojmy:token|tokenů]]+  * //N// is the size of the corpus in numbers of [[en:pojmy:token|tokens]]
  
-Pravděpodobnost jevu v populaci všech projevů nikdy přesně nepoznáme, můžeme ji však aproximovat relativní frekvencí zjištěnou v předchozích pozorováních na jiných datechtedy v jiných korpusechV korpusu [[cnk:syn2005|SYN2005]] tak např. můžeme zjistit pravděpodobnost výskytu [[pojmy:lemma|lemmatu]] //škola// z jeho frekvence (f = 47872) a z celkové velikosti tohoto korpusu (N = 122419382):+We will never know the exact probability of the phenomenon in a population of all manifestationsbut it can be approximated by the relative frequency discovered in previous comparisons using different data (other corpora)In the [[en:cnk:syn2005|SYN2005]] corpus we can therefore determine the probability of the occurrence of the [[en:pojmy:lemma|lemma]] //škola// ('school') from its frequency (f = 47872) and from the total size of the corpus (N = 122419382):
  
 $ p(\text{škola}) = \frac{f(\text{škola})}{N} = \frac{47872}{122419382} = 0,0003910492 = 3,91 \cdot 10^{-4} $ $ p(\text{škola}) = \frac{f(\text{škola})}{N} = \frac{47872}{122419382} = 0,0003910492 = 3,91 \cdot 10^{-4} $
  
-Na základě této pravděpodobnosti můžeme vypočíst očekávanou frekvenci lemmatu //škola// v korpusu [[cnk:syn2010|SYN2010]] (N = 121667413).+Based on this probability we can calculate the expected frequency of the lemma //škola// in the corpus [[en:cnk:syn2010|SYN2010]] (N = 121667413).
  
 $ E(\text{škola}) = p(\text{škola}) \times N = 3,91 \cdot 10^{-4} \times 121667413 = 47577,9 $ $ E(\text{škola}) = p(\text{škola}) \times N = 3,91 \cdot 10^{-4} \times 121667413 = 47577,9 $
  
-Hledáním v korpusu SYN2010 můžeme snadno zjistit, jaká je reálná naměřená frekvence tohoto lemmatu:+By searching the SYN2010 corpus we can easily find the actual frequency of this lemma:
  
 $ O(\text{škola}) = 51104 $ $ O(\text{škola}) = 51104 $
  
-Naměřené a očekávané hodnoty pak můžeme porovnávatnapřpomocí [[pojmy:chi2|chi2 testu]].  +The measured and expected values can then be comparede.g. with the aid of the [[en:pojmy:chi2|chi2 test]].  
-===== Využití a význam frekvence =====+===== The use and significance of frequency =====
  
-Frekvence jako základní veličina libovolné jednotky ([[pojmy:typ|typu]]) a languová (systémovácharakteristika se používá nejen k poměřování mezi alternujícími jevy (napřfrekvence morfologických variant //bychom// //bysme//, viz [[http://syd.korpus.cz/05xNuUX8.syn|SyD]]), ale slouží také ke konstruování slovníků (vymezení nejčetnějších slov jako jádra slovní zásoby), extrakci [[pojmy:kolokace|kolokací]], zhodnocení gramatických kategoriíidentifikaci [[pojmy:keyword|klíčových slov]] v textech apod.+Frequency as a fundamental value of an arbitrary unit ([[en:pojmy:typ|type]]) and langue (systemcharacteristic is used not only for determining the relations between alternating phenomena (e.gthe frequency of morphological variants //bychom// and //bysme//, as in [[http://syd.korpus.cz/05xNuUX8.syn|SyD]]), but it also serves the compilation of dictionaries (defining the most frequent words as core vocabulary), the extraction of [[en:pojmy:kolokace|collocations]], the evaluation of grammatical categoriesthe identification of [[en:pojmy:keyword|keywords]] in texts etc.
  
-Pro korektní interpretaci frekvence je třeba si uvědomit, že se jedná o bodový odhad četnosti jevu v celém jazyceKaždý korpus je více či méně přesnou aproximací zkoumané populace (= texty určitého druhu), a tudíž v různých korpusech vytvořených podle téže metodologie (i kdybychom byli schopni zaručit jejich plnou srovnatelnostse bude frekvence zkoumaného jevu drobně lišitK podchycení této variability hodnot slouží **[[wp>Confidence_interval|konfidenční intervaly]]**, které udávají rozmezí, v němž se skutečná četnost zkoumaného jevu s určitou pravděpodobností v populaci nacházíPro zjištění konfidenčního intervalu využíváme [[wp>Binomial_distribution|binomické rozdělení]], vstupními hodnotami jsou frekvence jevuvelikost korpusu hladina významnosti vyjadřující přípustnou míru omylu.+In order to interpret frequency correctly it is necessary to realize that it is a point estimate of the frequency of phenomena in the entire languageEvery corpus is more or less a precise approximation of the population in question (=texts of a certain nature), and therefore in different corpora created using the same methodology (even if it were possible to guarantee their full comparabilitythe frequencies of the desired phenomenon will differ slightlyThis variability can be captured using the **[[wp>Confidence_interval|confidence interval]]** which gives the span containing (with a certain probability) the frequency of a given phenomenonFor finding out the confidence interval we use a [[wp>Binomial_distribution|binomial distribution]], the input values being the frequency of the phenomenonthe size of the corpus and the significance level (expressing tolerable error rate).
  
 <html> <html>
-<iframe id="embedded-app" src="https://trost.korpus.cz/shiny/cvrcek/confintwiki/" frameborder="0" width="100%"></iframe>+<iframe id="embedded-app" src="https://trost.korpus.cz/shiny/cvrcek/confintwiki.en/" frameborder="0" width="100%"></iframe>
 <script> <script>
 (function() { (function() {
Line 99: Line 99:
 </html> </html>
  
-Konfidenční interval okolo naměřené (zjištěné) frekvence na hladině významnosti 0,95 říkáže v pokusu, který by zahrnoval nekonečné množství srovnatelných a stejně rozsáhlých korpusů, by frekvence hledaného jevu byla v 95 % měření v rámci tohoto intervaluPři analýze bychom tedy měli vždy počítat s tím, že reálná frekvence jevu může nabývat kterékoli hodnoty z konfidenčního intervalu.+The confidence interval around the measured frequency on the significance level of 0.95 says that in an experiment which would encompass an infinite number of comparable corpora of the same sizethe frequency of the given phenomenon would be within this interval in 95% of measurementsWhen conducting our analysis we should always be aware that the actual frequency of a phenomenon can acquire any value from the confidence interval.
  
-=== Příklady ===+=== Examples ===
  
-Když v korpusu o velikosti zhruba 100 mil. slov (např. [[cnk:syn2015|SYN2015]]) naměříme u zkoumaného jevu frekvenci 50 výskytůje třeba takový výsledek interpretovat takže v populaci textů, kterou má tento korpus reprezentovat, se tento jev objevuje v rozmezí od 37 do 66 výskytů na 100 mil. textových slov (5% pravděpodobností omylutjs rizikem, žreálný výsledek se bude nacházet vně tohoto intervalu). +If we measure in a corpus of  100 mil. words (e.g. [[en:cnk:syn2015|SYN2015]]) 50 occurrences for a given phenomenonthe results must be interpreted that in a population of texts which the corpus strives to representthis phenomenon appears in the range from 37 to 66 occurrences per 100 mil. words (with a 5% error ratei.e. with the risk that the actual result will be found outside the given interval). 
  
-Zjistíme-li, že se hledaný jev v korpusu (např[[cnk:oral2008|ORAL2008]]) vyskytuje právě třikrátznamená to, že v jiném plně srovnatelném korpusu by tentýž jev mohl nabývat hodnoty až výskytů nebo by v něm nemusel být přítomen vůbec (opět při 5% pravděpodobnosti chyby).((U takto nízkých hodnot záleží rovněž na zvoleném způsobu zaokrouhlování.))+If we discover that the given phenomenon occurs in a corpus (e.gin [[en:cnk:oral2008|ORAL2008]]) exactly three timesit means that in another fully comparable corpus the same could have an occurrence rate of up to 9 hits, or it could be absent completely (again with a 5% error rate).((Such low values also depend on the selected rounding up strategy.))
  
-===== Disperze jevů =====+===== Dispersion of phenomena =====
  
-V některých případech je třeba absolutní nebo relativní frekvenci doplnit ještě informací o disperzi (rozložení) daného jevu napříč textem/korpusemI relativně velmi frekventované jevy se můžou totiž vyskytovat pouze v omezeném okruhu textů nebo v určité části dokumentuV takových případech může být samotná frekvence jako ukazatel běžnosti prostředku údajem nespolehlivýmZa účelem kvantifikace nerovnoměrnosti rozložení slov v korpusech se užívají různé míry disperzez nichž nejjednodušší jsou založeny na počítání počtu dokumentův nichž se jednotka vyskytujenebo autorů, kteří jí použiliSofistikovanější způsoby zjišťování disperze prostředků využívají průměrných dílčích frekvencí v rámci jednotlivých úseků textu/korpusupříppočítání variačního koeficientu, tedy poměru směrodatné odchylky frekvencí v jednotlivých částech k průměru těchto dílčích frekvencí (např. Juillandův koeficient D, srov. též [[pojmy:arf|ARF]]).+In some cases it is necessary to supplement absolute or relative frequency with information about the dispersion of the given phenomenon throughout the text/corpusEven phenomena which are relatively very frequent can appear only in a limited circle of texts or in certain parts of the documentIn such cases, the frequency itself can be an unreliable indicator of conventionalityIn order to quantify the uneven distribution of words in corporavarious measures of dispersion are usedthe most simple of which are based on counting the number of documents in which the unit appearsor authors who used itMore sophisticated ways of obtaining information about dispersion include using average partial frequencies within individual sections of the text/corpusor calculating the variation coefficient i.e. the ratio of the standard deviation of frequencies in the individual sections to the average of these partial frequencies (e.g. Juilland'coefficientsee also [[en:pojmy:arf|ARF]]).
  
-==== Související odkazy ====+==== Related links ====
  
 <WRAP round box 49%> <WRAP round box 49%>
-[[pojmy:arf|ARF]] • [[pojmy:asociacni_miry|Asociační míry]] • [[pojmy:ipm|ipm]] • [[pojmy:zipf|Zipfovy zákony]]+[[en:pojmy:arf|ARF]] • [[en:pojmy:asociacni_miry|Association measures]] • [[en:pojmy:ipm|ipm]] • [[en:pojmy:zipf|Zipf's laws]]
 </WRAP> </WRAP>