Frequency

In corpus linguistics, frequency is the number of times a given form or phenomenon occurs in the corpus. It is either given as an absolute value, e.g. the lemma pes occurs in the 100 million word corpus SYN2010 17 701 times, or as a relative value, e.g. the lemma pes occurs in SYN2010 (after taking into account the varying number of words and positions in the corpus) 145 times per million words (the abbreviations used are ipm = instances per million or ppm = parts per million).

While the absolute frequency (i.e. the number of a word's occurrences in the corpus) requires further specification (the total size of the corpus or the frequency of another phenomenon for comparison), relative frequency (i.e. absolute frequency in proportion to the total size of the corpus) in and of itself serves to show the frequency of the phenomenon and makes it possible to compare corpora or texts of varying sizes.

The relative frequency (REL), based on the total size of the corpus (N), is calculated using the absolute frequency (ABS) with the formula:

$REL = \frac{ABS}{N} \times 1000000$

The relative frequency in such cases is at the same time an estimate of the probability of the given phenomenon in the language (times 1 million).

Because frequency is intuitively and introspectively inaccessible, corpora are the main source of information about it. Simultaneously, in corpus linguistics frequency is considered to be a basic indicator which has a crucial influence on the description of language and the evaluation of the nature (and importance) of a given form or phenomenon.

Rank

Jiný způsob relativizace frekvencí představuje rank (pořadí). V soupisu jevů seřazeném podle frekvence přiřadíme rank 1 jevu s frekvencí nejvyšší, rank 2 jevu s druhou nejvyšší frekvencí atp. rank n, kde n je celkový počet položek v seznamu, jevu s frekvencí nejnižší. Stejně jako frekvence může i rank být relativní (někdy se značí rr), jeho výpočet se řídí vzorcem

$rr = \frac{r}{n}$,

kde n je počet typů v korpusu.

Naměřená a očekávaná frekvence

Vedle hodnot, které v korpusu u jednotlivých jevů zjistíme, se pracuje také s hodnotami, které na základě externích informací (např. předchozích výzkumů prováděných na jiných datech) můžeme v korpusu očekávat. V anglické terminologii jde o rozdíl mezi hodnotami O (observed) a E (expected). Poměřováním těchto ukazatelů můžeme dospět k zjištění, zda je nebo není zkoumaný jev v korpusu nápadně frekventovaný, což může sloužit k identifikaci některých specifických jevů (např. kolokací, klíčových slov apod.).

Známe-li pravděpodobnost výskytu slova, můžeme pomocí jednoduchého vzorce zjistit, jaká je očekávaná frekvence tohoto slova v korpusu o dané délce.

$ E = p(A) \times N $

kde:

p(A) je pravděpodobnost slova A
N je velikost korpusu v počtu tokenů

Pravděpodobnost jevu v populaci všech projevů nikdy přesně nepoznáme, můžeme ji však aproximovat relativní frekvencí zjištěnou v předchozích pozorováních na jiných datech, tedy v jiných korpusech. V korpusu SYN2005 tak např. můžeme zjistit pravděpodobnost výskytu lemmatu škola z jeho frekvence (f = 47872) a z celkové velikosti tohoto korpusu (N = 122419382):

$ p(\text{škola}) = \frac{f(\text{škola})}{N} = \frac{47872}{122419382} = 0,0003910492 = 3,91 \cdot 10^{-4} $

Na základě této pravděpodobnosti můžeme vypočíst očekávanou frekvenci lemmatu škola v korpusu SYN2010 (N = 121667413).

$ E(\text{škola}) = p(\text{škola}) \times N = 3,91 \cdot 10^{-4} \times 121667413 = 47577,9 $

Hledáním v korpusu SYN2010 můžeme snadno zjistit, jaká je reálná naměřená frekvence tohoto lemmatu:

$ O(\text{škola}) = 51104 $

Naměřené a očekávané hodnoty pak můžeme porovnávat, např. pomocí chi2 testu.

Využití a význam frekvence

Frekvence jako základní veličina libovolné jednotky (typu) a languová (systémová) charakteristika se používá nejen k poměřování mezi alternujícími jevy (např. frekvence morfologických variant bychom a bysme, viz SyD), ale slouží také ke konstruování slovníků (vymezení nejčetnějších slov jako jádra slovní zásoby), extrakci kolokací, zhodnocení gramatických kategorií, identifikaci klíčových slov v textech apod.

Pro korektní interpretaci frekvence je třeba si uvědomit, že se jedná o bodový odhad četnosti jevu v celém jazyce. Každý korpus je více či méně přesnou aproximací zkoumané populace (= texty určitého druhu), a tudíž v různých korpusech vytvořených podle téže metodologie (i kdybychom byli schopni zaručit jejich plnou srovnatelnost) se bude frekvence zkoumaného jevu drobně lišit. K podchycení této variability hodnot slouží konfidenční intervaly, které udávají rozmezí, v němž se skutečná četnost zkoumaného jevu s určitou pravděpodobností v populaci nachází. Pro zjištění konfidenčního intervalu využíváme binomické rozdělení, vstupními hodnotami jsou frekvence jevu, velikost korpusu a hladina významnosti vyjadřující přípustnou míru omylu.

Konfidenční interval okolo naměřené (zjištěné) frekvence na hladině významnosti 0,95 říká, že v pokusu, který by zahrnoval nekonečné množství srovnatelných a stejně rozsáhlých korpusů, by frekvence hledaného jevu byla v 95 % měření v rámci tohoto intervalu. Při analýze bychom tedy měli vždy počítat s tím, že reálná frekvence jevu může nabývat kterékoli hodnoty z konfidenčního intervalu.

Příklady

Když v korpusu o velikosti zhruba 100 mil. slov (např. SYN2015) naměříme u zkoumaného jevu frekvenci 50 výskytů, je třeba takový výsledek interpretovat tak, že v populaci textů, kterou má tento korpus reprezentovat, se tento jev objevuje v rozmezí od 37 do 66 výskytů na 100 mil. textových slov (s 5% pravděpodobností omylu, tj. s rizikem, že reálný výsledek se bude nacházet vně tohoto intervalu).

Zjistíme-li, že se hledaný jev v korpusu (např. v ORAL2008) vyskytuje právě třikrát, znamená to, že v jiném plně srovnatelném korpusu by tentýž jev mohl nabývat hodnoty až 9 výskytů nebo by v něm nemusel být přítomen vůbec (opět při 5% pravděpodobnosti chyby).¹⁾

Disperze jevů

V některých případech je třeba absolutní nebo relativní frekvenci doplnit ještě informací o disperzi (rozložení) daného jevu napříč textem/korpusem. I relativně velmi frekventované jevy se můžou totiž vyskytovat pouze v omezeném okruhu textů nebo v určité části dokumentu. V takových případech může být samotná frekvence jako ukazatel běžnosti prostředku údajem nespolehlivým. Za účelem kvantifikace nerovnoměrnosti rozložení slov v korpusech se užívají různé míry disperze, z nichž nejjednodušší jsou založeny na počítání počtu dokumentů, v nichž se jednotka vyskytuje, nebo autorů, kteří jí použili. Sofistikovanější způsoby zjišťování disperze prostředků využívají průměrných dílčích frekvencí v rámci jednotlivých úseků textu/korpusu, příp. počítání variačního koeficientu, tedy poměru směrodatné odchylky frekvencí v jednotlivých částech k průměru těchto dílčích frekvencí (např. Juillandův koeficient D, srov. též ARF).