AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Frekvence

Frekvence v korpusové lingvistice označuje počet výskytů jevu v korpusu, četnost formy nebo jevu. Uvádí se buď v absolutních hodnotách, např. lemma pes se ve 100 milionovém korpusu SYN2010 vyskytuje 17 701krát, nebo jako údaj relativní, např. lemma pes se v SYN2010 vyskytuje (po zohlednění rozdílného počtu slov a pozic v korpusu) 145krát na milion slov (používané zkratky jsou ipm = instances per million nebo ppm = parts per million nebo ).

Zatímco absolutní frekvence (tj. prostý počet výskytů slov v korpusu) vyžaduje pro jejich zhodnocení další upřesnění (v podobě celkové velikosti korpusu nebo frekvence jiného jevu pro srovnání), relativní frekvence (tj. absolutní frekvence poměřovaná celkovou délkou korpusu) slouží jako ukazatel četnosti jevu sama o sobě a umožňuje porovnání i mezi korpusy nebo texty nestejné velikosti.

Relativní frekvence (REL) vztažená k celkové velikosti korpusu (N) se počítá z frekvence absolutní (ABS) podle vzorce

$REL = \frac{ABS}{N} \times 1000000$

Relativní frekvence je v takovém případě zároveň odhadem pravděpodobnosti výskytu jevu v jazyce (krát 1 milion).

Jelikož je frekvence intuitivně a introspektivně nedostupná, jsou korpusy hlavním zdrojem informací o ní. Zároveň je frekvence v rámci korpusové lingvistiky považována za základní ukazatel, který má rozhodující vliv na popis jazyka a posouzení povahy, resp. i důležitosti studované formy či jevu.

Rank

Jiný způsob relativizace frekvencí představuje rank (pořadí). V soupisu jevů seřazeném podle frekvence přiřadíme rank 1 jevu s frekvencí nejvyšší, rank 2 jevu s druhou nejvyšší frekvencí atp. rank n, kde n je celkový počet položek v seznamu, jevu s frekvencí nejnižší. Stejně jako frekvence může i rank být relativní (někdy se značí rr), jeho výpočet se řídí vzorcem

$rr = \frac{r}{n}$,

kde n je počet typů v korpusu.

Naměřená a očekávaná frekvence

Vedle hodnot, které v korpusu u jednotlivých jevů zjistíme, se pracuje také s hodnotami, které na základě externích informací (např. předchozích výzkumů prováděných na jiných datech) můžeme v korpusu očekávat. V anglické terminologii jde o rozdíl mezi hodnotami O (observed) a E (expected). Poměřováním těchto ukazatelů můžeme dospět k zjištění, zda je nebo není zkoumaný jev v korpusu nápadně frekventovaný, což může sloužit k identifikaci některých specifických jevů (např. kolokací, klíčových slov apod.).

FIXME

Využití a význam frekvence

Frekvence jako základní veličina libovolné jednotky (typu) a languová (systémová) charakteristika se používá nejen k poměřování mezi alternujícími jevy (např. frekvence morfologických variant bychom a bysme, viz SyD), ale slouží také ke konstruování slovníků (vymezení nejčetnějších slov jako jádra slovní zásoby), extrakci kolokací, zhodnocení gramatických kategorií, identifikaci klíčových slov v textech apod.

Disperze jevů

V některých případech je třeba absolutní nebo relativní frekvenci doplnit ještě informací o disperzi (rozložení) daného jevu napříč textem/korpusem. I relativně velmi frekventované jevy se můžou totiž vyskytovat pouze v omezeném okruhu textů nebo v určité části dokumentu. V takových případech může být samotná frekvence jako ukazatel běžnosti prostředku údajem nespolehlivým. Za účelem kvantifikace nerovnoměrnosti rozložení slov v korpusech se užívají různé míry disperze, z nichž nejjednodušší jsou založeny na počítání počtu dokumentů, v nichž se jednotka vyskytuje, nebo autorů, kteří jí použili. Sofistikovanější způsoby zjišťování disperze prostředků využívají průměrných dílčích frekvencí v rámci jednotlivých úseků textu/korpusu, příp. počítání variačního koeficientu, tedy poměru směrodatné odchylky frekvencí v jednotlivých částech k průměru těchto dílčích frekvencí (např. Juillandův koeficient D, srov. též ARF).

Související odkazy