AplikaceAplikace
Nastavení

Zipfovy zákony

Zipfovy zákony jsou formulací základních vztahů mezi frekvencí jednotky a její distribucí v jazyce. Ačkoli uplatnění Zipfových zákonů nemá povahu exaktních kvantitativních zákonitostí (spíše než o zákonu bychom měli mluvit o empirické pravidelnosti), na jejichž základě by bylo možné (bez dodatečných úprav) předvídat hodnoty, které u reálných textů skutečně naměříme, poskytují Zipfovy zákony adekvátní deskriptivní rámec pro popis rozložení četnosti v populaci (téměř libovolných) jednotek jazyka.

Typicky tak Zipfovy zákony neplatí pro slova nejfrekventovanější a nejméně frekventovaná. G. K. Zipf (1902–1950) formuloval původně 3 vztahy, v praxi se ovšem užívají nejčastěji první dva.

První Zipfův zákon

Nejpoužívanější a nejznámější z Zipfových zákonů je možné formalizovat vzorcem: $f \times r = k$, kde f je frekvence slova, r je jeho rank (pořadí) a k je konstanta.

Výřez grafu zobrazujícího vztah mezi rankem a frekvencí slov v korpusu Karla Čapka
Logaritmické zobrazení vztahu mezi rankem a frekvencemi slov v korpusu Karla Čapka

Frekvence slova je tedy nepřímo úměrná jeho ranku. Vztah vychází z předpokladu, že existuje tendence po ustavení rovnováhy mezi počtem slov v jazyce (rozrůzněnost jazyka) a jejich frekvencí (jazyková ekonomie). Důsledkem tohoto vztahu je fakt, že každý text obsahuje velmi malý počet slov frekventovaných a většinu slov málo frekventovaných (viz podíl hapaxů na celkovém počtu typů).

Druhý Zipfův zákon

Vztah mezi počtem slov se stejnou frekvencí a touto frekvencí vyjádřil Zipf takto: $a \times f^{2} = k$, kde a je počet slov s frekvencí f a k je konstanta. Čím vyšší frekvenční hladinu zkoumáme, tím méně slov na ní najdeme (přičemž úbytek není lineární).

Třetí Zipfův zákon

Poslední Zipfův zákon se týká vztahu mezi frekvencí slova a počtem jeho významů: $m / \sqrt{f} = k$, kde m je počet významů slova o frekvenci f a k je konstanta. Tento vztah se dá nejobtížnější empiricky ověřit, protože parcelace (rozdělování) významů je vždy značně subjektivní. Principiálně tento Zipfův zákon vypovídá o tom, že slova s nejvyšší frekvencí bývají často polysémní (mají více významů), zatímco slova z nižších frekvenčních pásem mají často jen jeden význam.

Související odkazy