Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:zipf [2013/07/10 10:17] – cvrcek | pojmy:zipf [2013/09/13 16:52] (aktuální) – Schvaleno pro 1. verzi vaclavcvrcek |
---|
====== Zipfovy zákony ====== | ====== Zipfovy zákony ====== |
| |
Zipfovy zákony jsou formulací základních vztahů mezi frekvencí jednotky a její distribucí v jazyce. Ačkoli uplatnění Z.z. nemá povahu exaktních kvantitativních zákonitostí (spíše než o zákonu bychom měli mluvit o empirické pravidelnosti), na jejichž základě by bylo možné (bez dodatečných úprav) předvídat hodnoty, které u reálných textů skutečně naměříme, poskytují Zipfovy zákony adekvátní deskriptivní rámec pro popis rozložení četnosti v populaci (téměř libovolných) jednotek jazyka. | Zipfovy zákony jsou formulací základních vztahů mezi frekvencí jednotky a její distribucí v jazyce. Ačkoli uplatnění Zipfových zákonů nemá povahu exaktních kvantitativních zákonitostí (spíše než o zákonu bychom měli mluvit o empirické pravidelnosti), na jejichž základě by bylo možné (bez dodatečných úprav) předvídat hodnoty, které u reálných textů skutečně naměříme, poskytují Zipfovy zákony adekvátní deskriptivní rámec pro popis rozložení četnosti v populaci (téměř libovolných) jednotek jazyka. |
| |
Typicky tak Zipfovy zákony neplatí pro slova nejfrekventovanější a nejméně frekventovaná. G. K. Zipf (1902–1950) formuloval původně 3 vztahy, v praxi se ovšem užívají nejčastěji první dva. | Typicky tak Zipfovy zákony neplatí pro slova nejfrekventovanější a nejméně frekventovaná. [[http://en.wikipedia.org/wiki/George_Kingsley_Zipf|G. K. Zipf]] (1902–1950) formuloval původně 3 vztahy, v praxi se ovšem užívají nejčastěji první dva. |
| |
===== První Zipfův zákon ===== | ===== První Zipfův zákon ===== |
Nejpoužívanější a nejznámější z Zipfových zákonů je možné formalizovat vzorcem: $f \times r = k$, kde //f// je [[pojmy:frekvence|frekvence]] slova, //r// je jeho [[pojmy:frekvence#rank|rank]] (pořadí) a //k// je konstanta. | Nejpoužívanější a nejznámější z Zipfových zákonů je možné formalizovat vzorcem: $f \times r = k$, kde //f// je [[pojmy:frekvence|frekvence]] slova, //r// je jeho [[pojmy:frekvence#rank|rank]] (pořadí) a //k// je konstanta. |
| |
[{{:pojmy:zipf-capek-cast.png?300 |Výřez grafu zobrazujícího vztah mezi rankem a frekvencí slov v korpusu Karla Čapka}}] | [{{:pojmy:zipf-capek-cast.png?300|Výřez grafu zobrazujícího vztah mezi rankem a frekvencí slov v korpusu Karla Čapka}}] |
| [{{:pojmy:zipf-capek-cely.png?200|Logaritmické zobrazení vztahu mezi rankem a frekvencemi slov v korpusu Karla Čapka}}] |
| |
| [[pojmy:frekvence|Frekvence]] slova je tedy nepřímo úměrná jeho [[pojmy:rank|ranku]]. Vztah vychází z předpokladu, že existuje tendence po ustavení rovnováhy mezi počtem slov v jazyce (rozrůzněnost jazyka) a jejich frekvencí (jazyková ekonomie). Důsledkem tohoto vztahu je fakt, že každý text obsahuje velmi malý počet slov frekventovaných a většinu slov málo frekventovaných (viz [[pojmy:hapax#prirustek_hapaxu|podíl hapaxů]] na celkovém počtu [[pojmy:typ|typů]]). |
| |
Frekvence slova je tedy nepřímo úměrná jeho ranku. Vztah vychází z předpokladu, že existuje tendence po ustavení rovnováhy mezi počtem slov v jazyce (rozrůzněnost jazyka) a jejich frekvencí (jazyková ekonomie). Důsledkem tohoto vztahu je fakt, že každý text obsahuje velmi malý počet slov frekventovaných a většinu slov málo frekventovaných (viz [[pojmy:hapax#prirustek_hapaxu|podíl hapaxů]] na celkovém počtu [[pojmy:typ|typů]]). | |
| |
[{{:pojmy:zipf-capek-cely.png?300 |Logaritmické zobrazení vztahu mezi rankem a frekvencemi slov v korpusu Karla Čapka}}] | |
| |
===== Druhý Zipfův zákon ===== | ===== Druhý Zipfův zákon ===== |
===== Třetí Zipfův zákon ===== | ===== Třetí Zipfův zákon ===== |
| |
Poslední Zipfův zákon se týká vztahu mezi frekvencí slova a počtem jeho významů: $m / \sqrt{f} = k$, kde //m// je počet významů slova o frekvenci //f// a //k// je konstanta. Tento vztah se dá nejobtížnější empiricky ověřit, protože parcelace významů je vždy značně subjektivní. Principiálně tento Zipfův zákon vypovídá o tom, že slova s nejvyšší frekvencí bývají často polysémní, zatímco slova z nižších frekvenčních pásem mají často jen jeden význam. | Poslední Zipfův zákon se týká vztahu mezi frekvencí slova a počtem jeho významů: $m / \sqrt{f} = k$, kde //m// je počet významů slova o frekvenci //f// a //k// je konstanta. Tento vztah se dá nejobtížnější empiricky ověřit, protože parcelace (rozdělování) významů je vždy značně subjektivní. Principiálně tento Zipfův zákon vypovídá o tom, že slova s nejvyšší frekvencí bývají často polysémní (mají více významů), zatímco slova z nižších frekvenčních pásem mají často jen jeden význam. |
| |
==== Související odkazy ==== | ==== Související odkazy ==== |
| <WRAP round box 49%> |
[[pojmy:frekvence|Frekvence]] | [[pojmy:frekvence|Frekvence]] • [[pojmy:hapax|Hapax legomenon]] • [[pojmy:heaps|Heapsův zákon]] |
| </WRAP> |
[[pojmy:hapax|Hapax legomenon]] | |
| |
[[pojmy:heaps|Heapsův zákon]] | |