Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- pojmy:hapax [2013/06/10 17:31] – vaclavcvrcek
+++ pojmy:hapax [2013/09/13 11:59] (aktuální) – Schvaleno pro 1. verzi vaclavcvrcek
@@ Řádek 3: / Řádek 3: @@
 Termín odvozený z řeckého //hapax legomenon// (= jednou řečené).
-Jako hapaxy se v korpusové lingvistice označují takové jednotky, které se v korpusu (nebo textu) nacházejí právě jednou (jedná se tedy o [[pojmy:type|typ]], který má pouze jeden [[pojmy:token|token]], jednu realizaci, tj. [[pojmy:frekvence|frekvenci]] 1, přičemž typem se v této souvislosti nejčastěji rozumí [[pojmy:word|slovní tvar]] nebo [[pojmy:lemma|lemma]]). Jejich využití v lingvistickém výzkumu je dosud nejasné a sporné, protože jediný výskyt neumožňuje zobecňovat, vytvářet jakékoli závěry o vlastnostech a způsobech užití dané jednotky.
+Jako hapaxy se v korpusové lingvistice označují takové jednotky, které se v korpusu (nebo textu) nacházejí právě jednou (jedná se tedy o [[pojmy:typ|typ]], který má pouze jeden [[pojmy:token|token]], jednu realizaci, tj. [[pojmy:frekvence|frekvenci]] 1, přičemž typem se v této souvislosti nejčastěji rozumí [[pojmy:word|slovní tvar]] nebo [[pojmy:lemma|lemma]]). Jejich využití v lingvistickém výzkumu je dosud nejasné a sporné, protože jediný výskyt neumožňuje zobecňovat nebo vytvářet jakékoli závěry o vlastnostech a způsobech užití dané jednotky.
 Počet hapaxů v textu nebo korpusu se značí //V(1,N)//, kde //N// je celková délka textu, resp. velikost korpusu.
@@ Řádek 9: / Řádek 9: @@
 ===== Poměr počtu hapaxů k počtu typů =====
-Poměr počtu hapaxů k celkovému počtu typů v korpusu se v závislosti na velikosti korpusu mění. V hypotetickém korpusu o velikosti např. 10 slov, bude velmi pravděpodobně každá jednotka zastoupena právě jedním hapaxem (poměr hapaxů ku všem typům bude 1). Přidáváním celých textů do korpusu (v řádech jednotek milionů slov) poměr klesá až k hodnotě téměř 0,35  hapaxů (ze všech typů), poté opět narůstá až k hladině 0,55 (u 120 milionového korpusu). To, zda se poměr s přidáváním dalšího textu ještě mění, nebo zůstává na této hladině, není dosud známo.
+Poměr počtu hapaxů k celkovému počtu typů v korpusu se v závislosti na velikosti korpusu mění. V hypotetickém korpusu o velikosti např. 10 slov bude velmi pravděpodobně každá jednotka zastoupena právě jedním hapaxem (poměr hapaxů ku všem typům bude 1). Přidáváním celých textů do korpusu (v řádech jednotek milionů slov) poměr klesá až k hodnotě téměř 0,35  hapaxů (ze všech typů), poté opět narůstá až k hladině 0,55 (u 120 milionového korpusu). To, zda se poměr s přidáváním dalšího textu ještě mění, nebo zůstává na této hladině, není dosud známo.
-U velkých korpusů můžeme tedy počítat s tím, že zhruba polovina všech typů se bude vyskytovat právě jednou (srov. [[pojmy:zipf|zákony Zipfovy]]). Jejich podíl na celkovém počtu tokenů je ovšem zanedbatelný (ve stomilionovém korpusu [[cnk:syn2010|SYN2010]] představují lemmata s frekvencí 1 zhruba 0,4 % všech výskytů). Většinu z hapaxů tvoří lingvisticky nezajímavé jevy (překlepy, konverzní chyby, číselné údaje a kódy, cizojazyčné úseky apod.); mezi hapaxy se však objevují také slova, která korpus, jakkoliv je velký, zaznamenal poprvé, někdy jako neologismy či autorské novotvary apod.
+U velkých korpusů můžeme tedy počítat s tím, že zhruba polovina všech typů se bude vyskytovat právě jednou (srov. [[pojmy:zipf|Zipfovy zákony ]]). Jejich podíl na celkovém počtu tokenů je ovšem zanedbatelný (ve stomilionovém korpusu [[cnk:syn2010|SYN2010]] představují lemmata s frekvencí 1 zhruba 0,4 % všech výskytů). Většinu z hapaxů tvoří lingvisticky nezajímavé jevy (překlepy, konverzní chyby, číselné údaje a kódy, cizojazyčné úseky apod.); mezi hapaxy se však objevují také slova, která korpus, jakkoliv je velký, zaznamenal poprvé, někdy jako neologismy či autorské novotvary apod.
 ===== Přírůstek hapaxů =====
@@ Řádek 24: / Řádek 24: @@
 Hapaxy (resp. jejich počet) jako snadno uchopitelný indikátor frekvenčního rozložení jednotek v korpusu slouží pro výpočet různých druhů charakteristik. Tempo přírůstku nových typů se zvětšením korpusu o jeden token se počítá podle vzorce $\frac{V(1,N)}{N}$. Stejný vzorec se pak v důsledku [[wp>Good-Turing|Good-Turingova odhadu]] používá pro vyjádření sumární pravděpodobnosti těch typů, které v korpusu z důvodu jeho omezenosti dosud nenacházíme.
+==== Související odkazy ====
+<WRAP round box 49%>
+[[pojmy:frekvence|Frekvence]] • [[pojmy:heaps|Heapsův zákon]] • [[pojmy:zipf|Zipfovy zákony]]
+</WRAP>

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence