Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- pojmy:hapax [2013/06/10 17:24] – vytvořeno vaclavcvrcek
+++ pojmy:hapax [2013/09/13 11:59] (aktuální) – Schvaleno pro 1. verzi vaclavcvrcek
@@ Řádek 1: / Řádek 1: @@
 ====== Hapax (legomenon) ======
-Termín odvozený z řeckého hapax legomenon (= jednou řečené).
+Termín odvozený z řeckého //hapax legomenon// (= jednou řečené).
-Jako hapaxy se v korpusové lingvistice označují takové jednotky, které se v korpusu (nebo textu) nacházejí právě jednou (jedná se tedy o [[pojmy:type|typ]], který má pouze jeden [[pojmy:token|token]], jednu realizaci, tj. [[pojmy:frekvence|frekvenci]] 1, přičemž typem se v této souvislosti nejčastěji rozumí [[pojmy:word|slovní tvar]] nebo [[pojmy:lemma|lemma]]). Jejich využití v lingvistickém výzkumu je dosud nejasné a sporné, protože jediný výskyt neumožňuje zobecňovat, vytvářet jakékoli závěry o vlastnostech a způsobech užití dané jednotky.
+Jako hapaxy se v korpusové lingvistice označují takové jednotky, které se v korpusu (nebo textu) nacházejí právě jednou (jedná se tedy o [[pojmy:typ|typ]], který má pouze jeden [[pojmy:token|token]], jednu realizaci, tj. [[pojmy:frekvence|frekvenci]] 1, přičemž typem se v této souvislosti nejčastěji rozumí [[pojmy:word|slovní tvar]] nebo [[pojmy:lemma|lemma]]). Jejich využití v lingvistickém výzkumu je dosud nejasné a sporné, protože jediný výskyt neumožňuje zobecňovat nebo vytvářet jakékoli závěry o vlastnostech a způsobech užití dané jednotky.
-Poměr počtu hapaxů k celkovému počtu typů v korpusu se v závislosti na velikosti korpusu mění. V hypotetickém korpusu o velikosti např. 10 slov, bude velmi pravděpodobně každá jednotka zastoupena právě jedním hapaxem (poměr hapaxů ku všem typům bude 1). Přidáváním celých textů do korpusu (v řádech jednotek milionů slov) poměr klesá až k hodnotě téměř 0,35  hapaxů (ze všech typů), poté opět narůstá až k hladině 0,55 (u 120 milionového korpusu). To, zda se poměr s přidáváním dalšího textu ještě mění, nebo zůstává na této hladině, není dosud známo.
+Počet hapaxů v textu nebo korpusu se značí //V(1,N)//, kde //N// je celková délka textu, resp. velikost korpusu.
-U velkých korpusů můžeme tedy počítat s tím, že zhruba polovina všech typů se bude vyskytovat právě jednou (srov. [[pojmy:zipf|zákony Zipfovy]]). Jejich podíl na celkovém počtu tokenů je ovšem zanedbatelný (ve stomilionovém korpusu [[cnk:syn2010|SYN2010]] představují lemmata s frekvencí 1 zhruba 0,4 % všech výskytů). Většinu z hapaxů tvoří lingvisticky nezajímavé jevy (překlepy, konverzní chyby, číselné údaje a kódy, cizojazyčné úseky apod.); mezi hapaxy se však objevují také slova, která korpus, jakkoliv je velký, zaznamenal poprvé, někdy jako neologismy či autorské novotvary apod.
+===== Poměr počtu hapaxů k počtu typů =====
+Poměr počtu hapaxů k celkovému počtu typů v korpusu se v závislosti na velikosti korpusu mění. V hypotetickém korpusu o velikosti např. 10 slov bude velmi pravděpodobně každá jednotka zastoupena právě jedním hapaxem (poměr hapaxů ku všem typům bude 1). Přidáváním celých textů do korpusu (v řádech jednotek milionů slov) poměr klesá až k hodnotě téměř 0,35  hapaxů (ze všech typů), poté opět narůstá až k hladině 0,55 (u 120 milionového korpusu). To, zda se poměr s přidáváním dalšího textu ještě mění, nebo zůstává na této hladině, není dosud známo.
+U velkých korpusů můžeme tedy počítat s tím, že zhruba polovina všech typů se bude vyskytovat právě jednou (srov. [[pojmy:zipf|Zipfovy zákony ]]). Jejich podíl na celkovém počtu tokenů je ovšem zanedbatelný (ve stomilionovém korpusu [[cnk:syn2010|SYN2010]] představují lemmata s frekvencí 1 zhruba 0,4 % všech výskytů). Většinu z hapaxů tvoří lingvisticky nezajímavé jevy (překlepy, konverzní chyby, číselné údaje a kódy, cizojazyčné úseky apod.); mezi hapaxy se však objevují také slova, která korpus, jakkoliv je velký, zaznamenal poprvé, někdy jako neologismy či autorské novotvary apod.
+===== Přírůstek hapaxů =====
 Obdobný vztah, jaký najdeme mezi tokeny a typy a jež aproximuje [[pojmy:heaps|Heapsův zákon]], je možné pozorovat i u vztahu mezi přibývajícím počtem hapaxů v závislosti na zvětšujícím se korpusu. Parametry jsou zde jiné, princip je ovšem stejný:
@@ Řádek 15: / Řádek 21: @@
 kde //V(1,N)// je počet hapaxů při velikosti korpusu //N//, //a// a //b// jsou jazykově a žánrově specifické konstanty. Pro hapaxy tvořené českými lemmaty platí, že $a = 1.6935112$ a $b = 0.6678874$. Pro hapaxy tvořené slovními tvary v češtině platí, že $a = 57.28$ a $b = 0.5086$.
-Hapaxy (resp. jejich počet) jako snadno uchopitelný indikátor frekvenčního rozložení jednotek v korpusu slouží pro výpočet různých druhů charakteristik. Tempo přírůstku nových typů se zvětšením korpusu o jeden token se počítá podle vzorce $\frac{V(1,N)}{N}$. Stejný vzorec se pak v důsledku [[http://en.wikipedia.org/wiki/Good-Turing|Good-Turingova odhadu]] používá pro vyjádření sumární pravděpodobnosti těch typů, které v korpusu z důvodu jeho omezenosti dosud nenacházíme.
+===== Využití hapaxů =====
+Hapaxy (resp. jejich počet) jako snadno uchopitelný indikátor frekvenčního rozložení jednotek v korpusu slouží pro výpočet různých druhů charakteristik. Tempo přírůstku nových typů se zvětšením korpusu o jeden token se počítá podle vzorce $\frac{V(1,N)}{N}$. Stejný vzorec se pak v důsledku [[wp>Good-Turing|Good-Turingova odhadu]] používá pro vyjádření sumární pravděpodobnosti těch typů, které v korpusu z důvodu jeho omezenosti dosud nenacházíme.
+==== Související odkazy ====
+<WRAP round box 49%>
+[[pojmy:frekvence|Frekvence]] • [[pojmy:heaps|Heapsův zákon]] • [[pojmy:zipf|Zipfovy zákony]]
+</WRAP>

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence