Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Následující verze | Předchozí verze | ||
pojmy:hapax [2013/06/10 17:24] – vytvořeno vaclavcvrcek | pojmy:hapax [2013/09/13 11:59] (aktuální) – Schvaleno pro 1. verzi vaclavcvrcek | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Hapax (legomenon) ====== | ====== Hapax (legomenon) ====== | ||
- | Termín odvozený z řeckého hapax legomenon (= jednou řečené). | + | Termín odvozený z řeckého |
- | Jako hapaxy se v korpusové lingvistice označují takové jednotky, které se v korpusu (nebo textu) nacházejí právě jednou (jedná se tedy o [[pojmy:type|typ]], který má pouze jeden [[pojmy: | + | Jako hapaxy se v korpusové lingvistice označují takové jednotky, které se v korpusu (nebo textu) nacházejí právě jednou (jedná se tedy o [[pojmy:typ|typ]], který má pouze jeden [[pojmy: |
- | Poměr počtu hapaxů k celkovému počtu typů v korpusu se v závislosti na velikosti korpusu mění. | + | Počet hapaxů v textu nebo korpusu se značí //V(1,N)//, kde //N// je celková délka textu, resp. velikost |
- | U velkých korpusů můžeme tedy počítat s tím, že zhruba polovina všech typů se bude vyskytovat právě jednou (srov. [[pojmy: | + | ===== Poměr počtu hapaxů k počtu typů ===== |
+ | |||
+ | Poměr počtu hapaxů k celkovému počtu typů v korpusu se v závislosti na velikosti korpusu mění. V hypotetickém korpusu o velikosti např. 10 slov bude velmi pravděpodobně každá jednotka zastoupena právě jedním hapaxem (poměr hapaxů ku všem typům bude 1). Přidáváním celých textů do korpusu (v řádech jednotek milionů slov) poměr klesá až k hodnotě téměř 0,35 hapaxů (ze všech typů), poté opět narůstá až k hladině 0,55 (u 120 milionového korpusu). To, zda se poměr s přidáváním dalšího textu ještě mění, nebo zůstává na této hladině, není dosud známo. | ||
+ | |||
+ | U velkých korpusů můžeme tedy počítat s tím, že zhruba polovina všech typů se bude vyskytovat právě jednou (srov. [[pojmy: | ||
+ | |||
+ | ===== Přírůstek hapaxů ===== | ||
Obdobný vztah, jaký najdeme mezi tokeny a typy a jež aproximuje [[pojmy: | Obdobný vztah, jaký najdeme mezi tokeny a typy a jež aproximuje [[pojmy: | ||
Řádek 15: | Řádek 21: | ||
kde //V(1,N)// je počet hapaxů při velikosti korpusu //N//, //a// a //b// jsou jazykově a žánrově specifické konstanty. Pro hapaxy tvořené českými lemmaty platí, že $a = 1.6935112$ a $b = 0.6678874$. Pro hapaxy tvořené slovními tvary v češtině platí, že $a = 57.28$ a $b = 0.5086$. | kde //V(1,N)// je počet hapaxů při velikosti korpusu //N//, //a// a //b// jsou jazykově a žánrově specifické konstanty. Pro hapaxy tvořené českými lemmaty platí, že $a = 1.6935112$ a $b = 0.6678874$. Pro hapaxy tvořené slovními tvary v češtině platí, že $a = 57.28$ a $b = 0.5086$. | ||
- | Hapaxy (resp. jejich počet) jako snadno uchopitelný indikátor frekvenčního rozložení jednotek v korpusu slouží pro výpočet různých druhů charakteristik. Tempo přírůstku nových typů se zvětšením korpusu o jeden token se počítá podle vzorce $\frac{V(1, | + | ===== Využití hapaxů ===== |
+ | |||
+ | Hapaxy (resp. jejich počet) jako snadno uchopitelný indikátor frekvenčního rozložení jednotek v korpusu slouží pro výpočet různých druhů charakteristik. Tempo přírůstku nových typů se zvětšením korpusu o jeden token se počítá podle vzorce $\frac{V(1, | ||
+ | |||
+ | ==== Související odkazy ==== | ||
+ | |||
+ | <WRAP round box 49%> | ||
+ | [[pojmy: | ||
+ | </ |