Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
pojmy:hapax [2013/06/10 17:30] – vaclavcvrcek | pojmy:hapax [2013/09/13 11:59] (aktuální) – Schvaleno pro 1. verzi vaclavcvrcek | ||
---|---|---|---|
Řádek 3: | Řádek 3: | ||
Termín odvozený z řeckého //hapax legomenon// (= jednou řečené). | Termín odvozený z řeckého //hapax legomenon// (= jednou řečené). | ||
- | Jako hapaxy se v korpusové lingvistice označují takové jednotky, které se v korpusu (nebo textu) nacházejí právě jednou (jedná se tedy o [[pojmy:type|typ]], který má pouze jeden [[pojmy: | + | Jako hapaxy se v korpusové lingvistice označují takové jednotky, které se v korpusu (nebo textu) nacházejí právě jednou (jedná se tedy o [[pojmy:typ|typ]], který má pouze jeden [[pojmy: |
+ | |||
+ | Počet hapaxů v textu nebo korpusu se značí //V(1,N)//, kde //N// je celková délka textu, resp. velikost korpusu. | ||
===== Poměr počtu hapaxů k počtu typů ===== | ===== Poměr počtu hapaxů k počtu typů ===== | ||
- | Poměr počtu hapaxů k celkovému počtu typů v korpusu se v závislosti na velikosti korpusu mění. V hypotetickém korpusu o velikosti např. 10 slov, bude velmi pravděpodobně každá jednotka zastoupena právě jedním hapaxem (poměr hapaxů ku všem typům bude 1). Přidáváním celých textů do korpusu (v řádech jednotek milionů slov) poměr klesá až k hodnotě téměř 0,35 hapaxů (ze všech typů), poté opět narůstá až k hladině 0,55 (u 120 milionového korpusu). To, zda se poměr s přidáváním dalšího textu ještě mění, nebo zůstává na této hladině, není dosud známo. | + | Poměr počtu hapaxů k celkovému počtu typů v korpusu se v závislosti na velikosti korpusu mění. V hypotetickém korpusu o velikosti např. 10 slov bude velmi pravděpodobně každá jednotka zastoupena právě jedním hapaxem (poměr hapaxů ku všem typům bude 1). Přidáváním celých textů do korpusu (v řádech jednotek milionů slov) poměr klesá až k hodnotě téměř 0,35 hapaxů (ze všech typů), poté opět narůstá až k hladině 0,55 (u 120 milionového korpusu). To, zda se poměr s přidáváním dalšího textu ještě mění, nebo zůstává na této hladině, není dosud známo. |
- | U velkých korpusů můžeme tedy počítat s tím, že zhruba polovina všech typů se bude vyskytovat právě jednou (srov. [[pojmy: | + | U velkých korpusů můžeme tedy počítat s tím, že zhruba polovina všech typů se bude vyskytovat právě jednou (srov. [[pojmy: |
===== Přírůstek hapaxů ===== | ===== Přírůstek hapaxů ===== | ||
Řádek 22: | Řádek 24: | ||
Hapaxy (resp. jejich počet) jako snadno uchopitelný indikátor frekvenčního rozložení jednotek v korpusu slouží pro výpočet různých druhů charakteristik. Tempo přírůstku nových typů se zvětšením korpusu o jeden token se počítá podle vzorce $\frac{V(1, | Hapaxy (resp. jejich počet) jako snadno uchopitelný indikátor frekvenčního rozložení jednotek v korpusu slouží pro výpočet různých druhů charakteristik. Tempo přírůstku nových typů se zvětšením korpusu o jeden token se počítá podle vzorce $\frac{V(1, | ||
+ | |||
+ | ==== Související odkazy ==== | ||
+ | |||
+ | <WRAP round box 49%> | ||
+ | [[pojmy: | ||
+ | </ |