Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
| pojmy:heaps [2013/06/19 21:59] – vaclavcvrcek | pojmy:heaps [2013/09/13 12:01] (aktuální) – Schvaleno pro 1. verzi vaclavcvrcek | ||
|---|---|---|---|
| Řádek 1: | Řádek 1: | ||
| ====== Heapsův zákon ====== | ====== Heapsův zákon ====== | ||
| - | Heapsův zákon popisuje, jak závisí přírůstek [[pojmy:type|typů]] na přírůstku [[pojmy: | + | Heapsův zákon popisuje, jak závisí přírůstek [[pojmy:typ|typů]] na přírůstku [[pojmy: |
| Obecný vzorec Heapsova zákona je: | Obecný vzorec Heapsova zákona je: | ||
| Řádek 7: | Řádek 7: | ||
| $V(N) = a \times N^{b}$ | $V(N) = a \times N^{b}$ | ||
| - | kde //N// je počet tokenů a //V(N)// je velikost slovníku, tj. počet typů na daný počet tokenů. Koeficienty //a// a //b// jsou pro každý jazyk specifické. Koeficient //b// by se měl nacházet zhruba v rozsahu 0,4 < b < 0,6 , koeficient //a// by měl být v rozsahu 10 < a < 100 (pro češtinu jsou tyto původní odhady zjevně příliš úzké). | + | kde //N// je počet tokenů a //V(N)// je velikost slovníku, tj. počet typů na daný počet tokenů. Koeficienty //a// a //b// jsou pro každý jazyk specifické. Koeficient //b// by se měl nacházet zhruba v rozsahu 0,4 < b < 0,6; koeficient //a// by měl být v rozsahu 10 < a < 100 (pro češtinu jsou tyto původní odhady zjevně příliš úzké). |
| ===== Koeficienty pro češtinu ===== | ===== Koeficienty pro češtinu ===== | ||
| - | {{: | + | [{{: |
| Pro češtinu platí zhruba tyto koeficienty: | Pro češtinu platí zhruba tyto koeficienty: | ||
| Řádek 21: | Řádek 21: | ||
| Oba modely přitom vykazují velmi malou odchylku od reality (viz detail grafu). | Oba modely přitom vykazují velmi malou odchylku od reality (viz detail grafu). | ||
| - | V praxi to znamená, že korpus, který má 120 mil. tokenů | + | V praxi to znamená, že korpus, který má 120 mil. tokenů |
| ==== Postup měření ==== | ==== Postup měření ==== | ||
| - | Aby bylo vůbec možné jakkoli porovnávat výsledky měření koeficientů Heapsova zákona, je třeba se přesně držet stejného postupu. V tomto případě | + | Aby bylo vůbec možné jakkoli porovnávat výsledky měření koeficientů Heapsova zákona, je třeba se přesně držet stejného postupu. V tomto případě |
| - | * Korpus SYN (1.3 miliardy slov) byl rozdělen na jednotlivé opusy. | + | * Korpus SYN (1,3 miliardy slov) byl rozdělen na jednotlivé opusy. |
| * V náhodně vybrané skupině opusů (vždy o celkové velikosti 140 milionů tokenů) byl měřen počet typů. Výpis byl prováděn vždy po 10 000 tokenech. | * V náhodně vybrané skupině opusů (vždy o celkové velikosti 140 milionů tokenů) byl měřen počet typů. Výpis byl prováděn vždy po 10 000 tokenech. | ||
| * Celkem bylo provedeno 100 měření na slovních tvarech a 100 měření na lemmatech. Výsledky byly zprůměrovány (aby byl eliminován vliv jednotlivých textů nebo žánrů), takže odhad je zpracován na průměrných hodnotách pro wordy a průměrných hodnotách pro lemmata. | * Celkem bylo provedeno 100 měření na slovních tvarech a 100 měření na lemmatech. Výsledky byly zprůměrovány (aby byl eliminován vliv jednotlivých textů nebo žánrů), takže odhad je zpracován na průměrných hodnotách pro wordy a průměrných hodnotách pro lemmata. | ||
| Řádek 35: | Řádek 35: | ||
| ===== Token-hapax ratio ===== | ===== Token-hapax ratio ===== | ||
| - | Obdobný vztah jako je token-type ratio (TTR), který aproximuje Heapsův zákon, je možné pozorovat i u vztahu mezi přibývajícím počtem [[pojmy: | + | Obdobný vztah, jako je token-type ratio (TTR), který aproximuje Heapsův zákon, je možné pozorovat i u vztahu mezi přibývajícím počtem [[pojmy: |
| - | Analogicky k předchozímu měření můžeme zde dospět k následujícím koeficientům pro češtinu: | + | Analogicky k předchozímu měření můžeme |
| Pro hapaxy tvořené lemmaty platí, že $a = 1.6935112$ (!) a $b = 0.6678874$. | Pro hapaxy tvořené lemmaty platí, že $a = 1.6935112$ (!) a $b = 0.6678874$. | ||
| Řádek 44: | Řádek 44: | ||
| ==== Související odkazy ==== | ==== Související odkazy ==== | ||
| - | + | <WRAP round box 49%> | |
| - | [[wp> | + | [[wp> |
| + | </ | ||