Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
pojmy:heaps [2013/07/10 10:18] – cvrcek | pojmy:heaps [2013/09/13 12:01] (aktuální) – Schvaleno pro 1. verzi vaclavcvrcek | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Heapsův zákon ====== | ====== Heapsův zákon ====== | ||
- | Heapsův zákon popisuje, jak závisí přírůstek [[pojmy:type|typů]] na přírůstku [[pojmy: | + | Heapsův zákon popisuje, jak závisí přírůstek [[pojmy:typ|typů]] na přírůstku [[pojmy: |
Obecný vzorec Heapsova zákona je: | Obecný vzorec Heapsova zákona je: | ||
Řádek 7: | Řádek 7: | ||
$V(N) = a \times N^{b}$ | $V(N) = a \times N^{b}$ | ||
- | kde //N// je počet tokenů a //V(N)// je velikost slovníku, tj. počet typů na daný počet tokenů. Koeficienty //a// a //b// jsou pro každý jazyk specifické. Koeficient //b// by se měl nacházet zhruba v rozsahu 0,4 < b < 0,6 , koeficient //a// by měl být v rozsahu 10 < a < 100 (pro češtinu jsou tyto původní odhady zjevně příliš úzké). | + | kde //N// je počet tokenů a //V(N)// je velikost slovníku, tj. počet typů na daný počet tokenů. Koeficienty //a// a //b// jsou pro každý jazyk specifické. Koeficient //b// by se měl nacházet zhruba v rozsahu 0,4 < b < 0,6; koeficient //a// by měl být v rozsahu 10 < a < 100 (pro češtinu jsou tyto původní odhady zjevně příliš úzké). |
===== Koeficienty pro češtinu ===== | ===== Koeficienty pro češtinu ===== | ||
Řádek 21: | Řádek 21: | ||
Oba modely přitom vykazují velmi malou odchylku od reality (viz detail grafu). | Oba modely přitom vykazují velmi malou odchylku od reality (viz detail grafu). | ||
- | V praxi to znamená, že korpus, který má 120 mil. tokenů | + | V praxi to znamená, že korpus, který má 120 mil. tokenů |
==== Postup měření ==== | ==== Postup měření ==== | ||
- | Aby bylo vůbec možné jakkoli porovnávat výsledky měření koeficientů Heapsova zákona, je třeba se přesně držet stejného postupu. V tomto případě | + | Aby bylo vůbec možné jakkoli porovnávat výsledky měření koeficientů Heapsova zákona, je třeba se přesně držet stejného postupu. V tomto případě |
- | * Korpus SYN (1.3 miliardy slov) byl rozdělen na jednotlivé opusy. | + | * Korpus SYN (1,3 miliardy slov) byl rozdělen na jednotlivé opusy. |
* V náhodně vybrané skupině opusů (vždy o celkové velikosti 140 milionů tokenů) byl měřen počet typů. Výpis byl prováděn vždy po 10 000 tokenech. | * V náhodně vybrané skupině opusů (vždy o celkové velikosti 140 milionů tokenů) byl měřen počet typů. Výpis byl prováděn vždy po 10 000 tokenech. | ||
* Celkem bylo provedeno 100 měření na slovních tvarech a 100 měření na lemmatech. Výsledky byly zprůměrovány (aby byl eliminován vliv jednotlivých textů nebo žánrů), takže odhad je zpracován na průměrných hodnotách pro wordy a průměrných hodnotách pro lemmata. | * Celkem bylo provedeno 100 měření na slovních tvarech a 100 měření na lemmatech. Výsledky byly zprůměrovány (aby byl eliminován vliv jednotlivých textů nebo žánrů), takže odhad je zpracován na průměrných hodnotách pro wordy a průměrných hodnotách pro lemmata. | ||
Řádek 35: | Řádek 35: | ||
===== Token-hapax ratio ===== | ===== Token-hapax ratio ===== | ||
- | Obdobný vztah jako je token-type ratio (TTR), který aproximuje Heapsův zákon, je možné pozorovat i u vztahu mezi přibývajícím počtem [[pojmy: | + | Obdobný vztah, jako je token-type ratio (TTR), který aproximuje Heapsův zákon, je možné pozorovat i u vztahu mezi přibývajícím počtem [[pojmy: |
- | Analogicky k předchozímu měření můžeme zde dospět k následujícím koeficientům pro češtinu: | + | Analogicky k předchozímu měření můžeme |
Pro hapaxy tvořené lemmaty platí, že $a = 1.6935112$ (!) a $b = 0.6678874$. | Pro hapaxy tvořené lemmaty platí, že $a = 1.6935112$ (!) a $b = 0.6678874$. | ||
Řádek 44: | Řádek 44: | ||
==== Související odkazy ==== | ==== Související odkazy ==== | ||
- | + | <WRAP round box 49%> | |
- | [[wp> | + | [[wp> |
+ | </ |