AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verzeObě strany příští revize
pojmy:hapax [2013/06/10 17:24] – vytvořeno vaclavcvrcekpojmy:hapax [2013/06/10 17:27] vaclavcvrcek
Řádek 15: Řádek 15:
 kde //V(1,N)// je počet hapaxů při velikosti korpusu //N//, //a// a //b// jsou jazykově a žánrově specifické konstanty. Pro hapaxy tvořené českými lemmaty platí, že $a = 1.6935112$ a $b = 0.6678874$. Pro hapaxy tvořené slovními tvary v češtině platí, že $a = 57.28$ a $b = 0.5086$. kde //V(1,N)// je počet hapaxů při velikosti korpusu //N//, //a// a //b// jsou jazykově a žánrově specifické konstanty. Pro hapaxy tvořené českými lemmaty platí, že $a = 1.6935112$ a $b = 0.6678874$. Pro hapaxy tvořené slovními tvary v češtině platí, že $a = 57.28$ a $b = 0.5086$.
  
-Hapaxy (resp. jejich počet) jako snadno uchopitelný indikátor frekvenčního rozložení jednotek v korpusu slouží pro výpočet různých druhů charakteristik. Tempo přírůstku nových typů se zvětšením korpusu o jeden token se počítá podle vzorce $\frac{V(1,N)}{N}$. Stejný vzorec se pak v důsledku [[http://en.wikipedia.org/wiki/Good-Turing|Good-Turingova odhadu]] používá pro vyjádření sumární pravděpodobnosti těch typů, které v korpusu z důvodu jeho omezenosti dosud nenacházíme.+Hapaxy (resp. jejich počet) jako snadno uchopitelný indikátor frekvenčního rozložení jednotek v korpusu slouží pro výpočet různých druhů charakteristik. Tempo přírůstku nových typů se zvětšením korpusu o jeden token se počítá podle vzorce $\frac{V(1,N)}{N}$. Stejný vzorec se pak v důsledku [[wp>Good-Turing|Good-Turingova odhadu]] používá pro vyjádření sumární pravděpodobnosti těch typů, které v korpusu z důvodu jeho omezenosti dosud nenacházíme.