AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verzeObě strany příští revize
pojmy:hapax [2013/06/10 17:31] vaclavcvrcekpojmy:hapax [2013/06/19 21:58] vaclavcvrcek
Řádek 3: Řádek 3:
 Termín odvozený z řeckého //hapax legomenon// (= jednou řečené). Termín odvozený z řeckého //hapax legomenon// (= jednou řečené).
  
-Jako hapaxy se v korpusové lingvistice označují takové jednotky, které se v korpusu (nebo textu) nacházejí právě jednou (jedná se tedy o [[pojmy:type|typ]], který má pouze jeden [[pojmy:token|token]], jednu realizaci, tj. [[pojmy:frekvence|frekvenci]] 1, přičemž typem se v této souvislosti nejčastěji rozumí [[pojmy:word|slovní tvar]] nebo [[pojmy:lemma|lemma]]). Jejich využití v lingvistickém výzkumu je dosud nejasné a sporné, protože jediný výskyt neumožňuje zobecňovat, vytvářet jakékoli závěry o vlastnostech a způsobech užití dané jednotky. +Jako hapaxy se v korpusové lingvistice označují takové jednotky, které se v korpusu (nebo textu) nacházejí právě jednou (jedná se tedy o [[pojmy:typ|typ]], který má pouze jeden [[pojmy:token|token]], jednu realizaci, tj. [[pojmy:frekvence|frekvenci]] 1, přičemž typem se v této souvislosti nejčastěji rozumí [[pojmy:word|slovní tvar]] nebo [[pojmy:lemma|lemma]]). Jejich využití v lingvistickém výzkumu je dosud nejasné a sporné, protože jediný výskyt neumožňuje zobecňovat, vytvářet jakékoli závěry o vlastnostech a způsobech užití dané jednotky. 
  
 Počet hapaxů v textu nebo korpusu se značí //V(1,N)//, kde //N// je celková délka textu, resp. velikost korpusu. Počet hapaxů v textu nebo korpusu se značí //V(1,N)//, kde //N// je celková délka textu, resp. velikost korpusu.
Řádek 24: Řádek 24:
  
 Hapaxy (resp. jejich počet) jako snadno uchopitelný indikátor frekvenčního rozložení jednotek v korpusu slouží pro výpočet různých druhů charakteristik. Tempo přírůstku nových typů se zvětšením korpusu o jeden token se počítá podle vzorce $\frac{V(1,N)}{N}$. Stejný vzorec se pak v důsledku [[wp>Good-Turing|Good-Turingova odhadu]] používá pro vyjádření sumární pravděpodobnosti těch typů, které v korpusu z důvodu jeho omezenosti dosud nenacházíme. Hapaxy (resp. jejich počet) jako snadno uchopitelný indikátor frekvenčního rozložení jednotek v korpusu slouží pro výpočet různých druhů charakteristik. Tempo přírůstku nových typů se zvětšením korpusu o jeden token se počítá podle vzorce $\frac{V(1,N)}{N}$. Stejný vzorec se pak v důsledku [[wp>Good-Turing|Good-Turingova odhadu]] používá pro vyjádření sumární pravděpodobnosti těch typů, které v korpusu z důvodu jeho omezenosti dosud nenacházíme.
 +
 +==== Související odkazy ====
 +
 +[[pojmy:frekvence|Frekvence]]
 +
 +[[pojmy:zipf|Zipfovy zákony]]
 +