Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verze | |||
pojmy:typ [2014/11/24 11:40] – vaclavcvrcek | pojmy:typ [2022/12/19 15:38] (aktuální) – vaclavcvrcek | ||
---|---|---|---|
Řádek 7: | Řádek 7: | ||
**TTR (token-type ratio)** je poměr (někdy vyjádřený procenty) počtu různých slov nebo lemmat (typů) k celkovému počtu všech slov v korpusu. Pokud je tento poměr vysoký, můžeme mluvit o textu s velkou lexikální bohatostí (užívá mnoho různých jednotek), malý poměr značí velkou míru opakování. | **TTR (token-type ratio)** je poměr (někdy vyjádřený procenty) počtu různých slov nebo lemmat (typů) k celkovému počtu všech slov v korpusu. Pokud je tento poměr vysoký, můžeme mluvit o textu s velkou lexikální bohatostí (užívá mnoho různých jednotek), malý poměr značí velkou míru opakování. | ||
- | Token-type jako ukazatel je silně vázaný na celkovou velikost korpusu, je proto jen obtížně využitelný jako obecný referenční ukazatel. Čím delší text máme k dispozici, tím větší je poměr mezi tokeny a typy (ačkoli vztah není lineární, viz [[pojmy: | + | Token-type jako ukazatel je silně vázaný na celkovou velikost korpusu, je proto jen obtížně využitelný jako obecný referenční ukazatel. Čím delší text máme k dispozici, tím větší je poměr mezi tokeny a typy (ačkoli vztah není lineární, viz [[pojmy: |
==== Související odkazy ==== | ==== Související odkazy ==== |