This is an old revision of the document!
Table of Contents
ipm
The abbreviations ipm (instances per million) and ppm (parts per million) are measures of relative frequency. They express the average number of occurences of the unit or word in a hypothetical text/corpus with the size of 1 million words.
Eg. The node form běžeckých in the hundred million word corpus SYN2010 occurs 208 times, which is the equivalent of 1,72 ipm, i.e. 1,72 occurences per million words.
Využití ipm/ppm
Hlavní výhodou relativizace frekvencí vzhledem k velikosti korpusu je možnost následného porovnání hodnot z nestejně velkých korpusů. Absolutní hodnoty totiž jsou v případě, že korpusy nemají stejnou velikost, matoucí. Slovní tvar stromek nabývá v korpusech SYN2010 a ORAL2008 těchto hodnot:
SYN2010 | ORAL2008 | |
---|---|---|
Abs. frekvence | 440 | 6 |
Rel. frekvence (v ipm) | 3,62 | 4,45 |
Navzdory tomu, o čem vypovídají absolutní frekvence, po přihlédnutí k celkové velikosti korpusů (SYN2010 má 122 mil. pozic, zatímco ORAL2008 jenom 1,35 mil. pozic) je slovo stromek v korpusu ORAL2008 relativně častější.