Zkratky i.p.m. (z angl. instances per million), příp. p.p.m. (z angl. parts per million) jsou jednotkami relativní frekvence. Vyjadřují průměrný počet výskytů jednotky nebo slova v hypotetickém textu/korpusu o délce 1 milion slov.
Např. slovní tvar běžeckých se ve stomilionovém korpusu SYN2010 objevuje 208krát, což odpovídá 1,71 i.p.m., tj. 1,71 výskytů na milion slov.
Hlavní výhodou relativizace frekvencí vzhledem k velikosti korpusu je možnost následného porovnání hodnot z nestejně velkých korpusů. Absolutní hodnoty totiž jsou v případě, že korpusy nemají stejnou velikost, matoucí. Lemma oběd nabývá v korpusech SYN2020 a ORTOFON těchto hodnot:
SYN2020 | ORTOFON | |
---|---|---|
Absolutní frekvence | 6 444 | 187 |
Relat. frekvence (v i.p.m.) | 52,89 | 151,23 |
Navzdory tomu, o čem vypovídají absolutní frekvence, po přihlédnutí k celkové velikosti korpusů (SYN2020 má 122 mil. pozic, zatímco ORAL2008 jenom 1,24 mil. pozic) je slovo oběd v korpusu ORTOFON relativně častější.