i.p.m.
Zkratky i.p.m. (z angl. instances per million), příp. p.p.m. (z angl. parts per million) jsou jednotkami relativní frekvence. Vyjadřují průměrný počet výskytů jednotky nebo slova v hypotetickém textu/korpusu o délce 1 milion slov.
Např. slovní tvar běžeckých se ve stomilionovém korpusu SYN2010 objevuje 208krát, což odpovídá 1,71 i.p.m., tj. 1,71 výskytů na milion slov.
Využití i.p.m./p.p.m.
Hlavní výhodou relativizace frekvencí vzhledem k velikosti korpusu je možnost následného porovnání hodnot z nestejně velkých korpusů. Absolutní hodnoty totiž jsou v případě, že korpusy nemají stejnou velikost, matoucí. Slovní tvar stromek nabývá v korpusech SYN2010 a ORAL2008 těchto hodnot:
SYN2010 | ORAL2008 | |
---|---|---|
Absol. frekvence | 440 | 6 |
Relat. frekvence (v i.p.m.) | 3,62 | 4,45 |
Navzdory tomu, o čem vypovídají absolutní frekvence, po přihlédnutí k celkové velikosti korpusů (SYN2010 má 122 mil. pozic, zatímco ORAL2008 jenom 1,35 mil. pozic) je slovo stromek v korpusu ORAL2008 relativně častější.