Obsah

i.p.m.

Zkratky i.p.m. (z angl. instances per million), příp. p.p.m. (z angl. parts per million) jsou jednotkami relativní frekvence. Vyjadřují průměrný počet výskytů jednotky nebo slova v hypotetickém textu/korpusu o délce 1 milion slov.

Např. slovní tvar běžeckých se ve stomilionovém korpusu SYN2010 objevuje 208krát, což odpovídá 1,71 i.p.m., tj. 1,71 výskytů na milion slov.

Využití i.p.m./p.p.m.

Hlavní výhodou relativizace frekvencí vzhledem k velikosti korpusu je možnost následného porovnání hodnot z nestejně velkých korpusů. Absolutní hodnoty totiž jsou v případě, že korpusy nemají stejnou velikost, matoucí. Lemma oběd nabývá v korpusech SYN2020 a ORTOFON těchto hodnot:

SYN2020 ORTOFON
Absolutní frekvence 6 444 187
Relat. frekvence (v i.p.m.) 52,89 151,23

Navzdory tomu, o čem vypovídají absolutní frekvence, po přihlédnutí k celkové velikosti korpusů (SYN2020 má 122 mil. pozic, zatímco ORAL2008 jenom 1,24 mil. pozic) je slovo oběd v korpusu ORTOFON relativně častější.

Související odkazy