Skrýt
Nastavení

Toto je starší verze dokumentu!


i.p.m.

Zkratky i.p.m. (z angl. instances per million), příp. p.p.m. (z angl. parts per million) jsou jednotkami relativní frekvence. Vyjadřují průměrný počet výskytů jednotky nebo slova v hypotetickém textu/korpusu o délce 1 milion slov.

Např. slovní tvar běžeckých se ve stomilionovém korpusu SYN2010 objevuje 208krát, což odpovídá 1,72 i.p.m., tj. 1,72 výskytů na milion slov.

Využití i.p.m./p.p.m.

Hlavní výhodou relativizace frekvencí vzhledem k velikosti korpusu je možnost následného porovnání hodnot z nestejně velkých korpusů. Absolutní hodnoty totiž jsou v případě, že korpusy nemají stejnou velikost, matoucí. Slovní tvar stromek nabývá v korpusech SYN2010 a ORAL2008 těchto hodnot:

SYN2010 ORAL2008
Absol. frekvence 440 6
Relat. frekvence (v i.p.m.) 3,62 4,45

Navzdory tomu, o čem vypovídají absolutní frekvence, po přihlédnutí k celkové velikosti korpusů (SYN2010 má 122 mil. pozic, zatímco ORAL2008 jenom 1,35 mil. pozic) je slovo stromek v korpusu ORAL2008 relativně častější.

Související odkazy