AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:ipm [2016/09/12 17:09] michalskrabalpojmy:ipm [2021/02/22 19:55] (aktuální) – [Využití i.p.m./p.p.m.] dominikakovarikova
Řádek 3: Řádek 3:
 Zkratky **i.p.m.** (z angl. instances per million), příp. **p.p.m.** (z angl. parts per million) jsou jednotkami relativní [[pojmy:frekvence|frekvence]]. Vyjadřují průměrný počet výskytů jednotky nebo slova v hypotetickém textu/korpusu o délce 1 milion slov. Zkratky **i.p.m.** (z angl. instances per million), příp. **p.p.m.** (z angl. parts per million) jsou jednotkami relativní [[pojmy:frekvence|frekvence]]. Vyjadřují průměrný počet výskytů jednotky nebo slova v hypotetickém textu/korpusu o délce 1 milion slov.
  
-Např. [[pojmy:word|slovní tvar]] //běžeckých// se ve stomilionovém korpusu [[cnk:syn2010|SYN2010]] objevuje 208krát, což odpovídá 1,72 i.p.m., tj. 1,72 výskytů na milion slov.+Např. [[pojmy:word|slovní tvar]] //běžeckých// se ve stomilionovém korpusu [[cnk:syn2010|SYN2010]] objevuje 208krát, což odpovídá 1,71 i.p.m., tj. 1,71 výskytů na milion slov.
  
 ===== Využití i.p.m./p.p.m. ===== ===== Využití i.p.m./p.p.m. =====
  
-Hlavní výhodou relativizace frekvencí vzhledem k velikosti korpusu je možnost následného porovnání hodnot z nestejně velkých korpusů. Absolutní hodnoty totiž jsou v případě, že korpusy nemají stejnou velikost, matoucí. [[pojmy:word|Slovní tvar]] //stromek// nabývá v korpusech [[cnk:syn2010|SYN2010]] a [[cnk:oral2008|ORAL2008]] těchto hodnot:+Hlavní výhodou relativizace frekvencí vzhledem k velikosti korpusu je možnost následného porovnání hodnot z nestejně velkých korpusů. Absolutní hodnoty totiž jsou v případě, že korpusy nemají stejnou velikost, matoucí. [[pojmy:lemma|Lemma]] //oběd// nabývá v korpusech [[cnk:syn2020|SYN2020]] a [[cnk:ortofon|ORTOFON]] těchto hodnot:
  
-^ ^ SYN2010 ORAL2008 +^ ^ SYN2020 ORTOFON 
-Absol. frekvence |  440 |  +Absolutní frekvence |  6 444 |  187 
-| Relat. frekvence (v i.p.m.) |  3,62 |  4,45 |+| Relat. frekvence (v i.p.m.) |  52,89 |  151,23 |
  
-Navzdory tomu, o čem vypovídají absolutní frekvence, po přihlédnutí k celkové velikosti korpusů (SYN2010 má 122 mil. pozic, zatímco ORAL2008 jenom 1,35 mil. pozic) je slovo //stromek// v korpusu ORAL2008 relativně častější.+Navzdory tomu, o čem vypovídají absolutní frekvence, po přihlédnutí k celkové velikosti korpusů (SYN2020 má 122 mil. pozic, zatímco ORAL2008 jenom 1,24 mil. pozic) je slovo //oběd// v korpusu ORTOFON relativně častější.
  
 ==== Související odkazy ==== ==== Související odkazy ====