Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:frekvence [2020/03/02 12:58] – [Využití a význam frekvence] vaclavcvrcek | pojmy:frekvence [2021/02/22 18:36] (aktuální) – [Využití a význam frekvence] dominikakovarikova |
---|
====== Frekvence ====== | ====== Frekvence ====== |
| |
Frekvence v korpusové lingvistice označuje počet výskytů jevu v korpusu, **četnost** formy nebo jevu. Uvádí se buď v **absolutních hodnotách**, např. [[pojmy:lemma|lemma]] //pes// se ve 100 milionovém korpusu [[cnk:syn2010|SYN2010]] vyskytuje 17 701krát, nebo jako údaj **relativní**, např. lemma //pes// se v SYN2010 vyskytuje (po zohlednění rozdílného počtu slov a pozic v korpusu) 145krát na milion slov (používané zkratky jsou **[[pojmy:ipm|ipm]]** = instances per million nebo **ppm** = parts per million nebo ). | Frekvence v korpusové lingvistice označuje počet výskytů jevu v korpusu, **četnost** formy nebo jevu. Uvádí se buď v **absolutních hodnotách**, např. [[pojmy:lemma|lemma]] //pes// se ve 100 milionovém korpusu [[cnk:syn2020|SYN2020]] vyskytuje 17 026krát, nebo jako údaj **relativní**, např. lemma //pes// se v SYN2020 vyskytuje (po zohlednění rozdílného počtu slov a pozic v korpusu) 140krát na milion slov (používané zkratky jsou **[[pojmy:ipm|ipm]]** = instances per million nebo **ppm** = parts per million nebo ). |
| |
Zatímco absolutní frekvence (tj. prostý počet výskytů slov v korpusu) vyžaduje pro jejich zhodnocení další upřesnění (v podobě celkové velikosti korpusu nebo frekvence jiného jevu pro srovnání), relativní frekvence (tj. absolutní frekvence poměřovaná celkovou délkou korpusu) slouží jako ukazatel četnosti jevu sama o sobě a umožňuje porovnání i mezi korpusy nebo texty nestejné velikosti. | Zatímco absolutní frekvence (tj. prostý počet výskytů slov v korpusu) vyžaduje pro jejich zhodnocení další upřesnění (v podobě celkové velikosti korpusu nebo frekvence jiného jevu pro srovnání), relativní frekvence (tj. absolutní frekvence poměřovaná celkovou délkou korpusu) slouží jako ukazatel četnosti jevu sama o sobě a umožňuje porovnání i mezi korpusy nebo texty nestejné velikosti. |
=== Příklady === | === Příklady === |
| |
Když v korpusu o velikosti zhruba 100 mil. slov (např. [[cnk:syn2015|SYN2015]]) naměříme u zkoumaného jevu frekvenci 50 výskytů, je třeba takový výsledek interpretovat tak, že v populaci textů, kterou má tento korpus reprezentovat, se tento jev objevuje v rozmezí od 37 do 66 výskytů na 100 mil. textových slov (s 5% pravděpodobností omylu, tj. s rizikem, že reálný výsledek se bude nacházet vně tohoto intervalu). | Když v korpusu o velikosti zhruba 100 mil. slov (např. [[cnk:syn2020|SYN2020]]) naměříme u zkoumaného jevu frekvenci 50 výskytů, je třeba takový výsledek interpretovat tak, že v populaci textů, kterou má tento korpus reprezentovat, se tento jev objevuje v rozmezí od 37 do 66 výskytů na 100 mil. textových slov (s 5% pravděpodobností omylu, tj. s rizikem, že reálný výsledek se bude nacházet vně tohoto intervalu). |
| |
Zjistíme-li, že se hledaný jev v korpusu (např. v [[cnk:oral2008|ORAL2008]]) vyskytuje právě třikrát, znamená to, že v jiném plně srovnatelném korpusu by tentýž jev mohl nabývat hodnoty až 9 výskytů nebo by v něm nemusel být přítomen vůbec (opět při 5% pravděpodobnosti chyby).((U takto nízkých hodnot záleží rovněž na zvoleném způsobu zaokrouhlování.)) | Zjistíme-li, že se hledaný jev v korpusu (např. v [[cnk:oral2008|ORAL2008]]) vyskytuje právě třikrát, znamená to, že v jiném plně srovnatelném korpusu by tentýž jev mohl nabývat hodnoty až 9 výskytů nebo by v něm nemusel být přítomen vůbec (opět při 5% pravděpodobnosti chyby).((U takto nízkých hodnot záleží rovněž na zvoleném způsobu zaokrouhlování.)) |