Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
pojmy:frekvence [2020/03/02 12:57] – [Využití a význam frekvence] vaclavcvrcek | pojmy:frekvence [2021/02/22 18:36] (aktuální) – [Využití a význam frekvence] dominikakovarikova | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Frekvence ====== | ====== Frekvence ====== | ||
- | Frekvence v korpusové lingvistice označuje počet výskytů jevu v korpusu, **četnost** formy nebo jevu. Uvádí se buď v **absolutních hodnotách**, | + | Frekvence v korpusové lingvistice označuje počet výskytů jevu v korpusu, **četnost** formy nebo jevu. Uvádí se buď v **absolutních hodnotách**, |
Zatímco absolutní frekvence (tj. prostý počet výskytů slov v korpusu) vyžaduje pro jejich zhodnocení další upřesnění (v podobě celkové velikosti korpusu nebo frekvence jiného jevu pro srovnání), | Zatímco absolutní frekvence (tj. prostý počet výskytů slov v korpusu) vyžaduje pro jejich zhodnocení další upřesnění (v podobě celkové velikosti korpusu nebo frekvence jiného jevu pro srovnání), | ||
Řádek 53: | Řádek 53: | ||
Pro korektní interpretaci frekvence je třeba si uvědomit, že se jedná o bodový odhad četnosti jevu v celém jazyce. Každý korpus je více či méně přesnou aproximací zkoumané populace (= texty určitého druhu), a tudíž v různých korpusech vytvořených podle téže metodologie (i kdybychom byli schopni zaručit jejich plnou srovnatelnost) se bude frekvence zkoumaného jevu drobně lišit. K podchycení této variability hodnot slouží **[[wp> | Pro korektní interpretaci frekvence je třeba si uvědomit, že se jedná o bodový odhad četnosti jevu v celém jazyce. Každý korpus je více či méně přesnou aproximací zkoumané populace (= texty určitého druhu), a tudíž v různých korpusech vytvořených podle téže metodologie (i kdybychom byli schopni zaručit jejich plnou srovnatelnost) se bude frekvence zkoumaného jevu drobně lišit. K podchycení této variability hodnot slouží **[[wp> | ||
- | Pro účely zjištění konfidenčních intervalů můžeme použít např. korpusovou kalkulačku **Calc** ([[www.korpus.cz/ | + | Pro účely zjištění konfidenčních intervalů můžeme použít např. korpusovou kalkulačku **Calc** ([[https:// |
Konfidenční interval okolo naměřené (zjištěné) frekvence na hladině významnosti 0,95 říká, že v pokusu, který by zahrnoval nekonečné množství srovnatelných a stejně rozsáhlých korpusů, by frekvence hledaného jevu byla v 95 % měření v rámci tohoto intervalu. Při analýze bychom tedy měli vždy počítat s tím, že reálná frekvence jevu může nabývat kterékoli hodnoty z konfidenčního intervalu. | Konfidenční interval okolo naměřené (zjištěné) frekvence na hladině významnosti 0,95 říká, že v pokusu, který by zahrnoval nekonečné množství srovnatelných a stejně rozsáhlých korpusů, by frekvence hledaného jevu byla v 95 % měření v rámci tohoto intervalu. Při analýze bychom tedy měli vždy počítat s tím, že reálná frekvence jevu může nabývat kterékoli hodnoty z konfidenčního intervalu. | ||
Řádek 59: | Řádek 59: | ||
=== Příklady === | === Příklady === | ||
- | Když v korpusu o velikosti zhruba 100 mil. slov (např. [[cnk:syn2015|SYN2015]]) naměříme u zkoumaného jevu frekvenci 50 výskytů, je třeba takový výsledek interpretovat tak, že v populaci textů, kterou má tento korpus reprezentovat, | + | Když v korpusu o velikosti zhruba 100 mil. slov (např. [[cnk:syn2020|SYN2020]]) naměříme u zkoumaného jevu frekvenci 50 výskytů, je třeba takový výsledek interpretovat tak, že v populaci textů, kterou má tento korpus reprezentovat, |
Zjistíme-li, | Zjistíme-li, |