Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
pojmy:frekvence [2013/09/18 10:50] – [Naměřená a očekávaná frekvence] Václav Cvrček | pojmy:frekvence [2021/02/22 18:36] (aktuální) – [Využití a význam frekvence] Dominika Kováříková | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Frekvence ====== | ====== Frekvence ====== | ||
- | Frekvence v korpusové lingvistice označuje počet výskytů jevu v korpusu, **četnost** formy nebo jevu. Uvádí se buď v **absolutních hodnotách**, | + | Frekvence v korpusové lingvistice označuje počet výskytů jevu v korpusu, **četnost** formy nebo jevu. Uvádí se buď v **absolutních hodnotách**, |
Zatímco absolutní frekvence (tj. prostý počet výskytů slov v korpusu) vyžaduje pro jejich zhodnocení další upřesnění (v podobě celkové velikosti korpusu nebo frekvence jiného jevu pro srovnání), | Zatímco absolutní frekvence (tj. prostý počet výskytů slov v korpusu) vyžaduje pro jejich zhodnocení další upřesnění (v podobě celkové velikosti korpusu nebo frekvence jiného jevu pro srovnání), | ||
Řádek 36: | Řádek 36: | ||
Pravděpodobnost jevu v populaci všech projevů nikdy přesně nepoznáme, můžeme ji však aproximovat relativní frekvencí zjištěnou v předchozích pozorováních na jiných datech, tedy v jiných korpusech. V korpusu [[cnk: | Pravděpodobnost jevu v populaci všech projevů nikdy přesně nepoznáme, můžeme ji však aproximovat relativní frekvencí zjištěnou v předchozích pozorováních na jiných datech, tedy v jiných korpusech. V korpusu [[cnk: | ||
- | $ p(škola) = \frac{f(škola)}{N} = \frac{47872}{122419382} = 0, | + | $ p(\text{škola}) = \frac{f(\text{škola})}{N} = \frac{47872}{122419382} = 0, |
Na základě této pravděpodobnosti můžeme vypočíst očekávanou frekvenci lemmatu //škola// v korpusu [[cnk: | Na základě této pravděpodobnosti můžeme vypočíst očekávanou frekvenci lemmatu //škola// v korpusu [[cnk: | ||
- | $ E(škola) = p(škola) \times N = 3,91 \cdot 10^{-4} \times 121667413 = 47577,9 $ | + | $ E(\text{škola}) = p(\text{škola}) \times N = 3,91 \cdot 10^{-4} \times 121667413 = 47577,9 $ |
Hledáním v korpusu SYN2010 můžeme snadno zjistit, jaká je reálná naměřená frekvence tohoto lemmatu: | Hledáním v korpusu SYN2010 můžeme snadno zjistit, jaká je reálná naměřená frekvence tohoto lemmatu: | ||
- | $ O(škola) = 51104 $ | + | $ O(\text{škola}) = 51104 $ |
Naměřené a očekávané hodnoty pak můžeme porovnávat, | Naměřené a očekávané hodnoty pak můžeme porovnávat, | ||
Řádek 50: | Řádek 50: | ||
Frekvence jako základní veličina libovolné jednotky ([[pojmy: | Frekvence jako základní veličina libovolné jednotky ([[pojmy: | ||
+ | |||
+ | Pro korektní interpretaci frekvence je třeba si uvědomit, že se jedná o bodový odhad četnosti jevu v celém jazyce. Každý korpus je více či méně přesnou aproximací zkoumané populace (= texty určitého druhu), a tudíž v různých korpusech vytvořených podle téže metodologie (i kdybychom byli schopni zaručit jejich plnou srovnatelnost) se bude frekvence zkoumaného jevu drobně lišit. K podchycení této variability hodnot slouží **[[wp> | ||
+ | |||
+ | Pro účely zjištění konfidenčních intervalů můžeme použít např. korpusovou kalkulačku **Calc** ([[https:// | ||
+ | |||
+ | Konfidenční interval okolo naměřené (zjištěné) frekvence na hladině významnosti 0,95 říká, že v pokusu, který by zahrnoval nekonečné množství srovnatelných a stejně rozsáhlých korpusů, by frekvence hledaného jevu byla v 95 % měření v rámci tohoto intervalu. Při analýze bychom tedy měli vždy počítat s tím, že reálná frekvence jevu může nabývat kterékoli hodnoty z konfidenčního intervalu. | ||
+ | |||
+ | === Příklady === | ||
+ | |||
+ | Když v korpusu o velikosti zhruba 100 mil. slov (např. [[cnk: | ||
+ | |||
+ | Zjistíme-li, | ||
===== Disperze jevů ===== | ===== Disperze jevů ===== | ||
Řádek 56: | Řádek 68: | ||
==== Související odkazy ==== | ==== Související odkazy ==== | ||
+ | |||
<WRAP round box 49%> | <WRAP round box 49%> | ||
[[pojmy: | [[pojmy: | ||
</ | </ |