Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
pojmy:frekvence [2013/08/21 18:08] – alzbetavitkova | pojmy:frekvence [2021/02/22 18:36] (aktuální) – [Využití a význam frekvence] dominikakovarikova | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Frekvence ====== | ====== Frekvence ====== | ||
- | Frekvence v korpusové lingvistice označuje počet výskytů jevu v korpusu, **četnost** formy nebo jevu. Uvádí se buď v **absolutních hodnotách**, | + | Frekvence v korpusové lingvistice označuje počet výskytů jevu v korpusu, **četnost** formy nebo jevu. Uvádí se buď v **absolutních hodnotách**, |
Zatímco absolutní frekvence (tj. prostý počet výskytů slov v korpusu) vyžaduje pro jejich zhodnocení další upřesnění (v podobě celkové velikosti korpusu nebo frekvence jiného jevu pro srovnání), | Zatímco absolutní frekvence (tj. prostý počet výskytů slov v korpusu) vyžaduje pro jejich zhodnocení další upřesnění (v podobě celkové velikosti korpusu nebo frekvence jiného jevu pro srovnání), | ||
Řádek 21: | Řádek 21: | ||
kde //n// je počet [[pojmy: | kde //n// je počet [[pojmy: | ||
+ | ===== Naměřená a očekávaná frekvence ===== | ||
+ | |||
+ | Vedle hodnot, které v korpusu u jednotlivých jevů zjistíme, se pracuje také s hodnotami, které na základě externích informací (např. předchozích výzkumů prováděných na jiných datech) můžeme v korpusu očekávat. V anglické terminologii jde o rozdíl mezi hodnotami **O** (observed) a **E** (expected). Poměřováním těchto ukazatelů můžeme dospět k zjištění, | ||
+ | |||
+ | Známe-li pravděpodobnost výskytu slova, můžeme pomocí jednoduchého vzorce zjistit, jaká je očekávaná frekvence tohoto slova v korpusu o dané délce. | ||
+ | |||
+ | $ E = p(A) \times N $ | ||
+ | |||
+ | kde: | ||
+ | |||
+ | * //p(A)// je pravděpodobnost slova //A// | ||
+ | * //N// je velikost korpusu v počtu [[pojmy: | ||
+ | |||
+ | Pravděpodobnost jevu v populaci všech projevů nikdy přesně nepoznáme, můžeme ji však aproximovat relativní frekvencí zjištěnou v předchozích pozorováních na jiných datech, tedy v jiných korpusech. V korpusu [[cnk: | ||
+ | |||
+ | $ p(\text{škola}) = \frac{f(\text{škola})}{N} = \frac{47872}{122419382} = 0, | ||
+ | |||
+ | Na základě této pravděpodobnosti můžeme vypočíst očekávanou frekvenci lemmatu //škola// v korpusu [[cnk: | ||
+ | |||
+ | $ E(\text{škola}) = p(\text{škola}) \times N = 3,91 \cdot 10^{-4} \times 121667413 = 47577,9 $ | ||
+ | |||
+ | Hledáním v korpusu SYN2010 můžeme snadno zjistit, jaká je reálná naměřená frekvence tohoto lemmatu: | ||
+ | |||
+ | $ O(\text{škola}) = 51104 $ | ||
+ | |||
+ | Naměřené a očekávané hodnoty pak můžeme porovnávat, | ||
===== Využití a význam frekvence ===== | ===== Využití a význam frekvence ===== | ||
Frekvence jako základní veličina libovolné jednotky ([[pojmy: | Frekvence jako základní veličina libovolné jednotky ([[pojmy: | ||
+ | |||
+ | Pro korektní interpretaci frekvence je třeba si uvědomit, že se jedná o bodový odhad četnosti jevu v celém jazyce. Každý korpus je více či méně přesnou aproximací zkoumané populace (= texty určitého druhu), a tudíž v různých korpusech vytvořených podle téže metodologie (i kdybychom byli schopni zaručit jejich plnou srovnatelnost) se bude frekvence zkoumaného jevu drobně lišit. K podchycení této variability hodnot slouží **[[wp> | ||
+ | |||
+ | Pro účely zjištění konfidenčních intervalů můžeme použít např. korpusovou kalkulačku **Calc** ([[https:// | ||
+ | |||
+ | Konfidenční interval okolo naměřené (zjištěné) frekvence na hladině významnosti 0,95 říká, že v pokusu, který by zahrnoval nekonečné množství srovnatelných a stejně rozsáhlých korpusů, by frekvence hledaného jevu byla v 95 % měření v rámci tohoto intervalu. Při analýze bychom tedy měli vždy počítat s tím, že reálná frekvence jevu může nabývat kterékoli hodnoty z konfidenčního intervalu. | ||
+ | |||
+ | === Příklady === | ||
+ | |||
+ | Když v korpusu o velikosti zhruba 100 mil. slov (např. [[cnk: | ||
+ | |||
+ | Zjistíme-li, | ||
===== Disperze jevů ===== | ===== Disperze jevů ===== | ||
Řádek 30: | Řádek 68: | ||
==== Související odkazy ==== | ==== Související odkazy ==== | ||
+ | |||
<WRAP round box 49%> | <WRAP round box 49%> | ||
[[pojmy: | [[pojmy: | ||
</ | </ |