Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- pojmy:frekvence [2013/09/18 10:38] – [Naměřená a očekávaná frekvence] vaclavcvrcek
+++ pojmy:frekvence [2020/03/02 12:58] – [Využití a význam frekvence] vaclavcvrcek
@@ Řádek 36: / Řádek 36: @@
 Pravděpodobnost jevu v populaci všech projevů nikdy přesně nepoznáme, můžeme ji však aproximovat relativní frekvencí zjištěnou v předchozích pozorováních na jiných datech, tedy v jiných korpusech. V korpusu [[cnk:syn2005|SYN2005]] tak např. můžeme zjistit pravděpodobnost výskytu [[pojmy:lemma|lemmatu]] //škola// z jeho frekvence (f = 47872) a z celkové velikosti tohoto korpusu (N = 122419382):
-$ p(škola) = \frac{f(škola)}{N} = \frac{47872}{122419382} = 0,0003910492 = 3,91E-4 $
+$ p(\text{škola}) = \frac{f(\text{škola})}{N} = \frac{47872}{122419382} = 0,0003910492 = 3,91 \cdot 10^{-4} $
 Na základě této pravděpodobnosti můžeme vypočíst očekávanou frekvenci lemmatu //škola// v korpusu [[cnk:syn2010|SYN2010]] (N = 121667413).
-$ E(škola) = p(škola) \times N = 3,91E-4 \times 121667413 = 47577,9 $
+$ E(\text{škola}) = p(\text{škola}) \times N = 3,91 \cdot 10^{-4} \times 121667413 = 47577,9 $
-Hledáním v korpusu SYN2010 můžeme snadnop zjistit, jaká je reálná naměřená frekvence tohoto lemmatu:
+Hledáním v korpusu SYN2010 můžeme snadno zjistit, jaká je reálná naměřená frekvence tohoto lemmatu:
-$ O(škola) = 51104 $
+$ O(\text{škola}) = 51104 $
-Naměřené a očekávané hodnoty pak můžeme porovnávat, např. pomocí [[pojmy:chi2|chi2 testu]]. V korpusu SYN2010 se naměřená frekvence lemmatu //škola// od vypočtené očekávané frekvence příliš neliší.
+Naměřené a očekávané hodnoty pak můžeme porovnávat, např. pomocí [[pojmy:chi2|chi2 testu]].
 ===== Využití a význam frekvence =====
 Frekvence jako základní veličina libovolné jednotky ([[pojmy:typ|typu]]) a languová (systémová) charakteristika se používá nejen k poměřování mezi alternujícími jevy (např. frekvence morfologických variant //bychom// a //bysme//, viz [[http://syd.korpus.cz/05xNuUX8.syn|SyD]]), ale slouží také ke konstruování slovníků (vymezení nejčetnějších slov jako jádra slovní zásoby), extrakci [[pojmy:kolokace|kolokací]], zhodnocení gramatických kategorií, identifikaci [[pojmy:keyword|klíčových slov]] v textech apod.
+Pro korektní interpretaci frekvence je třeba si uvědomit, že se jedná o bodový odhad četnosti jevu v celém jazyce. Každý korpus je více či méně přesnou aproximací zkoumané populace (= texty určitého druhu), a tudíž v různých korpusech vytvořených podle téže metodologie (i kdybychom byli schopni zaručit jejich plnou srovnatelnost) se bude frekvence zkoumaného jevu drobně lišit. K podchycení této variability hodnot slouží **[[wp>Confidence_interval|konfidenční intervaly]]**, které udávají rozmezí, v němž se skutečná četnost zkoumaného jevu s určitou pravděpodobností v populaci nachází. Pro zjištění konfidenčního intervalu využíváme [[wp>Binomial_distribution|binomické rozdělení]], vstupními hodnotami jsou frekvence jevu, velikost korpusu a hladina významnosti vyjadřující přípustnou míru omylu.
+Pro účely zjištění konfidenčních intervalů můžeme použít např. korpusovou kalkulačku **Calc** ([[https://www.korpus.cz/calc/|www.korpus.cz/calc]]), konkrétně první modul [[https://www.korpus.cz/calc/?module=OwOc|1 slovo v 1 korpusu]].
+Konfidenční interval okolo naměřené (zjištěné) frekvence na hladině významnosti 0,95 říká, že v pokusu, který by zahrnoval nekonečné množství srovnatelných a stejně rozsáhlých korpusů, by frekvence hledaného jevu byla v 95 % měření v rámci tohoto intervalu. Při analýze bychom tedy měli vždy počítat s tím, že reálná frekvence jevu může nabývat kterékoli hodnoty z konfidenčního intervalu.
+=== Příklady ===
+Když v korpusu o velikosti zhruba 100 mil. slov (např. [[cnk:syn2015|SYN2015]]) naměříme u zkoumaného jevu frekvenci 50 výskytů, je třeba takový výsledek interpretovat tak, že v populaci textů, kterou má tento korpus reprezentovat, se tento jev objevuje v rozmezí od 37 do 66 výskytů na 100 mil. textových slov (s 5% pravděpodobností omylu, tj. s rizikem, že reálný výsledek se bude nacházet vně tohoto intervalu).
+Zjistíme-li, že se hledaný jev v korpusu (např. v [[cnk:oral2008|ORAL2008]]) vyskytuje právě třikrát, znamená to, že v jiném plně srovnatelném korpusu by tentýž jev mohl nabývat hodnoty až 9 výskytů nebo by v něm nemusel být přítomen vůbec (opět při 5% pravděpodobnosti chyby).((U takto nízkých hodnot záleží rovněž na zvoleném způsobu zaokrouhlování.))
 ===== Disperze jevů =====
@@ Řádek 57: / Řádek 68: @@
 ==== Související odkazy ====
 <WRAP round box 49%>
 [[pojmy:arf|ARF]] • [[pojmy:asociacni_miry|Asociační míry]] • [[pojmy:ipm|ipm]] • [[pojmy:zipf|Zipfovy zákony]]
 </WRAP>

Historie: • slovesa_castecna_paradigmata_zvlastni_sublemmata • ortofon • prace • lemmatizace • cermak • kwords • nastroje • novy_dotaz • uvod • index

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence