AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
pojmy:frekvence [2013/09/18 10:38] – [Naměřená a očekávaná frekvence] vaclavcvrcekpojmy:frekvence [2020/03/02 12:58] – [Využití a význam frekvence] vaclavcvrcek
Řádek 36: Řádek 36:
 Pravděpodobnost jevu v populaci všech projevů nikdy přesně nepoznáme, můžeme ji však aproximovat relativní frekvencí zjištěnou v předchozích pozorováních na jiných datech, tedy v jiných korpusech. V korpusu [[cnk:syn2005|SYN2005]] tak např. můžeme zjistit pravděpodobnost výskytu [[pojmy:lemma|lemmatu]] //škola// z jeho frekvence (f = 47872) a z celkové velikosti tohoto korpusu (N = 122419382): Pravděpodobnost jevu v populaci všech projevů nikdy přesně nepoznáme, můžeme ji však aproximovat relativní frekvencí zjištěnou v předchozích pozorováních na jiných datech, tedy v jiných korpusech. V korpusu [[cnk:syn2005|SYN2005]] tak např. můžeme zjistit pravděpodobnost výskytu [[pojmy:lemma|lemmatu]] //škola// z jeho frekvence (f = 47872) a z celkové velikosti tohoto korpusu (N = 122419382):
  
-$ p(škola) = \frac{f(škola)}{N} = \frac{47872}{122419382} = 0,0003910492 = 3,91E-4 $+$ p(\text{škola}) = \frac{f(\text{škola})}{N} = \frac{47872}{122419382} = 0,0003910492 = 3,91 \cdot 10^{-4$
  
 Na základě této pravděpodobnosti můžeme vypočíst očekávanou frekvenci lemmatu //škola// v korpusu [[cnk:syn2010|SYN2010]] (N = 121667413). Na základě této pravděpodobnosti můžeme vypočíst očekávanou frekvenci lemmatu //škola// v korpusu [[cnk:syn2010|SYN2010]] (N = 121667413).
  
-$ E(škola) = p(škola) \times N = 3,91E-4 \times 121667413 = 47577,9 $+$ E(\text{škola}) = p(\text{škola}) \times N = 3,91 \cdot 10^{-4\times 121667413 = 47577,9 $
  
-Hledáním v korpusu SYN2010 můžeme snadnop zjistit, jaká je reálná naměřená frekvence tohoto lemmatu:+Hledáním v korpusu SYN2010 můžeme snadno zjistit, jaká je reálná naměřená frekvence tohoto lemmatu:
  
-$ O(škola) = 51104 $ +$ O(\text{škola}) = 51104 $
- +
-Naměřené a očekávané hodnoty pak můžeme porovnávat, např. pomocí [[pojmy:chi2|chi2 testu]]. V korpusu SYN2010 se naměřená frekvence lemmatu //škola// od vypočtené očekávané frekvence příliš neliší.+
  
 +Naměřené a očekávané hodnoty pak můžeme porovnávat, např. pomocí [[pojmy:chi2|chi2 testu]]. 
 ===== Využití a význam frekvence ===== ===== Využití a význam frekvence =====
  
 Frekvence jako základní veličina libovolné jednotky ([[pojmy:typ|typu]]) a languová (systémová) charakteristika se používá nejen k poměřování mezi alternujícími jevy (např. frekvence morfologických variant //bychom// a //bysme//, viz [[http://syd.korpus.cz/05xNuUX8.syn|SyD]]), ale slouží také ke konstruování slovníků (vymezení nejčetnějších slov jako jádra slovní zásoby), extrakci [[pojmy:kolokace|kolokací]], zhodnocení gramatických kategorií, identifikaci [[pojmy:keyword|klíčových slov]] v textech apod. Frekvence jako základní veličina libovolné jednotky ([[pojmy:typ|typu]]) a languová (systémová) charakteristika se používá nejen k poměřování mezi alternujícími jevy (např. frekvence morfologických variant //bychom// a //bysme//, viz [[http://syd.korpus.cz/05xNuUX8.syn|SyD]]), ale slouží také ke konstruování slovníků (vymezení nejčetnějších slov jako jádra slovní zásoby), extrakci [[pojmy:kolokace|kolokací]], zhodnocení gramatických kategorií, identifikaci [[pojmy:keyword|klíčových slov]] v textech apod.
 +
 +Pro korektní interpretaci frekvence je třeba si uvědomit, že se jedná o bodový odhad četnosti jevu v celém jazyce. Každý korpus je více či méně přesnou aproximací zkoumané populace (= texty určitého druhu), a tudíž v různých korpusech vytvořených podle téže metodologie (i kdybychom byli schopni zaručit jejich plnou srovnatelnost) se bude frekvence zkoumaného jevu drobně lišit. K podchycení této variability hodnot slouží **[[wp>Confidence_interval|konfidenční intervaly]]**, které udávají rozmezí, v němž se skutečná četnost zkoumaného jevu s určitou pravděpodobností v populaci nachází. Pro zjištění konfidenčního intervalu využíváme [[wp>Binomial_distribution|binomické rozdělení]], vstupními hodnotami jsou frekvence jevu, velikost korpusu a hladina významnosti vyjadřující přípustnou míru omylu.
 +
 +Pro účely zjištění konfidenčních intervalů můžeme použít např. korpusovou kalkulačku **Calc** ([[https://www.korpus.cz/calc/|www.korpus.cz/calc]]), konkrétně první modul [[https://www.korpus.cz/calc/?module=OwOc|1 slovo v 1 korpusu]].
 +
 +Konfidenční interval okolo naměřené (zjištěné) frekvence na hladině významnosti 0,95 říká, že v pokusu, který by zahrnoval nekonečné množství srovnatelných a stejně rozsáhlých korpusů, by frekvence hledaného jevu byla v 95 % měření v rámci tohoto intervalu. Při analýze bychom tedy měli vždy počítat s tím, že reálná frekvence jevu může nabývat kterékoli hodnoty z konfidenčního intervalu.
 +
 +=== Příklady ===
 +
 +Když v korpusu o velikosti zhruba 100 mil. slov (např. [[cnk:syn2015|SYN2015]]) naměříme u zkoumaného jevu frekvenci 50 výskytů, je třeba takový výsledek interpretovat tak, že v populaci textů, kterou má tento korpus reprezentovat, se tento jev objevuje v rozmezí od 37 do 66 výskytů na 100 mil. textových slov (s 5% pravděpodobností omylu, tj. s rizikem, že reálný výsledek se bude nacházet vně tohoto intervalu). 
 +
 +Zjistíme-li, že se hledaný jev v korpusu (např. v [[cnk:oral2008|ORAL2008]]) vyskytuje právě třikrát, znamená to, že v jiném plně srovnatelném korpusu by tentýž jev mohl nabývat hodnoty až 9 výskytů nebo by v něm nemusel být přítomen vůbec (opět při 5% pravděpodobnosti chyby).((U takto nízkých hodnot záleží rovněž na zvoleném způsobu zaokrouhlování.))
  
 ===== Disperze jevů ===== ===== Disperze jevů =====
Řádek 57: Řádek 68:
  
 ==== Související odkazy ==== ==== Související odkazy ====
 +
 <WRAP round box 49%> <WRAP round box 49%>
 [[pojmy:arf|ARF]] • [[pojmy:asociacni_miry|Asociační míry]] • [[pojmy:ipm|ipm]] • [[pojmy:zipf|Zipfovy zákony]] [[pojmy:arf|ARF]] • [[pojmy:asociacni_miry|Asociační míry]] • [[pojmy:ipm|ipm]] • [[pojmy:zipf|Zipfovy zákony]]
 </WRAP> </WRAP>