Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- pojmy:frekvence [2013/08/21 18:08] – alzbetavitkova
+++ pojmy:frekvence [2021/02/22 18:36] (aktuální) – [Využití a význam frekvence] dominikakovarikova
@@ Řádek 1: / Řádek 1: @@
 ====== Frekvence ======
-Frekvence v korpusové lingvistice označuje počet výskytů jevu v korpusu, **četnost** formy nebo jevu. Uvádí se buď v **absolutních hodnotách**, např. [[pojmy:lemma|lemma]] //pes// se ve 100 milionovém korpusu [[cnk:syn2010|SYN2010]] vyskytuje 17 701krát, nebo jako údaj **relativní**, např. lemma //pes// se v SYN2010 vyskytuje (po zohlednění rozdílného počtu slov a pozic v korpusu) 145krát na milion slov (používané zkratky jsou **[[pojmy:ipm|ipm]]** = instances per million nebo **ppm** = parts per million nebo ).
+Frekvence v korpusové lingvistice označuje počet výskytů jevu v korpusu, **četnost** formy nebo jevu. Uvádí se buď v **absolutních hodnotách**, např. [[pojmy:lemma|lemma]] //pes// se ve 100 milionovém korpusu [[cnk:syn2020|SYN2020]] vyskytuje 17 026krát, nebo jako údaj **relativní**, např. lemma //pes// se v SYN2020 vyskytuje (po zohlednění rozdílného počtu slov a pozic v korpusu) 140krát na milion slov (používané zkratky jsou **[[pojmy:ipm|ipm]]** = instances per million nebo **ppm** = parts per million nebo ).
 Zatímco absolutní frekvence (tj. prostý počet výskytů slov v korpusu) vyžaduje pro jejich zhodnocení další upřesnění (v podobě celkové velikosti korpusu nebo frekvence jiného jevu pro srovnání), relativní frekvence (tj. absolutní frekvence poměřovaná celkovou délkou korpusu) slouží jako ukazatel četnosti jevu sama o sobě a umožňuje porovnání i mezi korpusy nebo texty nestejné velikosti.
@@ Řádek 21: / Řádek 21: @@
 kde //n// je počet [[pojmy:typ|typů]] v korpusu.
+===== Naměřená a očekávaná frekvence =====
+Vedle hodnot, které v korpusu u jednotlivých jevů zjistíme, se pracuje také s hodnotami, které na základě externích informací (např. předchozích výzkumů prováděných na jiných datech) můžeme v korpusu očekávat. V anglické terminologii jde o rozdíl mezi hodnotami **O** (observed) a **E** (expected). Poměřováním těchto ukazatelů můžeme dospět k zjištění, zda je nebo není zkoumaný jev v korpusu nápadně frekventovaný, což může sloužit k identifikaci některých specifických jevů (např. [[pojmy:kolokace|kolokací]], [[pojmy:keyword|klíčových slov]] apod.).
+Známe-li pravděpodobnost výskytu slova, můžeme pomocí jednoduchého vzorce zjistit, jaká je očekávaná frekvence tohoto slova v korpusu o dané délce.
+$ E = p(A) \times N $
+kde:
+  * //p(A)// je pravděpodobnost slova //A//
+  * //N// je velikost korpusu v počtu [[pojmy:token|tokenů]]
+Pravděpodobnost jevu v populaci všech projevů nikdy přesně nepoznáme, můžeme ji však aproximovat relativní frekvencí zjištěnou v předchozích pozorováních na jiných datech, tedy v jiných korpusech. V korpusu [[cnk:syn2005|SYN2005]] tak např. můžeme zjistit pravděpodobnost výskytu [[pojmy:lemma|lemmatu]] //škola// z jeho frekvence (f = 47872) a z celkové velikosti tohoto korpusu (N = 122419382):
+$ p(\text{škola}) = \frac{f(\text{škola})}{N} = \frac{47872}{122419382} = 0,0003910492 = 3,91 \cdot 10^{-4} $
+Na základě této pravděpodobnosti můžeme vypočíst očekávanou frekvenci lemmatu //škola// v korpusu [[cnk:syn2010|SYN2010]] (N = 121667413).
+$ E(\text{škola}) = p(\text{škola}) \times N = 3,91 \cdot 10^{-4} \times 121667413 = 47577,9 $
+Hledáním v korpusu SYN2010 můžeme snadno zjistit, jaká je reálná naměřená frekvence tohoto lemmatu:
+$ O(\text{škola}) = 51104 $
+Naměřené a očekávané hodnoty pak můžeme porovnávat, např. pomocí [[pojmy:chi2|chi2 testu]].
 ===== Využití a význam frekvence =====
 Frekvence jako základní veličina libovolné jednotky ([[pojmy:typ|typu]]) a languová (systémová) charakteristika se používá nejen k poměřování mezi alternujícími jevy (např. frekvence morfologických variant //bychom// a //bysme//, viz [[http://syd.korpus.cz/05xNuUX8.syn|SyD]]), ale slouží také ke konstruování slovníků (vymezení nejčetnějších slov jako jádra slovní zásoby), extrakci [[pojmy:kolokace|kolokací]], zhodnocení gramatických kategorií, identifikaci [[pojmy:keyword|klíčových slov]] v textech apod.
+Pro korektní interpretaci frekvence je třeba si uvědomit, že se jedná o bodový odhad četnosti jevu v celém jazyce. Každý korpus je více či méně přesnou aproximací zkoumané populace (= texty určitého druhu), a tudíž v různých korpusech vytvořených podle téže metodologie (i kdybychom byli schopni zaručit jejich plnou srovnatelnost) se bude frekvence zkoumaného jevu drobně lišit. K podchycení této variability hodnot slouží **[[wp>Confidence_interval|konfidenční intervaly]]**, které udávají rozmezí, v němž se skutečná četnost zkoumaného jevu s určitou pravděpodobností v populaci nachází. Pro zjištění konfidenčního intervalu využíváme [[wp>Binomial_distribution|binomické rozdělení]], vstupními hodnotami jsou frekvence jevu, velikost korpusu a hladina významnosti vyjadřující přípustnou míru omylu.
+Pro účely zjištění konfidenčních intervalů můžeme použít např. korpusovou kalkulačku **Calc** ([[https://www.korpus.cz/calc/|www.korpus.cz/calc]]), konkrétně první modul [[https://www.korpus.cz/calc/?module=OwOc|1 slovo v 1 korpusu]].
+Konfidenční interval okolo naměřené (zjištěné) frekvence na hladině významnosti 0,95 říká, že v pokusu, který by zahrnoval nekonečné množství srovnatelných a stejně rozsáhlých korpusů, by frekvence hledaného jevu byla v 95 % měření v rámci tohoto intervalu. Při analýze bychom tedy měli vždy počítat s tím, že reálná frekvence jevu může nabývat kterékoli hodnoty z konfidenčního intervalu.
+=== Příklady ===
+Když v korpusu o velikosti zhruba 100 mil. slov (např. [[cnk:syn2020|SYN2020]]) naměříme u zkoumaného jevu frekvenci 50 výskytů, je třeba takový výsledek interpretovat tak, že v populaci textů, kterou má tento korpus reprezentovat, se tento jev objevuje v rozmezí od 37 do 66 výskytů na 100 mil. textových slov (s 5% pravděpodobností omylu, tj. s rizikem, že reálný výsledek se bude nacházet vně tohoto intervalu).
+Zjistíme-li, že se hledaný jev v korpusu (např. v [[cnk:oral2008|ORAL2008]]) vyskytuje právě třikrát, znamená to, že v jiném plně srovnatelném korpusu by tentýž jev mohl nabývat hodnoty až 9 výskytů nebo by v něm nemusel být přítomen vůbec (opět při 5% pravděpodobnosti chyby).((U takto nízkých hodnot záleží rovněž na zvoleném způsobu zaokrouhlování.))
 ===== Disperze jevů =====
@@ Řádek 30: / Řádek 68: @@
 ==== Související odkazy ====
 <WRAP round box 49%>
 [[pojmy:arf|ARF]] • [[pojmy:asociacni_miry|Asociační míry]] • [[pojmy:ipm|ipm]] • [[pojmy:zipf|Zipfovy zákony]]
 </WRAP>

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence