Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
pojmy:frekvence [2013/09/18 10:51] – [Naměřená a očekávaná frekvence] vaclavcvrcek | pojmy:frekvence [2020/03/02 12:58] – [Využití a význam frekvence] vaclavcvrcek |
---|
| |
Frekvence jako základní veličina libovolné jednotky ([[pojmy:typ|typu]]) a languová (systémová) charakteristika se používá nejen k poměřování mezi alternujícími jevy (např. frekvence morfologických variant //bychom// a //bysme//, viz [[http://syd.korpus.cz/05xNuUX8.syn|SyD]]), ale slouží také ke konstruování slovníků (vymezení nejčetnějších slov jako jádra slovní zásoby), extrakci [[pojmy:kolokace|kolokací]], zhodnocení gramatických kategorií, identifikaci [[pojmy:keyword|klíčových slov]] v textech apod. | Frekvence jako základní veličina libovolné jednotky ([[pojmy:typ|typu]]) a languová (systémová) charakteristika se používá nejen k poměřování mezi alternujícími jevy (např. frekvence morfologických variant //bychom// a //bysme//, viz [[http://syd.korpus.cz/05xNuUX8.syn|SyD]]), ale slouží také ke konstruování slovníků (vymezení nejčetnějších slov jako jádra slovní zásoby), extrakci [[pojmy:kolokace|kolokací]], zhodnocení gramatických kategorií, identifikaci [[pojmy:keyword|klíčových slov]] v textech apod. |
| |
| Pro korektní interpretaci frekvence je třeba si uvědomit, že se jedná o bodový odhad četnosti jevu v celém jazyce. Každý korpus je více či méně přesnou aproximací zkoumané populace (= texty určitého druhu), a tudíž v různých korpusech vytvořených podle téže metodologie (i kdybychom byli schopni zaručit jejich plnou srovnatelnost) se bude frekvence zkoumaného jevu drobně lišit. K podchycení této variability hodnot slouží **[[wp>Confidence_interval|konfidenční intervaly]]**, které udávají rozmezí, v němž se skutečná četnost zkoumaného jevu s určitou pravděpodobností v populaci nachází. Pro zjištění konfidenčního intervalu využíváme [[wp>Binomial_distribution|binomické rozdělení]], vstupními hodnotami jsou frekvence jevu, velikost korpusu a hladina významnosti vyjadřující přípustnou míru omylu. |
| |
| Pro účely zjištění konfidenčních intervalů můžeme použít např. korpusovou kalkulačku **Calc** ([[https://www.korpus.cz/calc/|www.korpus.cz/calc]]), konkrétně první modul [[https://www.korpus.cz/calc/?module=OwOc|1 slovo v 1 korpusu]]. |
| |
| Konfidenční interval okolo naměřené (zjištěné) frekvence na hladině významnosti 0,95 říká, že v pokusu, který by zahrnoval nekonečné množství srovnatelných a stejně rozsáhlých korpusů, by frekvence hledaného jevu byla v 95 % měření v rámci tohoto intervalu. Při analýze bychom tedy měli vždy počítat s tím, že reálná frekvence jevu může nabývat kterékoli hodnoty z konfidenčního intervalu. |
| |
| === Příklady === |
| |
| Když v korpusu o velikosti zhruba 100 mil. slov (např. [[cnk:syn2015|SYN2015]]) naměříme u zkoumaného jevu frekvenci 50 výskytů, je třeba takový výsledek interpretovat tak, že v populaci textů, kterou má tento korpus reprezentovat, se tento jev objevuje v rozmezí od 37 do 66 výskytů na 100 mil. textových slov (s 5% pravděpodobností omylu, tj. s rizikem, že reálný výsledek se bude nacházet vně tohoto intervalu). |
| |
| Zjistíme-li, že se hledaný jev v korpusu (např. v [[cnk:oral2008|ORAL2008]]) vyskytuje právě třikrát, znamená to, že v jiném plně srovnatelném korpusu by tentýž jev mohl nabývat hodnoty až 9 výskytů nebo by v něm nemusel být přítomen vůbec (opět při 5% pravděpodobnosti chyby).((U takto nízkých hodnot záleží rovněž na zvoleném způsobu zaokrouhlování.)) |
| |
===== Disperze jevů ===== | ===== Disperze jevů ===== |
| |
==== Související odkazy ==== | ==== Související odkazy ==== |
| |
<WRAP round box 49%> | <WRAP round box 49%> |
[[pojmy:arf|ARF]] • [[pojmy:asociacni_miry|Asociační míry]] • [[pojmy:ipm|ipm]] • [[pojmy:zipf|Zipfovy zákony]] | [[pojmy:arf|ARF]] • [[pojmy:asociacni_miry|Asociační míry]] • [[pojmy:ipm|ipm]] • [[pojmy:zipf|Zipfovy zákony]] |
</WRAP> | </WRAP> |