AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
pojmy:frekvence [2016/09/29 17:09] – [Využití a význam frekvence] davidlukespojmy:frekvence [2020/03/02 12:58] – [Využití a význam frekvence] vaclavcvrcek
Řádek 51: Řádek 51:
 Frekvence jako základní veličina libovolné jednotky ([[pojmy:typ|typu]]) a languová (systémová) charakteristika se používá nejen k poměřování mezi alternujícími jevy (např. frekvence morfologických variant //bychom// a //bysme//, viz [[http://syd.korpus.cz/05xNuUX8.syn|SyD]]), ale slouží také ke konstruování slovníků (vymezení nejčetnějších slov jako jádra slovní zásoby), extrakci [[pojmy:kolokace|kolokací]], zhodnocení gramatických kategorií, identifikaci [[pojmy:keyword|klíčových slov]] v textech apod. Frekvence jako základní veličina libovolné jednotky ([[pojmy:typ|typu]]) a languová (systémová) charakteristika se používá nejen k poměřování mezi alternujícími jevy (např. frekvence morfologických variant //bychom// a //bysme//, viz [[http://syd.korpus.cz/05xNuUX8.syn|SyD]]), ale slouží také ke konstruování slovníků (vymezení nejčetnějších slov jako jádra slovní zásoby), extrakci [[pojmy:kolokace|kolokací]], zhodnocení gramatických kategorií, identifikaci [[pojmy:keyword|klíčových slov]] v textech apod.
  
-Pro korektní interpretaci frekvence je třeba si uvědomit, že se jedná o bodový odhad četnosti jevu v celém jazyce. Každý korpus je více či méně přesnou aproximací zkoumané populace (= texty určitého druhu), a tudíž v různých korpusech vytvořených podle téže metodologie (i kdybychom byli schopni zaručit jejich plnou srovnatelnost) se bude frekvence zkoumaného jevu drobně lišit. K podchycení této variability hodnot slouží **[[wp>Confidence_interval|konfidenční intervaly]]**, které udávají, v jakém rozmezí se skutečná četnost zkoumaného jevu v populaci nachází. Pro zjištění konfidenčního intervalu využíváme [[wp>Binomial_distribution|binomické rozdělení]], vstupními hodnotami jsou frekvence jevu, velikost korpusu a hladina významnosti vyjadřující přípustnou míru omylu.+Pro korektní interpretaci frekvence je třeba si uvědomit, že se jedná o bodový odhad četnosti jevu v celém jazyce. Každý korpus je více či méně přesnou aproximací zkoumané populace (= texty určitého druhu), a tudíž v různých korpusech vytvořených podle téže metodologie (i kdybychom byli schopni zaručit jejich plnou srovnatelnost) se bude frekvence zkoumaného jevu drobně lišit. K podchycení této variability hodnot slouží **[[wp>Confidence_interval|konfidenční intervaly]]**, které udávají rozmezí, v němž se skutečná četnost zkoumaného jevu s určitou pravděpodobností v populaci nachází. Pro zjištění konfidenčního intervalu využíváme [[wp>Binomial_distribution|binomické rozdělení]], vstupními hodnotami jsou frekvence jevu, velikost korpusu a hladina významnosti vyjadřující přípustnou míru omylu.
  
-<html> +Pro účely zjištění konfidenčních intervalů můžeme použít např. korpusovou kalkulačku **Calc** ([[https://www.korpus.cz/calc/|www.korpus.cz/calc]]), konkrétně první modul [[https://www.korpus.cz/calc/?module=OwOc|1 slovo v 1 korpusu]].
-<iframe id="embedded-app" src="https://trost.korpus.cz/shiny/cvrcek/confintwiki/" frameborder="0" width="100%"></iframe> +
-<script> +
-(function(+
-  //////////////////////////////////////////// +
-  // CONFIGURE THESE TO MATCH YOUR USE CASE // +
-  ////////////////////////////////////////////+
  
-  // this should be the root URL of the child frame (Shiny appwhich you want +Konfidenční interval okolo naměřené (zjištěnéfrekvence na hladině významnosti 0,95 říká, že v pokusu, který by zahrnoval nekonečné množství srovnatelných a stejně rozsáhlých korpusů, by frekvence hledaného jevu byla v 95 % měření v rámci tohoto intervalu. Při analýze bychom tedy měli vždy počítat s tím, že reálná frekvence jevu může nabývat kterékoli hodnoty z konfidenčního intervalu.
-  // to allow to send messages to the parent +
-  var allowedOrigin = "https://trost.korpus.cz"+
  
-  /////////////////////// +=== Příklady ===
-  // END CONFIGURATION // +
-  ///////////////////////+
  
-  var embeddedApp = document.getElementById("embedded-app");+Když v korpusu o velikosti zhruba 100 milslov (např. [[cnk:syn2015|SYN2015]]naměříme u zkoumaného jevu frekvenci 50 výskytů, je třeba takový výsledek interpretovat tak, že v populaci textů, kterou má tento korpus reprezentovat, se tento jev objevuje v rozmezí od 37 do 66 výskytů na 100 mil. textových slov (s 5% pravděpodobností omylu, tj. s rizikem, že reálný výsledek se bude nacházet vně tohoto intervalu). 
  
-  function resizeIframe(pixels+Zjistíme-li, že se hledaný jev v korpusu (např. v [[cnk:oral2008|ORAL2008]]) vyskytuje právě třikrát, znamená to, že v jiném plně srovnatelném korpusu by tentýž jev mohl nabývat hodnoty až 9 výskytů nebo by v něm nemusel být přítomen vůbec (opět při 5% pravděpodobnosti chyby).((U takto nízkých hodnot záleží rovněž na zvoleném způsobu zaokrouhlování.))
-      embeddedApp.style.height = pixels + "px"; +
-  }+
  
-  // cross-browser compatible infrastructure 
-  var eventMethod = window.addEventListener ? "addEventListener" : "attachEvent"; 
-  var eventer = window[eventMethod]; 
-  var messageEvent = eventMethod == "attachEvent" ? "onmessage" : "message"; 
- 
-  // listen to message from iframe 
-  eventer(messageEvent, function(e) { 
-    if (e.origin === allowedOrigin) { 
-      var key = e.message ? "message" : "data"; 
-      var data = e[key]; 
-      resizeIframe(data); 
-    } else { 
-      console.log("Was expecting a message from " + allowedOrigin + ", got " + e.origin + " instead."); 
-    } 
-  }, false); 
- 
-  // send message to iframe on window resize 
-  window.onresize = function() { 
-    embeddedApp.contentWindow.postMessage("parentWindowResized", "*"); 
-  }; 
-})(); 
-</script> 
-</html> 
- 
-Konfidenční interval okolo naměřené (zjištěné) frekvence na hladině významnosti 95 % říká, že v pokusu, který by zahrnoval nekonečné množství srovnatelných a stejně rozsáhlých korpusů, by frekvence hledaného jevu byla v 95 % měření v rámci tohoto intervalu. Při analýze bychom tedy měli vždy počítat s tím, že frekvence jevu může nabývat kterékoli hodnoty z konfidenčního intervalu. 
 ===== Disperze jevů ===== ===== Disperze jevů =====