Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- pojmy:heaps [2013/07/10 10:18] – cvrcek
+++ pojmy:heaps [2013/09/13 12:01] (aktuální) – Schvaleno pro 1. verzi vaclavcvrcek
@@ Řádek 1: / Řádek 1: @@
 ====== Heapsův zákon ======
-Heapsův zákon popisuje, jak závisí přírůstek [[pojmy:type|typů]] na přírůstku [[pojmy:token|tokenů]] (tzv. token-type ratio, TTR). V podstatě tedy řeší úlohu tohoto typu: jak velký musíme mít korpus, pokud chceme, aby obsahoval nejméně určitý počet různých jednotek.
+Heapsův zákon popisuje, jak závisí přírůstek [[pojmy:typ|typů]] na přírůstku [[pojmy:token|tokenů]] (tzv. token-type ratio, TTR). V podstatě tedy řeší úlohu tohoto typu: jak velký musíme mít korpus, pokud chceme, aby obsahoval nejméně určitý počet různých jednotek.
 Obecný vzorec Heapsova zákona je:
@@ Řádek 7: / Řádek 7: @@
 $V(N) = a \times N^{b}$
-kde //N// je počet tokenů a //V(N)// je velikost slovníku, tj. počet typů na daný počet tokenů. Koeficienty //a// a //b// jsou pro každý jazyk specifické. Koeficient //b// by se měl nacházet zhruba v rozsahu 0,4 < b < 0,6 , koeficient //a// by měl být v rozsahu 10 < a < 100 (pro češtinu jsou tyto původní odhady zjevně příliš úzké).
+kde //N// je počet tokenů a //V(N)// je velikost slovníku, tj. počet typů na daný počet tokenů. Koeficienty //a// a //b// jsou pro každý jazyk specifické. Koeficient //b// by se měl nacházet zhruba v rozsahu 0,4 < b < 0,6; koeficient //a// by měl být v rozsahu 10 < a < 100 (pro češtinu jsou tyto původní odhady zjevně příliš úzké).
 ===== Koeficienty pro češtinu =====
@@ Řádek 21: / Řádek 21: @@
 Oba modely přitom vykazují velmi malou odchylku od reality (viz detail grafu).
-V praxi to znamená, že korpus, který má 120 mil. tokenů - což je případ SYN2000, SYN2005 i SYN2010 po započtení interpunkce jako samostatné pozice -, by měl mít 766 tisíc různých lemmat a 1,596 mil. různých slovních tvarů (SYN2010 má 786 tisíc lemmat a 1,706 mil. tvarů - rozdíl oproti modelu je méně než 2 % a 7 %). Na druhou stranu, slovník, který by měl obsahovat 50 tisíc lemmat (což nelze ztotožňovat s 50 tisíci hesly), by se měl zakládat minimálně na korpusu o velikosti 1,227 mil. tokenů (za nesplnitelného předpokladu, že pro popis je vhodné každé lemma, třeba i proprium a číslo, a postačující je i jen jeden jediný výskyt lemmatu, tedy [[pojmy:hapax|hapax]]; pokud bychom odhadovali počet lemmat použitelných pro slovníkový popis v každém korpusu střízlivě na 20 %, pak by bylo pro 50 tisícový slovník potřeba korpus s alespoň 250 tisíci typy, což odpovídá více než 18 milionům tokenů).
+V praxi to znamená, že korpus, který má 120 mil. tokenů (což je případ [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] i [[cnk:syn2010|SYN2010]] po započtení interpunkce jako samostatné pozice), by měl mít 766 tisíc různých lemmat a 1,596 mil. různých slovních tvarů (SYN2010 má 786 tisíc lemmat a 1,706 mil. tvarů - rozdíl oproti modelu je méně než 2 % a 7 %). Na druhou stranu, slovník, který by měl obsahovat 50 tisíc lemmat (což ovšem nelze ztotožňovat s 50 tisíci hesly), by se měl zakládat minimálně na korpusu o velikosti 1,227 mil. tokenů (za nesplnitelného předpokladu, že pro popis je vhodné každé lemma, třeba i vlastní jméno nebo číslo, a postačující je i jen jeden jediný výskyt lemmatu, tedy [[pojmy:hapax|hapax]]; pokud bychom odhadovali počet lemmat použitelných pro slovníkový popis v každém korpusu střízlivě na 20 %, pak by bylo pro 50tisícový slovník potřeba korpus s alespoň 250 tisíci typy, což odpovídá více než 18 milionům tokenů).
 ==== Postup měření ====
-Aby bylo vůbec možné jakkoli porovnávat výsledky měření koeficientů Heapsova zákona, je třeba se přesně držet stejného postupu. V tomto případě bylo k uvedeným výsledkům dospěno následovně:
+Aby bylo vůbec možné jakkoli porovnávat výsledky měření koeficientů Heapsova zákona, je třeba se přesně držet stejného postupu. V tomto případě jsme k uvedeným výsledkům dospěli následovně:
-  * Korpus SYN (1.3 miliardy slov) byl rozdělen na jednotlivé opusy.
+  * Korpus SYN (1,3 miliardy slov) byl rozdělen na jednotlivé opusy.
   * V náhodně vybrané skupině opusů (vždy o celkové velikosti 140 milionů tokenů) byl měřen počet typů. Výpis byl prováděn vždy po 10 000 tokenech.
   * Celkem bylo provedeno 100 měření na slovních tvarech a 100 měření na lemmatech. Výsledky byly zprůměrovány (aby byl eliminován vliv jednotlivých textů nebo žánrů), takže odhad je zpracován na průměrných hodnotách pro wordy a průměrných hodnotách pro lemmata.
@@ Řádek 35: / Řádek 35: @@
 ===== Token-hapax ratio =====
-Obdobný vztah jako je token-type ratio (TTR), který aproximuje Heapsův zákon, je možné pozorovat i u vztahu mezi přibývajícím počtem [[pojmy:hapax|hapaxů]] v závislosti na zvětšujícím se korpusu. Parametry jsou zde jiné, princip je ovšem stejný.
+Obdobný vztah, jako je token-type ratio (TTR), který aproximuje Heapsův zákon, je možné pozorovat i u vztahu mezi přibývajícím počtem [[pojmy:hapax|hapaxů]] v závislosti na zvětšujícím se korpusu. Parametry jsou zde jiné, princip je ovšem stejný.
-Analogicky k předchozímu měření můžeme zde dospět k následujícím koeficientům pro češtinu:
+Analogicky k předchozímu měření můžeme i zde dospět k následujícím koeficientům pro češtinu:
 Pro hapaxy tvořené lemmaty platí, že $a = 1.6935112$ (!) a $b = 0.6678874$.
@@ Řádek 44: / Řádek 44: @@
 ==== Související odkazy ====
+<WRAP round box 49%>
-[[wp>Heaps'_law|Heapsův zákon na wikipedii]]
+[[wp>Heaps'_law|Heapsův zákon na wikipedii]] • [[pojmy:hapax|Hapax]]
+</WRAP>

Historie: • skript2012 • segmentace

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence