Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verze | |||
pojmy:heaps [2013/08/22 18:36] – alzbetavitkova | pojmy:heaps [2013/09/13 12:01] (aktuální) – Schvaleno pro 1. verzi vaclavcvrcek | ||
---|---|---|---|
Řádek 21: | Řádek 21: | ||
Oba modely přitom vykazují velmi malou odchylku od reality (viz detail grafu). | Oba modely přitom vykazují velmi malou odchylku od reality (viz detail grafu). | ||
- | V praxi to znamená, že korpus, který má 120 mil. tokenů (což je případ SYN2000, SYN2005 i SYN2010 po započtení interpunkce jako samostatné pozice), by měl mít 766 tisíc různých lemmat a 1,596 mil. různých slovních tvarů (SYN2010 má 786 tisíc lemmat a 1,706 mil. tvarů - rozdíl oproti modelu je méně než 2 % a 7 %). Na druhou stranu, slovník, který by měl obsahovat 50 tisíc lemmat (což ovšem nelze ztotožňovat s 50 tisíci hesly), by se měl zakládat minimálně na korpusu o velikosti 1,227 mil. tokenů (za nesplnitelného předpokladu, | + | V praxi to znamená, že korpus, který má 120 mil. tokenů (což je případ |
==== Postup měření ==== | ==== Postup měření ==== |