====== Lexikální diverzita ======

  * InterCorp je ve verzi 16ud anotován dvěma mírami lexikální diverzity. Tyto míry se uvádějí jako metadata pro každý dostatečně dlouhý text v každém jazykovém anotovaném jazyce:
    * **lexDivWord**: průměrný počet různých tvarů slov na 1000 tokenů
    * **lexDivLemma**: průměrný počet různých lemmat na 1000 tokenů
  * Míry jsou založeny na metrice type-token ratio (poměr typů a tokenů). Ukazují průměrný počet různých typů (tvarů slov nebo lemat) v pohyblivém okně 1000 tokenů. Interpunkce se ignoruje.
  * Pokud má text méně než 1000 tokenů, míry nejsou definovány a hodnota obou atributů se rovná znaku podtržítka (''_'').
  * U jazyků bez lingvistické anotace je uvedena pouze míra počítající tvary slov (''lexDivWord''). U takových jazyků vychází výpočet z tokenů, nikoli ze slov, interpunkce se tedy počítá také. Proto mohou být hodnoty ''lexDivWord'' nižší, než by odpovídalo jiným textům v jazycích s lingvistickou anotací.
  * V KonTextu lze míry zobrazovat a v dotazech uvádět stejně jako jakékoli jiná metadata o textu, např. autor nebo ID textu.
Průměrné hodnoty pro všechny kombinace jazyka a typu textu v InterCorpu v16ud jsou zobrazeny v tabulce [[https://wiki.korpus.cz/doku.php/cnk:intercorp
#detailed_statistics|Podrobné statistiky]].
  * Viz také [[https://wiki.korpus.cz/doku.php/pojmy:syntakticka_komplexita#syntakticka_komplexita|míry syntaktické komplexity]].

===== Odkazy =====