AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Lexikální diverzita

  • InterCorp je ve verzi 16ud anotován dvěma mírami lexikální diverzity. Tyto míry se uvádějí jako metadata pro každý dostatečně dlouhý text v každém jazykovém anotovaném jazyce:
    • lexDivWord: průměrný počet různých tvarů slov na 1000 tokenů
    • lexDivLemma: průměrný počet různých lemmat na 1000 tokenů
  • Míry jsou založeny na metrice type-token ratio (poměr typů a tokenů). Ukazují průměrný počet různých typů (tvarů slov nebo lemat) v pohyblivém okně 1000 tokenů. Interpunkce se ignoruje.
  • Pokud má text méně než 1000 tokenů, míry nejsou definovány a hodnota obou atributů se rovná znaku podtržítka (_).
  • U jazyků bez lingvistické anotace je uvedena pouze míra počítající tvary slov (lexDivWord). U takových jazyků vychází výpočet z tokenů, nikoli ze slov, interpunkce se tedy počítá také. Proto mohou být hodnoty lexDivWord nižší, než by odpovídalo jiným textům v jazycích s lingvistickou anotací.
  • V KonTextu lze míry zobrazovat a v dotazech uvádět stejně jako jakékoli jiná metadata o textu, např. autor nebo ID textu.

Průměrné hodnoty pro všechny kombinace jazyka a typu textu v InterCorpu v16ud jsou zobrazeny v tabulce Podrobné statistiky.

Odkazy

Olga Nádvorníková a Alexandr Rosen: Vyhledávání v paralelním korpusu za použití anotace Universal Dependencies. Záznam workshopu z 17.9.2024, doprovodné akce Bienále české lingvistiky 2024, viz též prezentace

Olga Nádvorníková a Alexandr Rosen:InterCorp a Universal Dependencies: nové možnosti výzkumu (workshop 20. a 27. 3. 2024 v rámci Teoreticko-metodologického semináře Ústavu českého jazyka a teorie komunikace)

Alexandr Rosen: Exploring InterCorp v16ud: the potential of a multilingual parallel treebank with complexity and diversity metrics (slides from the seminar at the University of Warsaw, 10 July 2024)