AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
cnk:intercorp:historie [2024/10/01 10:29] – [Verze 16] alexandrrosencnk:intercorp:historie [2024/10/01 10:33] (aktuální) – [Verze 16ud] alexandrrosen
Řádek 7: Řádek 7:
 == Data: == == Data: ==
   * obsahuje stejné texty jako verze 16   * obsahuje stejné texty jako verze 16
-  * lingvistická anotace +  * liší se hlavně v jednotné lingvistické anotaci všech jazyků podle standardu Universal Dependencies (viz verze 13ud
-  * stalo se to hlavně díky aktualizaci balíčku Subtitles, který teď obsahuje 4 001 mil. slov +  * u každé věty textu jsou nově jako metadata uvedeny také míry syntaktické komplexityu každého textu i míry lexikální diverzity 
-  * Subtitles a tím pádem i celém korpusu přibylo i 20 nových jazyků – korpus teď obsahuje celkem 62 jazyků (včetně češtiny+  * [[cnk:intercorp:verze16ud|Informace o korpusu]]
-  * počet slov cizojazyčných textech je celkem 4 893 mil., z toho 387 mil. jádro 4 506 mil. kolekce +
-  * počet slov v českých textech celkem je 398 mil.z toho 125 mil. jádro a 273 mil. kolekce +
-  * [[cnk:intercorp:verze16|Informace o korpusu]]+