AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:historie [2022/01/24 20:55] – [Verze 14] Alexandr Rosencnk:intercorp:historie [2023/10/11 17:41] (aktuální) – [Verze 16] Alexandr Rosen
Řádek 1: Řádek 1:
 ===== Historie verzí ===== ===== Historie verzí =====
  
 +==== Verze 16 ====
 +
 +zveřejněná 12. 10. 2023
 +
 +== Data: ==
 +  * jádro korpusu teď obsahuje všechny texty naplánované a schválené na rok 2022 a zpracované do uzávěrky této verze
 +  * počet slov ve všech jazycích a typech textů se zvětšil asi na trojnásobek, tj. z 1 798 mil. na 5 290 mil.
 +  * stalo se to hlavně díky aktualizaci balíčku Subtitles, který teď obsahuje 4 001 mil. slov
 +  * v Subtitles a tím pádem i v celém korpusu přibylo i 20 nových jazyků – korpus teď obsahuje celkem 62 jazyků (včetně češtiny)
 +  * počet slov v cizojazyčných textech je celkem 4 893 mil., z toho 387 mil. jádro a 4 506 mil. kolekce
 +  * počet slov v českých textech celkem je 398 mil., z toho 125 mil. jádro a 273 mil. kolekce
 +  * [[cnk:intercorp:verze16|Informace o korpusu]]
 +
 +
 +
 +==== Verze 15 ====
 +
 +zveřejněná 11. 11. 2022
 +
 +== Data: ==
 +
 +  * počet slov v cizojazyčných textech celkem 1 588 mil., z toho 362 mil. jádro a 1 226 mil. kolekce
 +  * počet slov v českých textech celkem 210 mil., z toho 120 mil. jádro a 90 mil. kolekce
 +  * v balíčku Project Syndicate přibyly texty za roky 2019 až 2021, nově také texty čínské a arabské
 +  * pro norštinu místo národního taggeru používáme od této verze tagger UDPipe, včetně tokenizace a značek podle standardu Universal Dependencies (tak jako pro běloruštinu a ukrajinštinu) 
 +  * [[cnk:intercorp:verze15|Informace o korpusu]]
 ==== Verze 14 ==== ==== Verze 14 ====