Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
cnk:intercorp:historie [2023/10/11 17:40] – [Verze 16] alexandrrosen | cnk:intercorp:historie [2023/10/11 17:41] (aktuální) – [Verze 16] alexandrrosen | ||
---|---|---|---|
Řádek 6: | Řádek 6: | ||
== Data: == | == Data: == | ||
- | * hlavně díky aktualizaci balíčku Subtitles, který | + | * jádro korpusu |
+ | * počet slov ve všech jazycích a typech textů se zvětšil asi na trojnásobek, | ||
+ | * stalo se to hlavně díky aktualizaci balíčku Subtitles, který teď obsahuje 4 001 mil. slov | ||
* v Subtitles a tím pádem i v celém korpusu přibylo i 20 nových jazyků – korpus teď obsahuje celkem 62 jazyků (včetně češtiny) | * v Subtitles a tím pádem i v celém korpusu přibylo i 20 nových jazyků – korpus teď obsahuje celkem 62 jazyků (včetně češtiny) | ||
* počet slov v cizojazyčných textech je celkem 4 893 mil., z toho 387 mil. jádro a 4 506 mil. kolekce | * počet slov v cizojazyčných textech je celkem 4 893 mil., z toho 387 mil. jádro a 4 506 mil. kolekce | ||
* počet slov v českých textech celkem je 398 mil., z toho 125 mil. jádro a 273 mil. kolekce | * počet slov v českých textech celkem je 398 mil., z toho 125 mil. jádro a 273 mil. kolekce | ||
- | * jádro korpusu teď obsahuje všechny texty naplánované a schválené na rok 2022 a zpracované do uzávěrky této verze | ||
* [[cnk: | * [[cnk: | ||