Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
| cnk:intercorp:historie [2023/09/22 16:40] – [Verze 15] alexandrrosen | cnk:intercorp:historie [2024/10/01 10:33] (aktuální) – [Verze 16ud] alexandrrosen | ||
|---|---|---|---|
| Řádek 1: | Řádek 1: | ||
| ===== Historie verzí ===== | ===== Historie verzí ===== | ||
| - | ==== Verze 16 ==== | + | ==== Verze 16ud ==== |
| - | zveřejněná | + | zveřejněná |
| == Data: == | == Data: == | ||
| + | * obsahuje stejné texty jako verze 16 | ||
| + | * liší se hlavně v jednotné lingvistické anotaci všech jazyků podle standardu Universal Dependencies (viz verze 13ud) | ||
| + | * u každé věty a textu jsou nově jako metadata uvedeny také míry syntaktické komplexity, u každého textu i míry lexikální diverzity | ||
| + | * [[cnk: | ||
| - | | + | |
| - | * počet slov v českých textech celkem 398 mil., z toho 125 mil. jádro a 273 mil. kolekce | + | |
| - | * aktualizovali jsme balíček Subtitles, který teď obsahuje 1 784 mil. slov z celkových 3 031 mil. slov (celkem ve všech jazycích) | + | ==== Verze 16 ==== |
| - | * v balíčku Subtitles je nově také 20 nových jazyků, celkem je tedy ve verzi 16 celkem 62 jazyků | + | |
| + | zveřejněná 12. 10. 2023 | ||
| + | |||
| + | == Data: == | ||
| + | * jádro korpusu teď obsahuje všechny texty naplánované a schválené na rok 2022 a zpracované do uzávěrky této verze | ||
| + | * počet slov ve všech jazycích a typech textů se zvětšil asi na trojnásobek, | ||
| + | * stalo se to hlavně díky aktualizaci balíčku Subtitles, který teď obsahuje 4 001 mil. slov | ||
| + | * v Subtitles a tím pádem i v celém korpusu přibylo i 20 nových jazyků – korpus teď obsahuje celkem 62 jazyků (včetně češtiny) | ||
| + | | ||
| + | * počet slov v českých textech celkem | ||
| * [[cnk: | * [[cnk: | ||
| + | |||
| + | |||
| ==== Verze 15 ==== | ==== Verze 15 ==== | ||