Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
cnk:intercorp:historie [2022/11/22 22:13] – [Verze 15] alexandrrosen | cnk:intercorp:historie [2024/10/01 10:33] (aktuální) – [Verze 16ud] alexandrrosen | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
===== Historie verzí ===== | ===== Historie verzí ===== | ||
+ | |||
+ | ==== Verze 16ud ==== | ||
+ | |||
+ | zveřejněná 17. 9. 2024 | ||
+ | |||
+ | == Data: == | ||
+ | * obsahuje stejné texty jako verze 16 | ||
+ | * liší se hlavně v jednotné lingvistické anotaci všech jazyků podle standardu Universal Dependencies (viz verze 13ud) | ||
+ | * u každé věty a textu jsou nově jako metadata uvedeny také míry syntaktické komplexity, u každého textu i míry lexikální diverzity | ||
+ | * [[cnk: | ||
+ | |||
+ | |||
+ | |||
+ | ==== Verze 16 ==== | ||
+ | |||
+ | zveřejněná 12. 10. 2023 | ||
+ | |||
+ | == Data: == | ||
+ | * jádro korpusu teď obsahuje všechny texty naplánované a schválené na rok 2022 a zpracované do uzávěrky této verze | ||
+ | * počet slov ve všech jazycích a typech textů se zvětšil asi na trojnásobek, | ||
+ | * stalo se to hlavně díky aktualizaci balíčku Subtitles, který teď obsahuje 4 001 mil. slov | ||
+ | * v Subtitles a tím pádem i v celém korpusu přibylo i 20 nových jazyků – korpus teď obsahuje celkem 62 jazyků (včetně češtiny) | ||
+ | * počet slov v cizojazyčných textech je celkem 4 893 mil., z toho 387 mil. jádro a 4 506 mil. kolekce | ||
+ | * počet slov v českých textech celkem je 398 mil., z toho 125 mil. jádro a 273 mil. kolekce | ||
+ | * [[cnk: | ||
+ | |||
+ | |||
==== Verze 15 ==== | ==== Verze 15 ==== | ||
Řádek 9: | Řádek 36: | ||
* počet slov v cizojazyčných textech celkem 1 588 mil., z toho 362 mil. jádro a 1 226 mil. kolekce | * počet slov v cizojazyčných textech celkem 1 588 mil., z toho 362 mil. jádro a 1 226 mil. kolekce | ||
* počet slov v českých textech celkem 210 mil., z toho 120 mil. jádro a 90 mil. kolekce | * počet slov v českých textech celkem 210 mil., z toho 120 mil. jádro a 90 mil. kolekce | ||
- | * v balíčku Project Syndicate přibyly texty za roky 2019 až 2021, nově také texty čínské a arabské | + | * v balíčku Project Syndicate přibyly texty za roky 2019 až 2021, nově také texty čínské a arabské |
+ | * pro norštinu místo národního taggeru používáme od této verze tagger UDPipe, včetně tokenizace a značek podle standardu Universal Dependencies (tak jako pro běloruštinu a ukrajinštinu) | ||
* [[cnk: | * [[cnk: | ||
- | |||
==== Verze 14 ==== | ==== Verze 14 ==== | ||