Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- cnk:intercorp:historie [2022/11/21 15:12] – [Verze 14] alexandrrosen
+++ cnk:intercorp:historie [2024/10/01 10:33] (aktuální) – [Verze 16ud] alexandrrosen
@@ Řádek 1: / Řádek 1: @@
 ===== Historie verzí =====
+==== Verze 16ud ====
+zveřejněná 17. 9. 2024
+== Data: ==
+  * obsahuje stejné texty jako verze 16
+  * liší se hlavně v jednotné lingvistické anotaci všech jazyků podle standardu Universal Dependencies (viz verze 13ud)
+  * u každé věty a textu jsou nově jako metadata uvedeny také míry syntaktické komplexity, u každého textu i míry lexikální diverzity
+  * [[cnk:intercorp:verze16ud|Informace o korpusu]]
+==== Verze 16 ====
+zveřejněná 12. 10. 2023
+== Data: ==
+  * jádro korpusu teď obsahuje všechny texty naplánované a schválené na rok 2022 a zpracované do uzávěrky této verze
+  * počet slov ve všech jazycích a typech textů se zvětšil asi na trojnásobek, tj. z 1 798 mil. na 5 290 mil.
+  * stalo se to hlavně díky aktualizaci balíčku Subtitles, který teď obsahuje 4 001 mil. slov
+  * v Subtitles a tím pádem i v celém korpusu přibylo i 20 nových jazyků – korpus teď obsahuje celkem 62 jazyků (včetně češtiny)
+  * počet slov v cizojazyčných textech je celkem 4 893 mil., z toho 387 mil. jádro a 4 506 mil. kolekce
+  * počet slov v českých textech celkem je 398 mil., z toho 125 mil. jádro a 273 mil. kolekce
+  * [[cnk:intercorp:verze16|Informace o korpusu]]
 ==== Verze 15 ====
@@ Řádek 7: / Řádek 34: @@
 == Data: ==
-TODO!
+  * počet slov v cizojazyčných textech celkem 1 588 mil., z toho 362 mil. jádro a 1 226 mil. kolekce
+  * počet slov v českých textech celkem 210 mil., z toho 120 mil. jádro a 90 mil. kolekce
-  * počet slov v cizojazyčných textech celkem 1 572 mil., z toho 349 mil. jádro a 1 223 mil. kolekce
+  * v balíčku Project Syndicate přibyly texty za roky 2019 až 2021, nově také texty čínské a arabské
-  * počet slov v českých textech celkem 207 mil., z toho 118 mil. jádro a 90 mil. kolekce
+  * pro norštinu místo národního taggeru používáme od této verze tagger UDPipe, včetně tokenizace a značek podle standardu Universal Dependencies (tak jako pro běloruštinu a ukrajinštinu)
-  * v balíčku Project Syndicate přibyly texty za roky 2019 až 2021, nově také texty čínské a arabské
   * [[cnk:intercorp:verze15|Informace o korpusu]]
 ==== Verze 14 ====

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence