Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
cnk:intercorp:historie [2017/04/21 09:16] – [Verze 7] michalskrabal | cnk:intercorp:historie [2023/10/11 17:40] – [Verze 16] alexandrrosen | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
===== Historie verzí ===== | ===== Historie verzí ===== | ||
+ | ==== Verze 16 ==== | ||
+ | |||
+ | zveřejněná 12. 10. 2023 | ||
+ | |||
+ | == Data: == | ||
+ | * hlavně díky aktualizaci balíčku Subtitles, který teď obsahuje 4 001 mil. slov, se korpus se výrazně zvětšil – počet slov ve všech jazycích a typech textů se zvětšil asi na trojnásobek, | ||
+ | * v Subtitles a tím pádem i v celém korpusu přibylo i 20 nových jazyků – korpus teď obsahuje celkem 62 jazyků (včetně češtiny) | ||
+ | * počet slov v cizojazyčných textech je celkem 4 893 mil., z toho 387 mil. jádro a 4 506 mil. kolekce | ||
+ | * počet slov v českých textech celkem je 398 mil., z toho 125 mil. jádro a 273 mil. kolekce | ||
+ | * jádro korpusu teď obsahuje všechny texty naplánované a schválené na rok 2022 a zpracované do uzávěrky této verze | ||
+ | * [[cnk: | ||
+ | |||
+ | |||
+ | |||
+ | ==== Verze 15 ==== | ||
+ | |||
+ | zveřejněná 11. 11. 2022 | ||
+ | |||
+ | == Data: == | ||
+ | |||
+ | * počet slov v cizojazyčných textech celkem 1 588 mil., z toho 362 mil. jádro a 1 226 mil. kolekce | ||
+ | * počet slov v českých textech celkem 210 mil., z toho 120 mil. jádro a 90 mil. kolekce | ||
+ | * v balíčku Project Syndicate přibyly texty za roky 2019 až 2021, nově také texty čínské a arabské | ||
+ | * pro norštinu místo národního taggeru používáme od této verze tagger UDPipe, včetně tokenizace a značek podle standardu Universal Dependencies (tak jako pro běloruštinu a ukrajinštinu) | ||
+ | * [[cnk: | ||
+ | ==== Verze 14 ==== | ||
+ | |||
+ | zveřejněná 31. 1. 2022 | ||
+ | |||
+ | == Data: == | ||
+ | |||
+ | * počet slov v cizojazyčných textech celkem 1 572 mil., z toho 349 mil. jádro a 1 223 mil. kolekce | ||
+ | * počet slov v českých textech celkem 207 mil., z toho 118 mil. jádro a 90 mil. kolekce | ||
+ | * přibyl nový jazyk: hornolužická srbština (ve zkratce hs) | ||
+ | * [[cnk: | ||
+ | |||
+ | ==== Verze 13ud ==== | ||
+ | |||
+ | zveřejněná 22. 12. 2021 | ||
+ | |||
+ | [[https:// | ||
+ | |||
+ | ==== Verze 13 ==== | ||
+ | |||
+ | zveřejněná 1. 11. 2020 | ||
+ | |||
+ | == Data: == | ||
+ | |||
+ | * počet slov v cizojazyčných textech celkem 1 550 mil., z toho 327 mil. jádro a 1 223 mil. kolekce | ||
+ | * počet slov v českých textech celkem 203 mil., z toho 113 mil. jádro a 90 mil. kolekce | ||
+ | * čínština je už zastoupena i v jádru | ||
+ | * taggerem ReLDI se teď taguje i slovinština | ||
+ | * [[cnk: | ||
+ | |||
+ | |||
+ | ==== Verze 12 ==== | ||
+ | |||
+ | zveřejněná 12. 12. 2019 | ||
+ | |||
+ | == Data: == | ||
+ | |||
+ | * počet slov v cizojazyčných textech celkem 1 534 mil., z toho 311 mil. jádro a 1 223 mil. kolekce | ||
+ | * počet slov v českých textech celkem 200 mil., z toho 111 mil. jádro a 90 mil. kolekce | ||
+ | * kolekce Project Syndicate a PressEurop/ | ||
+ | * nový jazyk: čínština (pouze v kolekcích) | ||
+ | * [[cnk: | ||
+ | |||
+ | ==== Verze 11 ==== | ||
+ | |||
+ | zveřejněná 19. 10. 2018 | ||
+ | |||
+ | == Data: == | ||
+ | |||
+ | * počet slov v cizojazyčných textech celkem 1 508 mil., z toho 283 mil. jádro a 1 225 mil. kolekce | ||
+ | * počet slov v českých textech celkem 196 mil., z toho 107 mil. jádro a 89 mil. kolekce | ||
+ | * japonština má nyní zastoupení i v jádru | ||
+ | * nově označkované a lemmatizované jazyky: běloruština, | ||
+ | * [[cnk: | ||
+ | |||
+ | ==== Verze 10 ==== | ||
+ | |||
+ | zveřejněná 1. 12. 2017 | ||
+ | |||
+ | == Data: == | ||
+ | |||
+ | * počet slov v cizojazyčných textech celkem 1 483 mil., z toho 258 mil. jádro a 1 225 mil. kolekce | ||
+ | * počet slov v českých textech celkem 192 mil., z toho 102 mil. jádro a 89 mil. kolekce | ||
+ | * nová kolekce: překlady Bible – Nového i Starého zákona, v 18 jazycích (včetně češtiny) | ||
+ | * aktualizace textů ze zdroje //Project Syndicate// (přibyly texty za poslední dva roky) | ||
+ | * spolehlivější lingvistická anotace u řady jazyků (tagger zpracovává čistý text bez formátovacích a jiných značek) | ||
+ | * odstranění textů v jiném než deklarovaném jazyce z kolekce //Acquis// | ||
+ | * katalánština je nově anotována značkami i lemmaty | ||
+ | * bulharština a nizozemština je nově anotována kromě značek i lemmaty | ||
+ | * maďarština je nově anotována nástrojem RFTagger (dříve HunPOS) | ||
+ | * pro technické potíže s taggerem není litevština anotována značkami a lemmaty; litevština není anotována značkami a lemmaty už od verze 7, omlouváme se za chybný údaj v předchozích verzích | ||
+ | * [[cnk: | ||
+ | |||
+ | == Vyhledávací rozhraní: == | ||
+ | |||
+ | * lze vybírat a označovat konkordance | ||
+ | * subkorpus pro daný jazyk lze vytvořit z částí zarovnaných s určenými jazyky | ||
+ | * //treq// (databáze ekvivalentů) nabízí nyní jako druhý jazyk kromě češtiny i angličtinu, | ||
==== Verze 9 ==== | ==== Verze 9 ==== | ||
Řádek 20: | Řádek 122: | ||
* řada drobných vylepšení a odstraněných chyb | * řada drobných vylepšení a odstraněných chyb | ||
* popis značkovací sady pro daný jazyk je přístupný z KonTextu | * popis značkovací sady pro daný jazyk je přístupný z KonTextu | ||
+ | |||
==== Verze 8 ==== | ==== Verze 8 ==== | ||