AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:historie [2017/04/07 11:32] – [Verze 7] Michal Škrabalcnk:intercorp:historie [2023/10/11 17:41] (aktuální) – [Verze 16] Alexandr Rosen
Řádek 1: Řádek 1:
 ===== Historie verzí ===== ===== Historie verzí =====
  
 +==== Verze 16 ====
 +
 +zveřejněná 12. 10. 2023
 +
 +== Data: ==
 +  * jádro korpusu teď obsahuje všechny texty naplánované a schválené na rok 2022 a zpracované do uzávěrky této verze
 +  * počet slov ve všech jazycích a typech textů se zvětšil asi na trojnásobek, tj. z 1 798 mil. na 5 290 mil.
 +  * stalo se to hlavně díky aktualizaci balíčku Subtitles, který teď obsahuje 4 001 mil. slov
 +  * v Subtitles a tím pádem i v celém korpusu přibylo i 20 nových jazyků – korpus teď obsahuje celkem 62 jazyků (včetně češtiny)
 +  * počet slov v cizojazyčných textech je celkem 4 893 mil., z toho 387 mil. jádro a 4 506 mil. kolekce
 +  * počet slov v českých textech celkem je 398 mil., z toho 125 mil. jádro a 273 mil. kolekce
 +  * [[cnk:intercorp:verze16|Informace o korpusu]]
 +
 +
 +
 +==== Verze 15 ====
 +
 +zveřejněná 11. 11. 2022
 +
 +== Data: ==
 +
 +  * počet slov v cizojazyčných textech celkem 1 588 mil., z toho 362 mil. jádro a 1 226 mil. kolekce
 +  * počet slov v českých textech celkem 210 mil., z toho 120 mil. jádro a 90 mil. kolekce
 +  * v balíčku Project Syndicate přibyly texty za roky 2019 až 2021, nově také texty čínské a arabské
 +  * pro norštinu místo národního taggeru používáme od této verze tagger UDPipe, včetně tokenizace a značek podle standardu Universal Dependencies (tak jako pro běloruštinu a ukrajinštinu) 
 +  * [[cnk:intercorp:verze15|Informace o korpusu]]
 +==== Verze 14 ====
 +
 +zveřejněná 31. 1. 2022
 +
 +== Data: ==
 +
 +  * počet slov v cizojazyčných textech celkem 1 572 mil., z toho 349 mil. jádro a 1 223 mil. kolekce
 +  * počet slov v českých textech celkem 207 mil., z toho 118 mil. jádro a 90 mil. kolekce
 +  * přibyl nový jazyk: hornolužická srbština (ve zkratce hs)
 +  * [[cnk:intercorp:verze14|Informace o korpusu]]
 +
 +==== Verze 13ud ====
 +
 +zveřejněná 22. 12. 2021
 +
 +[[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#hlavni_rozdily_mezi_verzemi_13_a_13ud | Rozdíly mezi verzemi 13 a 13ud]]
 +
 +==== Verze 13 ====
 +
 +zveřejněná 1. 11. 2020
 +
 +== Data: ==
 +
 +  * počet slov v cizojazyčných textech celkem 1 550 mil., z toho 327 mil. jádro a 1 223 mil. kolekce
 +  * počet slov v českých textech celkem 203 mil., z toho 113 mil. jádro a 90 mil. kolekce
 +  * čínština je už zastoupena i v jádru
 +  * taggerem ReLDI se teď taguje i slovinština
 +  * [[cnk:intercorp:verze13|Informace o korpusu]]
 +
 +
 +==== Verze 12 ====
 +
 +zveřejněná 12. 12. 2019
 +
 +== Data: ==
 +
 +  * počet slov v cizojazyčných textech celkem 1 534 mil., z toho 311 mil. jádro a 1 223 mil. kolekce
 +  * počet slov v českých textech celkem 200 mil., z toho 111 mil. jádro a 90 mil. kolekce
 +  * kolekce Project Syndicate a PressEurop/VoxEurop byly rozšířeny o přírůstky za roky 2017–2018
 +  * nový jazyk: čínština (pouze v kolekcích)
 +  * [[cnk:intercorp:verze12|Informace o korpusu]]
 +
 +==== Verze 11 ====
 +
 +zveřejněná 19. 10. 2018
 +
 +== Data: ==
 +
 +  * počet slov v cizojazyčných textech celkem 1 508 mil., z toho 283 mil. jádro a 1 225 mil. kolekce
 +  * počet slov v českých textech celkem 196 mil., z toho 107 mil. jádro a 89 mil. kolekce
 +  * japonština má nyní zastoupení i v jádru
 +  * nově označkované a lemmatizované jazyky: běloruština, japonština, ukrajinština
 +  * [[cnk:intercorp:verze11|Informace o korpusu]]
 +
 +==== Verze 10 ====
 +
 +zveřejněná 1. 12. 2017
 +
 +== Data: ==
 +
 +  * počet slov v cizojazyčných textech celkem 1 483 mil., z toho 258 mil. jádro a 1 225 mil. kolekce
 +  * počet slov v českých textech celkem 192 mil., z toho 102 mil. jádro a 89 mil. kolekce
 +  * nová kolekce: překlady Bible – Nového i Starého zákona, v 18 jazycích (včetně češtiny)
 +  * aktualizace textů ze zdroje //Project Syndicate// (přibyly texty za poslední dva roky)
 +  * spolehlivější lingvistická anotace u řady jazyků (tagger zpracovává čistý text bez formátovacích a jiných značek)
 +  * odstranění textů v jiném než deklarovaném jazyce z kolekce //Acquis//
 +  * katalánština je nově anotována značkami i lemmaty
 +  * bulharština a nizozemština je nově anotována kromě značek i lemmaty
 +  * maďarština je nově anotována nástrojem RFTagger (dříve HunPOS)
 +  * pro technické potíže s taggerem není litevština anotována značkami a lemmaty; litevština není anotována značkami a lemmaty už od verze 7, omlouváme se za chybný údaj v předchozích verzích 
 +  * [[cnk:intercorp:verze10|Informace o korpusu]]
 + 
 +== Vyhledávací rozhraní: ==
 +
 +  * lze vybírat a označovat konkordance
 +  * subkorpus pro daný jazyk lze vytvořit z částí zarovnaných s určenými jazyky
 +  * //treq// (databáze ekvivalentů) nabízí nyní jako druhý jazyk kromě češtiny i angličtinu, vyhledávání víceslovných výrazů a zadávání dotazu pomocí regulárních výrazů 
 ==== Verze 9 ==== ==== Verze 9 ====
  
Řádek 20: Řádek 123:
   * řada drobných vylepšení a odstraněných chyb    * řada drobných vylepšení a odstraněných chyb 
   * popis značkovací sady pro daný jazyk je přístupný z KonTextu   * popis značkovací sady pro daný jazyk je přístupný z KonTextu
 +
 ==== Verze 8 ==== ==== Verze 8 ====
  
Řádek 59: Řádek 163:
   * v rozhraní KonText je možné hledat v předchozí verzi korpusu   * v rozhraní KonText je možné hledat v předchozí verzi korpusu
   * v rozhraní KonText je nyní při výběru textů nebo při vytváření nového subkorpusu možné sledovat rozsah vyběru podle titulů; po zadání podmínek výběru stačí kliknout na tlačítko "zúžit výběr" a seznam vybraných titulů se objeví ve sloupci "div.title"   * v rozhraní KonText je nyní při výběru textů nebo při vytváření nového subkorpusu možné sledovat rozsah vyběru podle titulů; po zadání podmínek výběru stačí kliknout na tlačítko "zúžit výběr" a seznam vybraných titulů se objeví ve sloupci "div.title"
-  * v rozhraní KonText je implicitně nastavena funkce promíchání konkordančních řádků; pokud nechcete při každém dotazu čekat na vypsání výsledků až po nalezení všech konkordancí, můžete si tuto funkci vypnout v menu Zobrazení – Obecné volby zobrazení konkordance +  * v rozhraní KonText je implicitně nastavena funkce promíchání konkordančních řádků; pokud nechcete při každém dotazu čekat na vypsání výsledků až po nalezení všech konkordancí, můžete si tuto funkci vypnout v menu Zobrazení – Obecné volby zobrazení