===== Historie verzí ===== ==== Verze 16 ==== zveřejněná 12. 10. 2023 == Data: == * jádro korpusu teď obsahuje všechny texty naplánované a schválené na rok 2022 a zpracované do uzávěrky této verze * počet slov ve všech jazycích a typech textů se zvětšil asi na trojnásobek, tj. z 1 798 mil. na 5 290 mil. * stalo se to hlavně díky aktualizaci balíčku Subtitles, který teď obsahuje 4 001 mil. slov * v Subtitles a tím pádem i v celém korpusu přibylo i 20 nových jazyků – korpus teď obsahuje celkem 62 jazyků (včetně češtiny) * počet slov v cizojazyčných textech je celkem 4 893 mil., z toho 387 mil. jádro a 4 506 mil. kolekce * počet slov v českých textech celkem je 398 mil., z toho 125 mil. jádro a 273 mil. kolekce * [[cnk:intercorp:verze16|Informace o korpusu]] ==== Verze 15 ==== zveřejněná 11. 11. 2022 == Data: == * počet slov v cizojazyčných textech celkem 1 588 mil., z toho 362 mil. jádro a 1 226 mil. kolekce * počet slov v českých textech celkem 210 mil., z toho 120 mil. jádro a 90 mil. kolekce * v balíčku Project Syndicate přibyly texty za roky 2019 až 2021, nově také texty čínské a arabské * pro norštinu místo národního taggeru používáme od této verze tagger UDPipe, včetně tokenizace a značek podle standardu Universal Dependencies (tak jako pro běloruštinu a ukrajinštinu) * [[cnk:intercorp:verze15|Informace o korpusu]] ==== Verze 14 ==== zveřejněná 31. 1. 2022 == Data: == * počet slov v cizojazyčných textech celkem 1 572 mil., z toho 349 mil. jádro a 1 223 mil. kolekce * počet slov v českých textech celkem 207 mil., z toho 118 mil. jádro a 90 mil. kolekce * přibyl nový jazyk: hornolužická srbština (ve zkratce hs) * [[cnk:intercorp:verze14|Informace o korpusu]] ==== Verze 13ud ==== zveřejněná 22. 12. 2021 [[https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud#hlavni_rozdily_mezi_verzemi_13_a_13ud | Rozdíly mezi verzemi 13 a 13ud]] ==== Verze 13 ==== zveřejněná 1. 11. 2020 == Data: == * počet slov v cizojazyčných textech celkem 1 550 mil., z toho 327 mil. jádro a 1 223 mil. kolekce * počet slov v českých textech celkem 203 mil., z toho 113 mil. jádro a 90 mil. kolekce * čínština je už zastoupena i v jádru * taggerem ReLDI se teď taguje i slovinština * [[cnk:intercorp:verze13|Informace o korpusu]] ==== Verze 12 ==== zveřejněná 12. 12. 2019 == Data: == * počet slov v cizojazyčných textech celkem 1 534 mil., z toho 311 mil. jádro a 1 223 mil. kolekce * počet slov v českých textech celkem 200 mil., z toho 111 mil. jádro a 90 mil. kolekce * kolekce Project Syndicate a PressEurop/VoxEurop byly rozšířeny o přírůstky za roky 2017–2018 * nový jazyk: čínština (pouze v kolekcích) * [[cnk:intercorp:verze12|Informace o korpusu]] ==== Verze 11 ==== zveřejněná 19. 10. 2018 == Data: == * počet slov v cizojazyčných textech celkem 1 508 mil., z toho 283 mil. jádro a 1 225 mil. kolekce * počet slov v českých textech celkem 196 mil., z toho 107 mil. jádro a 89 mil. kolekce * japonština má nyní zastoupení i v jádru * nově označkované a lemmatizované jazyky: běloruština, japonština, ukrajinština * [[cnk:intercorp:verze11|Informace o korpusu]] ==== Verze 10 ==== zveřejněná 1. 12. 2017 == Data: == * počet slov v cizojazyčných textech celkem 1 483 mil., z toho 258 mil. jádro a 1 225 mil. kolekce * počet slov v českých textech celkem 192 mil., z toho 102 mil. jádro a 89 mil. kolekce * nová kolekce: překlady Bible – Nového i Starého zákona, v 18 jazycích (včetně češtiny) * aktualizace textů ze zdroje //Project Syndicate// (přibyly texty za poslední dva roky) * spolehlivější lingvistická anotace u řady jazyků (tagger zpracovává čistý text bez formátovacích a jiných značek) * odstranění textů v jiném než deklarovaném jazyce z kolekce //Acquis// * katalánština je nově anotována značkami i lemmaty * bulharština a nizozemština je nově anotována kromě značek i lemmaty * maďarština je nově anotována nástrojem RFTagger (dříve HunPOS) * pro technické potíže s taggerem není litevština anotována značkami a lemmaty; litevština není anotována značkami a lemmaty už od verze 7, omlouváme se za chybný údaj v předchozích verzích * [[cnk:intercorp:verze10|Informace o korpusu]] == Vyhledávací rozhraní: == * lze vybírat a označovat konkordance * subkorpus pro daný jazyk lze vytvořit z částí zarovnaných s určenými jazyky * //treq// (databáze ekvivalentů) nabízí nyní jako druhý jazyk kromě češtiny i angličtinu, vyhledávání víceslovných výrazů a zadávání dotazu pomocí regulárních výrazů ==== Verze 9 ==== zveřejněná 9. 9. 2016 == Data: == * počet slov v cizojazyčných textech celkem 1460 mil., z toho 232 mil. jádro a 1229 mil. kolekce * počet slov v českých textech celkem 187 mil., z toho 97 mil. jádro a 90 mil. kolekce * nový jazyk: romština * nově označkované a lemmatizované jazyky: chorvatština, srbština, lotyština * srbské texty zapsané cyrilicí konvertovány do latinky * díky novému způsobu plánování textů lepší reprezentativnost napříč jazyky * jména autorů a překladatelů sjednocena v rámci jednoho jazyka * [[cnk:intercorp:verze9|Informace o korpusu]] == Vyhledávací rozhraní: == * řada drobných vylepšení a odstraněných chyb * popis značkovací sady pro daný jazyk je přístupný z KonTextu ==== Verze 8 ==== zveřejněná 4. 6. 2015 == Data: == * počet slov v cizojazyčných textech celkem 1423 mil., z toho 194 mil. jádro a 1229 mil. kolekce * počet slov v českých textech celkem 174 mil., z toho 84 mil. jádro a 89 mil. kolekce * kolekce Project Syndicate a PressEurop/VoxEurop byly rozšířeny o přírůstky za roky 2013–2014 * byla opravena a doplněna metadata u stovek textů z jádra * [[cnk:intercorp:verze8|Informace o korpusu]] == Vyhledávací rozhraní: == * rozhraní Park už není přístupné, pro hledání v InterCorpu lze použít jen KonText * rozhraní KonText se průběžně zdokonaluje, např. lze označovat vybrané konkordance pro další zpracování * nová aplikace [[http://treq.korpus.cz|Treq]] umožňuje zjistit překlady jednotlivých slov (lemmat nebo forem) spolu s jejich frekvencí na základě paralelních česko-cizojazyčných textů z korpusu InterCorp ==== Verze 7 ==== zveřejněná 19. 12. 2014 == Data: == * počet slov v cizojazyčných textech celkem 1390 mil., z toho 173 mil. jádro a 1217 mil. kolekce * počet slov v českých textech celkem 165 mil., z toho 77 mil. jádro a 85 mil. kolekce * počet cizích jazyků: 38 – přibyla albánština, hebrejština, islandština, japonština, malajština, turečtina a vietnamština * přibyl další balík textů: filmové titulky z databáze Open Subtitles * české texty jsou nově označkovány stejně jako jiné české texty v ČNK, tedy včetně slovesného vidu na 16. pozici značky a bez nespecifických kódů, např.Y nebo Z na 3. pozici * nově jsou morfologicky označkovány a lemmatizovány finské, islandské a švédské texty * německé texty jsou nově označkovány jiným nástrojem, spolehlivěji a podrobněji, včetně všech morfologických kategorií, sada značek však zůstává stejná * bylo opraveno zarovnání textů z korpusu ASPAC * u balíků Syndicate, Presseurop a Europarl byly podle možnosti doplněny některé metainformace, např. jazyk originálu a autor * [[cnk:intercorp:verze7|Informace o korpusu]] == Vyhledávací rozhraní: == * starší rozhraní Park a NoSketch Engine byly nahrazeny rozhraním [[manualy:kontext:index|KonText]] * v rozhraní KonText je možné hledat v předchozí verzi korpusu * v rozhraní KonText je nyní při výběru textů nebo při vytváření nového subkorpusu možné sledovat rozsah vyběru podle titulů; po zadání podmínek výběru stačí kliknout na tlačítko "zúžit výběr" a seznam vybraných titulů se objeví ve sloupci "div.title" * v rozhraní KonText je implicitně nastavena funkce promíchání konkordančních řádků; pokud nechcete při každém dotazu čekat na vypsání výsledků až po nalezení všech konkordancí, můžete si tuto funkci vypnout v menu Zobrazení – Obecné volby zobrazení ---- ==== Verze 6 ==== zveřejněná 8. 4. 2013 == Data: == * počet slov v cizojazyčných textech: 138 779 000 – jádro, 728 508 000 - kolekce * počet cizích jazyků: 31 – přibyla arabština, katalánština, hindština a ukrajinština * přibyly beletristické texty z korpusu ASPAC – Amsterdam Slavic Parallel Aligned Corpus – zvláštní poděkování patří prof. Adrianu Barentsenovi * přibyl další balík textů z korpusu EuroParl (jednání Evropského Parlamentu) * balíky Syndicate a Presseurop byly doplněny o texty za poslední dva roky * [[cnk:intercorp:verze6|Informace o korpusu]] == Vyhledávací rozhraní: == * kromě hledání přes rozhraní Park je teď možné hledat i přes rozhraní NoSketch Engine * Park: možnost hledat v předchozí verzi korpusu ---- ==== Verze 5 ==== zveřejněná 14. 6. 2012 == Data: == * oddělení textů z jádra od textů v kolekcích * počet slov v cizojazyčných textech: 91 529 000 - jádro, 451 112 000 - kolekce * počet cizojazyčných textů: 1 287 + Syndicate, Presseurop a Acquis * počet cizích jazyků: 27 * z toho označkovaných / lemmatizovaných: 17 / 14 * přibyl další balík textů z Acquis Communautaire * [[cnk:intercorp:verze5|Informace o korpusu]] == Park: == * možnost filtrovat texty na základě bibliografických informací * oddělení textů z jádra od textů v kolekcích * přidána možnost vytvořit náhodný vzorek z konkordance * vylepšená podpora jazyků v rozhraní Park ---- ==== Verze 4 ==== zveřejněná 19. 9. 2011 == Data: == * počet slov v cizojazyčných textech: 92 290 000 (včetně Syndicate a Presseurop) * počet cizojazyčných textů: 1 045 + Syndicate a Presseurop * počet cizích jazyků: 22 * z toho označkovaných / lemmatizovaných: 13 / 10 * přibyly automaticky zarovnané texty ze serveru Presseurop * přibyl další balík textů z projektu Syndicate * doplnění dalších strukturních atributů (origyear, srclang, txtype) * [[cnk:intercorp:verze4|Informace o korpusu]] == Park: == beze změny ---- ==== Verze 3.1 ==== zveřejněná 18. 5. 2011 == Data: == beze změny == Park: == * víceúrovňový filtr výsledků dotazu * vylepšení podpory cookies * další exportní formát ==== Verze 3 ==== zveřejněná 21. 2. 2011 == Data: == * počet slov v cizojazyčných textech: 72 280 000 (včetně Syndicate) * počet cizojazyčných textů: 943 + Syndicate * počet cizích jazyků: 22 * z toho označkovaných / lemmatizovaných: 13 / 10 * přechod na stand-off alignment * [[cnk:intercorp:verze3|Informace o korpusu]] == Park: == * jednoúrovňový filtr výsledků dotazu * zobrazení vybrané stránky výsledku * přechod na stand-off alignment ---- ==== Verze 2 == zveřejněná 16. 10. 2009 == Data: == * počet slov v cizojazyčných textech: 49 293 000 (včetně Syndicate) * počet cizojazyčných textů: 572 + Syndicate * počet cizích jazyků: 21 * z toho označkovaných / lemmatizovaných: 10 / 7 * přibyly automaticky zarovnané texty z projektu Syndicate == Přístup ke korpusu: == * zpřístupnění jednojazyčných verzí korpusu mimo Park ---- ==== Verze 1 == zveřejněná 29. 4. 2009 == Data: == * počet slov v cizojazyčných textech: 34 464 000 * počet cizojazyčných textů: 505 * počet cizích jazyků: 20 * z toho označkovaných / lemmatizovaných: 10 / 7 * lemmatizace a morfologické značkování některých jazyků == Park: == * zobrazování velikosti subkorpusů ---- ==== Verze 0 == zveřejněná 19. 11. 2008 == Data: == * počet slov v cizojazyčných textech: 25 mil. * počet cizích jazyků: 19 * z toho označkovaných / lemmatizovaných: 0 / 0 == Park: == * první stabilní verze ===== Související odkazy ===== [[pojmy:paralelni|Paralelní korpus]] • [[cnk:syn|SYN]] • [[cnk:SYN2010|SYN2010]] • [[cnk:jerome|Korpus JEROME]]