Toto je starší verze dokumentu!
Obsah
Historie verzí
Verze 16
zveřejněná ?. ?. 2023
Data:
- počet slov v cizojazyčných textech celkem 4 891 mil., z toho 365 mil. jádro a 4 506 mil. kolekce
- počet slov v českých textech celkem 398 mil., z toho 125 mil. jádro a 273 mil. kolekce
- aktualizovali jsme balíček Subtitles, který teď obsahuje 1 784 mil. slov z celkových 3 031 mil. slov (celkem ve všech jazycích)
- v balíčku Subtitles je nově také 20 nových jazyků, celkem je tedy ve verzi 16 celkem 62 jazyků
Verze 15
zveřejněná 11. 11. 2022
Data:
- počet slov v cizojazyčných textech celkem 1 588 mil., z toho 362 mil. jádro a 1 226 mil. kolekce
- počet slov v českých textech celkem 210 mil., z toho 120 mil. jádro a 90 mil. kolekce
- v balíčku Project Syndicate přibyly texty za roky 2019 až 2021, nově také texty čínské a arabské
- pro norštinu místo národního taggeru používáme od této verze tagger UDPipe, včetně tokenizace a značek podle standardu Universal Dependencies (tak jako pro běloruštinu a ukrajinštinu)
Verze 14
zveřejněná 31. 1. 2022
Data:
- počet slov v cizojazyčných textech celkem 1 572 mil., z toho 349 mil. jádro a 1 223 mil. kolekce
- počet slov v českých textech celkem 207 mil., z toho 118 mil. jádro a 90 mil. kolekce
- přibyl nový jazyk: hornolužická srbština (ve zkratce hs)
Verze 13ud
zveřejněná 22. 12. 2021
Verze 13
zveřejněná 1. 11. 2020
Data:
- počet slov v cizojazyčných textech celkem 1 550 mil., z toho 327 mil. jádro a 1 223 mil. kolekce
- počet slov v českých textech celkem 203 mil., z toho 113 mil. jádro a 90 mil. kolekce
- čínština je už zastoupena i v jádru
- taggerem ReLDI se teď taguje i slovinština
Verze 12
zveřejněná 12. 12. 2019
Data:
- počet slov v cizojazyčných textech celkem 1 534 mil., z toho 311 mil. jádro a 1 223 mil. kolekce
- počet slov v českých textech celkem 200 mil., z toho 111 mil. jádro a 90 mil. kolekce
- kolekce Project Syndicate a PressEurop/VoxEurop byly rozšířeny o přírůstky za roky 2017–2018
- nový jazyk: čínština (pouze v kolekcích)
Verze 11
zveřejněná 19. 10. 2018
Data:
- počet slov v cizojazyčných textech celkem 1 508 mil., z toho 283 mil. jádro a 1 225 mil. kolekce
- počet slov v českých textech celkem 196 mil., z toho 107 mil. jádro a 89 mil. kolekce
- japonština má nyní zastoupení i v jádru
- nově označkované a lemmatizované jazyky: běloruština, japonština, ukrajinština
Verze 10
zveřejněná 1. 12. 2017
Data:
- počet slov v cizojazyčných textech celkem 1 483 mil., z toho 258 mil. jádro a 1 225 mil. kolekce
- počet slov v českých textech celkem 192 mil., z toho 102 mil. jádro a 89 mil. kolekce
- nová kolekce: překlady Bible – Nového i Starého zákona, v 18 jazycích (včetně češtiny)
- aktualizace textů ze zdroje Project Syndicate (přibyly texty za poslední dva roky)
- spolehlivější lingvistická anotace u řady jazyků (tagger zpracovává čistý text bez formátovacích a jiných značek)
- odstranění textů v jiném než deklarovaném jazyce z kolekce Acquis
- katalánština je nově anotována značkami i lemmaty
- bulharština a nizozemština je nově anotována kromě značek i lemmaty
- maďarština je nově anotována nástrojem RFTagger (dříve HunPOS)
- pro technické potíže s taggerem není litevština anotována značkami a lemmaty; litevština není anotována značkami a lemmaty už od verze 7, omlouváme se za chybný údaj v předchozích verzích
Vyhledávací rozhraní:
- lze vybírat a označovat konkordance
- subkorpus pro daný jazyk lze vytvořit z částí zarovnaných s určenými jazyky
- treq (databáze ekvivalentů) nabízí nyní jako druhý jazyk kromě češtiny i angličtinu, vyhledávání víceslovných výrazů a zadávání dotazu pomocí regulárních výrazů
Verze 9
zveřejněná 9. 9. 2016
Data:
- počet slov v cizojazyčných textech celkem 1460 mil., z toho 232 mil. jádro a 1229 mil. kolekce
- počet slov v českých textech celkem 187 mil., z toho 97 mil. jádro a 90 mil. kolekce
- nový jazyk: romština
- nově označkované a lemmatizované jazyky: chorvatština, srbština, lotyština
- srbské texty zapsané cyrilicí konvertovány do latinky
- díky novému způsobu plánování textů lepší reprezentativnost napříč jazyky
- jména autorů a překladatelů sjednocena v rámci jednoho jazyka
Vyhledávací rozhraní:
- řada drobných vylepšení a odstraněných chyb
- popis značkovací sady pro daný jazyk je přístupný z KonTextu
Verze 8
zveřejněná 4. 6. 2015
Data:
- počet slov v cizojazyčných textech celkem 1423 mil., z toho 194 mil. jádro a 1229 mil. kolekce
- počet slov v českých textech celkem 174 mil., z toho 84 mil. jádro a 89 mil. kolekce
- kolekce Project Syndicate a PressEurop/VoxEurop byly rozšířeny o přírůstky za roky 2013–2014
- byla opravena a doplněna metadata u stovek textů z jádra
Vyhledávací rozhraní:
- rozhraní Park už není přístupné, pro hledání v InterCorpu lze použít jen KonText
- rozhraní KonText se průběžně zdokonaluje, např. lze označovat vybrané konkordance pro další zpracování
- nová aplikace Treq umožňuje zjistit překlady jednotlivých slov (lemmat nebo forem) spolu s jejich frekvencí na základě paralelních česko-cizojazyčných textů z korpusu InterCorp
Verze 7
zveřejněná 19. 12. 2014
Data:
- počet slov v cizojazyčných textech celkem 1390 mil., z toho 173 mil. jádro a 1217 mil. kolekce
- počet slov v českých textech celkem 165 mil., z toho 77 mil. jádro a 85 mil. kolekce
- počet cizích jazyků: 38 – přibyla albánština, hebrejština, islandština, japonština, malajština, turečtina a vietnamština
- přibyl další balík textů: filmové titulky z databáze Open Subtitles
- české texty jsou nově označkovány stejně jako jiné české texty v ČNK, tedy včetně slovesného vidu na 16. pozici značky a bez nespecifických kódů, např.Y nebo Z na 3. pozici
- nově jsou morfologicky označkovány a lemmatizovány finské, islandské a švédské texty
- německé texty jsou nově označkovány jiným nástrojem, spolehlivěji a podrobněji, včetně všech morfologických kategorií, sada značek však zůstává stejná
- bylo opraveno zarovnání textů z korpusu ASPAC
- u balíků Syndicate, Presseurop a Europarl byly podle možnosti doplněny některé metainformace, např. jazyk originálu a autor
Vyhledávací rozhraní:
- starší rozhraní Park a NoSketch Engine byly nahrazeny rozhraním KonText
- v rozhraní KonText je možné hledat v předchozí verzi korpusu
- v rozhraní KonText je nyní při výběru textů nebo při vytváření nového subkorpusu možné sledovat rozsah vyběru podle titulů; po zadání podmínek výběru stačí kliknout na tlačítko „zúžit výběr“ a seznam vybraných titulů se objeví ve sloupci „div.title“
- v rozhraní KonText je implicitně nastavena funkce promíchání konkordančních řádků; pokud nechcete při každém dotazu čekat na vypsání výsledků až po nalezení všech konkordancí, můžete si tuto funkci vypnout v menu Zobrazení – Obecné volby zobrazení
Verze 6
zveřejněná 8. 4. 2013
Data:
- počet slov v cizojazyčných textech: 138 779 000 – jádro, 728 508 000 - kolekce
- počet cizích jazyků: 31 – přibyla arabština, katalánština, hindština a ukrajinština
- přibyly beletristické texty z korpusu ASPAC – Amsterdam Slavic Parallel Aligned Corpus – zvláštní poděkování patří prof. Adrianu Barentsenovi
- přibyl další balík textů z korpusu EuroParl (jednání Evropského Parlamentu)
- balíky Syndicate a Presseurop byly doplněny o texty za poslední dva roky
Vyhledávací rozhraní:
- kromě hledání přes rozhraní Park je teď možné hledat i přes rozhraní NoSketch Engine
- Park: možnost hledat v předchozí verzi korpusu
Verze 5
zveřejněná 14. 6. 2012
Data:
- oddělení textů z jádra od textů v kolekcích
- počet slov v cizojazyčných textech: 91 529 000 - jádro, 451 112 000 - kolekce
- počet cizojazyčných textů: 1 287 + Syndicate, Presseurop a Acquis
- počet cizích jazyků: 27
- z toho označkovaných / lemmatizovaných: 17 / 14
- přibyl další balík textů z Acquis Communautaire
Park:
- možnost filtrovat texty na základě bibliografických informací
- oddělení textů z jádra od textů v kolekcích
- přidána možnost vytvořit náhodný vzorek z konkordance
- vylepšená podpora jazyků v rozhraní Park
Verze 4
zveřejněná 19. 9. 2011
Data:
- počet slov v cizojazyčných textech: 92 290 000 (včetně Syndicate a Presseurop)
- počet cizojazyčných textů: 1 045 + Syndicate a Presseurop
- počet cizích jazyků: 22
- z toho označkovaných / lemmatizovaných: 13 / 10
- přibyly automaticky zarovnané texty ze serveru Presseurop
- přibyl další balík textů z projektu Syndicate
- doplnění dalších strukturních atributů (origyear, srclang, txtype)
Park:
beze změny
Verze 3.1
zveřejněná 18. 5. 2011
Data:
beze změny
Park:
- víceúrovňový filtr výsledků dotazu
- vylepšení podpory cookies
- další exportní formát
Verze 3
zveřejněná 21. 2. 2011
Data:
- počet slov v cizojazyčných textech: 72 280 000 (včetně Syndicate)
- počet cizojazyčných textů: 943 + Syndicate
- počet cizích jazyků: 22
- z toho označkovaných / lemmatizovaných: 13 / 10
- přechod na stand-off alignment
Park:
- jednoúrovňový filtr výsledků dotazu
- zobrazení vybrané stránky výsledku
- přechod na stand-off alignment
Verze 2
zveřejněná 16. 10. 2009
Data:
- počet slov v cizojazyčných textech: 49 293 000 (včetně Syndicate)
- počet cizojazyčných textů: 572 + Syndicate
- počet cizích jazyků: 21
- z toho označkovaných / lemmatizovaných: 10 / 7
- přibyly automaticky zarovnané texty z projektu Syndicate
Přístup ke korpusu:
- zpřístupnění jednojazyčných verzí korpusu mimo Park
Verze 1
zveřejněná 29. 4. 2009
Data:
- počet slov v cizojazyčných textech: 34 464 000
- počet cizojazyčných textů: 505
- počet cizích jazyků: 20
- z toho označkovaných / lemmatizovaných: 10 / 7
- lemmatizace a morfologické značkování některých jazyků
Park:
- zobrazování velikosti subkorpusů
Verze 0
zveřejněná 19. 11. 2008
Data:
- počet slov v cizojazyčných textech: 25 mil.
- počet cizích jazyků: 19
- z toho označkovaných / lemmatizovaných: 0 / 0
Park:
- první stabilní verze