Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus pokrývající co největší počet jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK. Korpus slouží jako zdroj dat pro teoretické studie, lexikografii, studentské práce, výuku, zejména výuku cizích jazyků, počítačové zpracování přirozeného jazyka, překladatele i veřejnost.
InterCorp lze plně využívat po bezplatné registraci a přihlášení. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.
InterCorp je součástí Českého národního korpusu, projektu podporovaného Ministerstvem školství, mládeže a tělovýchovy v rámci programu Velké infrastruktury pro výzkum, vývoj a inovace (LM2018137; 2020–22). V letech 2016-2019, 2012-2015 a 2005-2011 byl projekt podporován ze stejného zdroje (jako projekty označené po řadě LM2015044, LM2011023 a 0021620823). Celý projekt je akademický a nevýdělečný.
Korpus InterCorp lze od verze 6 považovat za referenční, protože všechny původní verze budou zůstávat stále dostupné v podobě, ve které byly původně zveřejněny. Objem textů i počet jazyků a rozsah anotace, (lemmatizace a tagování) se postupně zvětšuje, a to vždy s vydáním nové verze a zařazením nových nástrojů.
Podrobnější údaje o jednotlivých verzích korpusu InterCorp najdete v přehledu:
Název verze | rok zveřejnění | počet milionů slov1) | počet cizích jazyků | označkovaných / lemmatizovaných | seznam změn |
---|---|---|---|---|---|
InterCorp verze 16ud | 2024 | 4 859,2 | 61 | 47 / 47 | verze 16ud |
InterCorp verze 16 | 2023 | 4 893,0 | 61 | 27 / 25 | verze 16 |
InterCorp verze 15 | 2022 | 1 588,2 | 41 | 27 / 25 | verze 15 |
InterCorp verze 14 | 2022 | 1 572,0 | 41 | 27 / 25 | verze 14 |
InterCorp verze 13ud | 2021 | 1 551,2 | 40 | 35 / 35 | verze 13ud |
InterCorp verze 13 | 2020 | 1 551,2 | 40 | 27 / 25 | verze 13 |
InterCorp verze 12 | 2019 | 1 533,7 | 40 | 27 / 25 | verze 12 |
InterCorp verze 11 | 2018 | 1 508,4 | 39 | 26 / 25 | verze 11 |
InterCorp verze 10 | 2017 | 1 483,8 | 39 | 23 / 22 | verze 10 |
InterCorp verze 9 | 2016 | 1 460,0 | 39 | 23 / 20 | verze 9 |
InterCorp verze 8 | 2015 | 1 423,0 | 38 | 20 / 17 | verze 8 |
InterCorp verze 7 | 2014 | 1 390,0 | 38 | 20 / 17 | verze 7 |
InterCorp verze 6 | 2013 | 867,3 | 31 | 17 / 14 | verze 6 |
InterCorp verze 5 | 2012 | 542,6 | 27 | 17 / 14 | verze 5 |
InterCorp verze 4 | 2011 | 92,3 | 22 | 13 / 10 | verze 4 |
InterCorp verze 3 | 2011 | 72,3 | 22 | 13 / 10 | verze 3 |
InterCorp verze 2 | 2009 | 49,3 | 21 | 10 / 7 | verze 2 |
InterCorp verze 1 | 2009 | 34,5 | 20 | 10 / 7 | verze 1 |
InterCorp verze 0 | 2008 | 25,0 | 19 | 0 / 0 | verze 0 |
Korpus se skládá ze dvou částí, a to jádra (core) a kolekce (collection). Jádrem korpusu InterCorp jsou převážně beletristické texty s ručními korekturami zarovnání. Kolekce jsou texty získané ve více jazycích, zpracované a zarovnané automaticky. V konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. neobsahují texty, které nemají český protějšek. Některé texty z korpusů Acquis Communautaire a Europarl byly také částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze Open Subtitles, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Na druhé straně byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.
Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými.
InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní Českého národního korpusu KonText (dříve také NoSketch Engine a Park). Kurs práce s rozhraním KonText najdete jako základní kurs.
Alexandr Rosen
Ústav teoretické a komputační lingvistiky
email: alexandr.rosen(at mark)ff.cuni.cz
intercorp(at mark)ff.cuni.cz
- skupinová adresa, používejte prosím jen v odůvodněných případech
Konkrétní jazyková verze: Autor 1 – Autor 2 – Autor 32) (2022): Korpus InterCorp – angličtina, němčina3), verze 15 z 11. 11. 2022. Ústav Českého národního korpusu FF UK, Praha. Dostupný z WWW: http://www.korpus.cz
Celý korpus: Rosen, A. – Vavřín, M. – Zasina, A. J. (2022): Korpus InterCorp, verze 15 z 11. 11. 2022. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz
Čermák, F. – Rosen, A. (2012): The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics, 17(3), 411–427. elektronická verze na IngentaConnect, preprint version