AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus InterCorp

Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus pokrývající co největší počet jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK. Korpus slouží jako zdroj dat pro teoretické studie, lexikografii, studentské práce, výuku, zejména výuku cizích jazyků, počítačové zpracování přirozeného jazyka, překladatele i veřejnost.

InterCorp lze plně využívat po bezplatné registraci a přihlášení. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.

InterCorp je součástí Českého národního korpusu, projektu podporovaného Ministerstvem školství, mládeže a tělovýchovy v rámci programu Velké infrastruktury pro výzkum, vývoj a inovace (LM2018137; 2020–22). V letech 2016-2019, 2012-2015 a 2005-2011 byl projekt podporován ze stejného zdroje (jako projekty označené po řadě LM2015044, LM2011023 a 0021620823). Celý projekt je akademický a nevýdělečný.

Popis InterCorpu

Korpus InterCorp lze od verze 6 považovat za referenční, protože všechny původní verze budou zůstávat stále dostupné v podobě, ve které byly původně zveřejněny. Objem textů i počet jazyků a rozsah anotace, (lemmatizace a tagování) se postupně zvětšuje, a to vždy s vydáním nové verze a zařazením nových nástrojů.

Podrobnější údaje o jednotlivých verzích korpusu InterCorp najdete v přehledu:

Název verze rok zveřejnění počet milionů slov1) počet cizích jazyků označkovaných / lemmatizovaných seznam změn
InterCorp verze 16 2023 4 890,9 61 27 / 25 verze 16
InterCorp verze 15 2022 1 588,2 41 27 / 25 verze 15
InterCorp verze 14 2022 1 572,0 41 27 / 25 verze 14
InterCorp verze 13ud 2021 1 551,2 40 35 / 35 verze 13ud
InterCorp verze 13 2020 1 551,2 40 27 / 25 verze 13
InterCorp verze 12 2019 1 533,7 40 27 / 25 verze 12
InterCorp verze 11 2018 1 508,4 39 26 / 25 verze 11
InterCorp verze 10 2017 1 483,8 39 23 / 22 verze 10
InterCorp verze 9 2016 1 460,0 39 23 / 20 verze 9
InterCorp verze 8 2015 1 423,0 38 20 / 17 verze 8
InterCorp verze 7 2014 1 390,0 38 20 / 17 verze 7
InterCorp verze 6 2013 867,3 31 17 / 14 verze 6
InterCorp verze 5 2012 542,6 27 17 / 14 verze 5
InterCorp verze 4 2011 92,3 22 13 / 10 verze 4
InterCorp verze 3 2011 72,3 22 13 / 10 verze 3
InterCorp verze 2 2009 49,3 21 10 / 7 verze 2
InterCorp verze 1 2009 34,5 20 10 / 7 verze 1
InterCorp verze 0 2008 25,0 19 0 / 0 verze 0

Korpus se skládá ze dvou částí, a to jádra (core) a kolekce (collection). Jádrem korpusu InterCorp jsou převážně beletristické texty s ručními korekturami zarovnání. Kolekce jsou texty získané ve více jazycích, zpracované a zarovnané automaticky. V konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. neobsahují texty, které nemají český protějšek. Některé texty z korpusů Acquis Communautaire a Europarl byly také částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze Open Subtitles, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Na druhé straně byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.

Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými.

InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní Českého národního korpusu KonText (dříve také NoSketch Engine a Park). Kurs práce s rozhraním KonText najdete jako základní kurs.

Zadání paralelního dotazu
Výsledek dotazu na části slova lieb a lov

Kontakty

Koordinace, technická podpora a administrace webových stránek

Alexandr Rosen
Ústav teoretické a komputační lingvistiky
email: alexandr.rosen(at mark)ff.cuni.cz

Diskusní skupina

intercorp(at mark)ff.cuni.cz
- skupinová adresa, používejte prosím jen v odůvodněných případech

Účastníci

Koordinátoři pro jednotlivé jazyky

angličtina
Mgr. Denisa Šebestová
Ústav anglického jazyka a didaktiky
doc. PhDr. Markéta Malá, Ph.D.
Ústav obecné lingvistiky
Mgr. Michal Kubánek
Katedra anglistiky a amerikanistiky UP
arabština
PhDr. Jiří Milička, Ph.D.
Ústav Českého národního korpusu
Doc. PhDr. Petr Zemánek CSc.
Ústav srovnávací jazykovědy
běloruština
PhDr. Veranika Bialkovich
bulharština
Prof. PhDr. Hana Gladkova, CSc.
Katedra jihoslovanských a balkanistických studií
Mgr. Natalie Kalajdžievová Ph.D.
Katedra jihoslovanských a balkanistických studií
čínština
Mgr. Vlastimil Dobečka
Katedra asijských studií Filozofické fakulty Univerzity Palackého v Olomouci
dánština
Mgr. Jana Ovská
Mgr. Kateřina Haušildová
Ústav germánských studií
nizozemština
Mgr. Eliška Boková
PhDr. Zdenka Hrnčířová
Ústav germánských studií
finština
Mgr. Lenka Fárová, Ph.D.
Ústav germánských studií
francouzština
PhDr. Olga Nádvorníková Ph.D.
Ústav románských studií
hindština
Mgr. Nora Melnikova, Ph.D.
Ústav jižní a centrální Asie
Bc. Vojtěch Diatka
Ústav obecné lingvistiky
hornolužická srbština
Mgr. Katja Brankačkec, Ph.D.
Slovanský ústav
chorvatština
Mgr. Karel Jirásek, Ph.D.
Katedra jihoslovanských a balkanistických studií
italština
doc. Pavel Štichauer, Ph.D.
Ústav románských studií
japonština
Mgr. Petra Kanasugi, Ph.D.
Ústav Dálného východu
katalánština
Mgr. Andreu Bauçà i Sastre, PhD.
Centre Carlemany de Llengua Catalana,Ústav románských studií,
Ústav vysokoškolského vzdělávání a výzkumu, Ministerstvo školství a mládeže, Andora
litevština
Mgr. Věra Kociánová
RNDr. Hana Skoumalová, Ph.D.
lotyština
Mgr. Michal Škrabal, Ph.D.
Ústav Českého národního korpusu
Mgr. Marija Lazar
maďarština
Mgr. Simona Kolmanová, Ph.D.
Katedra středoevropských studií
makedonština
PhDr. Michala Adamová
Ústav Českého národního korpusu
Mgr. Vojkan Milenkovik
němčina
Mgr. Štěpán Zbytovský, Ph.D.
Ústav germánských studií
Mgr. Tomáš Káňa, Ph.D.
Katedra německého jazyka a literatury PeF MU v Brně
PhDr. Hana Peloušková, Ph.D.
Katedra německého jazyka a literatury PeF MU v Brně
PhDr. Vít Dovalil, Ph.D.
Ústav germánských studií
norština
Mgr. Pavel Vondřička Ph.D.
Ústav Českého národního korpusu
polština
Mgr. Łucja Bańczyk
Dr. Renata Dybalska
Ústav středoevropských studií
portugalština
PhDr. Jaroslava Jindrová Ph.D.
Ústav románských studií
romština
Ruben Pellar, Master of Arts, Ph.D.
rumunština
Ing. Alexandr Krestovský
Univerzita Karlova v Praze CERGE
ruština
PhDr. Natálie Rajnochová, Ph.D.
Ústav východoevropských studií
Mgr. Naděžda Runštuková
srbština
PhDr. Ana Adamovičová, Ph.D.
Ústav bohemistických studií
slovenština
doc. PhDr. Mira Nábělková CSc.
Ústav slavistických a východoevropských studií
slovinština
Mgr. Leoš Soustružník
Mgr. David Blažek, Ph.D.
Slovanský ústav AV ČR
španělština
Doc. PhDr. Petr Čermák, Ph.D.
Ústav románských studií
švédština
Lenka John
Velvyslanectví Švédska
ukrajinština
Dr. Natalia Kotsyba

Jak citovat InterCorp

Konkrétní jazyková verze: Autor 1 – Autor 2 – Autor 32) (2022): Korpus InterCorp – angličtina, němčina3), verze 15 z 11. 11. 2022. Ústav Českého národního korpusu FF UK, Praha. Dostupný z WWW: http://www.korpus.cz

Celý korpus: Rosen, A. – Vavřín, M. – Zasina, A. J. (2022): Korpus InterCorp, verze 15 z 11. 11. 2022. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz

Čermák, F. – Rosen, A. (2012): The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics, 17(3), 411–427. elektronická verze na IngentaConnect, preprint version

Související odkazy

1)
počet slov v cizojazyčných textech celkem
2)
Seznam autorů pro každý jazyk najdete v KonTextu v souhrnných informacích o korpusu, které se objeví po kliknutí na jméno vybraného korpusu pod logem KonTextu.
3)
Upravte podle skutečně použitých jazyků.