Toto je starší verze dokumentu!

Obsah

Korpus InterCorp

Korpus InterCorp

Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus pokrývající co největší počet jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK. Korpus slouží jako zdroj dat pro teoretické studie, lexikografii, studentské práce, výuku, zejména výuku cizích jazyků, počítačové zpracování přirozeného jazyka, překladatele i veřejnost.

InterCorp lze plně využívat po bezplatné registraci a přihlášení. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.

InterCorp je součástí Českého národního korpus, projektu podporovaného Ministerstvem školství, mládeže a tělovýchovy v rámci programu Velké infrastruktury pro výzkum, vývoj a inovace (LM2018137; 2020–22). V letech 2016-2019, 2012-2015 a 2005-2011 byl projekt podporován ze stejného zdroje (jako projekty označené po řadě LM2015044, LM2011023 a 0021620823). Celý projekt je akademický a nevýdělečný.

Popis InterCorpu

Korpus InterCorp lze od verze 6 považovat za referenční, protože všechny původní verze budou zůstávat stále dostupné v podobě, ve které byly původně zveřejněny. Objem textů i počet jazyků a rozsah anotace, (lemmatizace a tagování) se postupně zvětšuje, a to vždy s vydáním nové verze a zařazením nových nástrojů.

Podrobnější údaje o jednotlivých verzích korpusu InterCorp najdete v přehledu:

Název verze	rok zveřejnění	počet milionů slov¹⁾	počet cizích jazyků	označkovaných / lemmatizovaných	seznam změn
InterCorp verze 14	2022	1 572,0	41	27 / 25	verze 14
InterCorp verze 13ud	2021	1 551,2	40	35 / 35	verze 13ud
InterCorp verze 13	2020	1 551,2	40	27 / 25	verze 13
InterCorp verze 12	2019	1 533,7	40	27 / 25	verze 12
InterCorp verze 11	2018	1 508,4	39	26 / 25	verze 11
InterCorp verze 10	2017	1 483,8	39	23 / 22	verze 10
InterCorp verze 9	2016	1 460,0	39	23 / 20	verze 9
InterCorp verze 8	2015	1 423,0	38	20 / 17	verze 8
InterCorp verze 7	2014	1 390,0	38	20 / 17	verze 7
InterCorp verze 6	2013	867,3	31	17 / 14	verze 6
InterCorp verze 5	2012	542,6	27	17 / 14	verze 5
InterCorp verze 4	2011	92,3	22	13 / 10	verze 4
InterCorp verze 3	2011	72,3	22	13 / 10	verze 3
InterCorp verze 2	2009	49,3	21	10 / 7	verze 2
InterCorp verze 1	2009	34,5	20	10 / 7	verze 1
InterCorp verze 0	2008	25,0	19	0 / 0	verze 0

Korpus se skládá ze dvou částí, a to jádra (core) a kolekce (collection). Jádrem korpusu InterCorp jsou převážně beletristické texty s ručními korekturami zarovnání. Kolekce jsou texty získané ve více jazycích, zpracované a zarovnané automaticky. V konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. neobsahují texty, které nemají český protějšek. Některé texty z korpusů Acquis Communautaire a Europarl byly také částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze Open Subtitles, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Na druhé straně byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.

Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými.

InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní Českého národního korpusu KonText (dříve také NoSketch Engine a Park). Kurs práce s rozhraním KonText najdete jako základní kurs.

Zadání paralelního dotazu

Výsledek dotazu na části slova lieb a lov

Kontakty

Koordinace, technická podpora a administrace webových stránek: martin.vavrin(at mark)ff.cuni.cz

Vedení a admistrace projektu: alexandr.rosen(at mark)ff.cuni.cz, lucie.novakova(at mark)ff.cuni.cz

Diskusní skupina: intercorp(at mark)ff.cuni.cz - skupinová adresa, používejte prosím jen v odůvodněných případech

Účastníci

Administrace projektu

Ing. Alexandr Rosen, Ph.D.
Ústav teoretické a komputační lingvistiky

Ing. Lucie Nováková
Ústav Českého národního korpusu

Software a technická podpora

Bc. Martin Vavřín
Ústav Českého národního korpusu

Mgr. Bc. Adrian Zasina, Ph.D.
Ústav Českého národního korpusu

Koordinátoři pro jednotlivé jazyky

	angličtina Mgr. Denisa Šebestová Ústav anglického jazyka a didaktiky doc. PhDr. Markéta Malá, Ph.D. Ústav obecné lingvistiky Mgr. Michal Kubánek Katedra anglistiky a amerikanistiky UP
	arabština PhDr. Jiří Milička, Ph.D. Ústav Českého národního korpusu Doc. PhDr. Petr Zemánek CSc. Ústav srovnávací jazykovědy
	běloruština PhDr. Veranika Bialkovich
	bulharština Prof. PhDr. Hana Gladkova, CSc. Katedra jihoslovanských a balkanistických studií Mgr. Natalie Kalajdžievová Ph.D. Katedra jihoslovanských a balkanistických studií
	čínština Mgr. Vlastimil Dobečka Katedra asijských studií Filozofické fakulty Univerzity Palackého v Olomouci
	dánština Mgr. Jana Ovská Mgr. Kateřina Haušildová Ústav germánských studií
	nizozemština Mgr. Eliška Boková PhDr. Zdenka Hrnčířová Ústav germánských studií
	finština Mgr. Lenka Fárová, Ph.D. Ústav germánských studií
	francouzština PhDr. Olga Nádvorníková Ph.D. Ústav románských studií
	hindština Mgr. Nora Melnikova, Ph.D. Ústav jižní a centrální Asie Bc. Vojtěch Diatka Ústav obecné lingvistiky
	chorvatština Mgr. Karel Jirásek, Ph.D. Katedra jihoslovanských a balkanistických studií
	italština doc. Pavel Štichauer, Ph.D. Ústav románských studií
	japonština Mgr. Petra Kanasugi, Ph.D. Ústav Dálného východu
	katalánština Mgr. Andreu Bauçà i Sastre, PhD. Centre Carlemany de Llengua Catalana,Ústav románských studií, Ústav vysokoškolského vzdělávání a výzkumu, Ministerstvo školství a mládeže, Andora
	litevština Mgr. Věra Kociánová RNDr. Hana Skoumalová, Ph.D.
	lotyština Mgr. Michal Škrabal, Ph.D. Ústav Českého národního korpusu Mgr. Marija Lazar
	maďarština Mgr. Simona Kolmanová, Ph.D. Katedra středoevropských studií
	makedonština PhDr. Michala Adamová Ústav Českého národního korpusu Mgr. Vojkan Milenkovik
	němčina Mgr. Štěpán Zbytovský, Ph.D. Ústav germánských studií Mgr. Tomáš Káňa, Ph.D. Katedra německého jazyka a literatury PeF MU v Brně PhDr. Hana Peloušková, Ph.D. Katedra německého jazyka a literatury PeF MU v Brně PhDr. Vít Dovalil, Ph.D. Ústav germánských studií
	norština Mgr. Pavel Vondřička Ph.D. Ústav Českého národního korpusu
	polština Mgr. Łucja Bańczyk Dr. Renata Dybalska Ústav středoevropských studií
	portugalština PhDr. Jaroslava Jindrová Ph.D. Ústav románských studií
	romština Ruben Pellar, Master of Arts, Ph.D.
	rumunština Ing. Alexandr Krestovský Univerzita Karlova v Praze CERGE
	ruština PhDr. Natálie Rajnochová, Ph.D. Ústav východoevropských studií Mgr. Naděžda Runštuková
	srbština PhDr. Ana Adamovičová, Ph.D. Ústav bohemistických studií
	slovenština doc. PhDr. Mira Nábělková CSc. Ústav slavistických a východoevropských studií
	slovinština Mgr. Leoš Soustružník Mgr. David Blažek, Ph.D. Slovanský ústav AV ČR
	španělština Doc. PhDr. Petr Čermák, Ph.D. Ústav románských studií
	švédština Lenka John Velvyslanectví Švédska
	ukrajinština Dr. Natalia Kotsyba

Jak citovat InterCorp

Konkrétní jazyková verze: Autor, 1. – Autor, 2. – Autor, 3.²⁾: Korpus InterCorp – angličtina, němčina³⁾, verze 10 z 1. 12. 2017. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz

Celý korpus: Rosen, A. – Vavřín, M. – Zasina, A. J.: Korpus InterCorp, verze 10 z 1. 12. 2017. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz

Čermák, F. – Rosen, A. (2012): The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics, 17(3), 411–427. elektronická verze na IngentaConnect, preprint version

Související odkazy

Paralelní korpus • Korpusový manažer • Korpusy ČNK

Viz též původní stránky projektu InterCorp.

See the original InterCorp site in English.

¹⁾

počet slov v cizojazyčných textech celkem

²⁾

Seznam autorů pro každý jazyk najdete v KonTextu v souhrnných informacích o korpusu, které se objeví po kliknutí na jméno vybraného korpusu pod logem KonTextu.

³⁾

Upravte podle skutečně použitých jazyků.

Historie: • intercorp