Toto je starší verze dokumentu!
Obsah
Korpus InterCorp
Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus pokrývající co největší počet jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK. Korpus slouží jako zdroj dat pro teoretické studie, lexikografii, studentské práce, výuku, zejména výuku cizích jazyků, počítačové zpracování přirozeného jazyka, překladatele i veřejnost.
InterCorp lze plně využívat po bezplatné registraci a přihlášení. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.
InterCorp je součástí Českého národního korpusu, projektu podporovaného Ministerstvem školství, mládeže a tělovýchovy v rámci programu Velké infrastruktury pro výzkum, vývoj a inovace (LM2018137; 2020–22). V letech 2016-2019, 2012-2015 a 2005-2011 byl projekt podporován ze stejného zdroje (jako projekty označené po řadě LM2015044, LM2011023 a 0021620823). Celý projekt je akademický a nevýdělečný.
Popis InterCorpu
Korpus InterCorp lze od verze 6 považovat za referenční, protože všechny původní verze budou zůstávat stále dostupné v podobě, ve které byly původně zveřejněny. Objem textů i počet jazyků a rozsah anotace, (lemmatizace a tagování) se postupně zvětšuje, a to vždy s vydáním nové verze a zařazením nových nástrojů.
Podrobnější údaje o jednotlivých verzích korpusu InterCorp najdete v přehledu:
Název verze | rok zveřejnění | počet milionů slov1) | počet cizích jazyků | označkovaných / lemmatizovaných | seznam změn |
---|---|---|---|---|---|
InterCorp verze 15 | 2022 | 1 588,2 | 41 | 27 / 25 | verze 15 |
InterCorp verze 14 | 2022 | 1 572,0 | 41 | 27 / 25 | verze 14 |
InterCorp verze 13ud | 2021 | 1 551,2 | 40 | 35 / 35 | verze 13ud |
InterCorp verze 13 | 2020 | 1 551,2 | 40 | 27 / 25 | verze 13 |
InterCorp verze 12 | 2019 | 1 533,7 | 40 | 27 / 25 | verze 12 |
InterCorp verze 11 | 2018 | 1 508,4 | 39 | 26 / 25 | verze 11 |
InterCorp verze 10 | 2017 | 1 483,8 | 39 | 23 / 22 | verze 10 |
InterCorp verze 9 | 2016 | 1 460,0 | 39 | 23 / 20 | verze 9 |
InterCorp verze 8 | 2015 | 1 423,0 | 38 | 20 / 17 | verze 8 |
InterCorp verze 7 | 2014 | 1 390,0 | 38 | 20 / 17 | verze 7 |
InterCorp verze 6 | 2013 | 867,3 | 31 | 17 / 14 | verze 6 |
InterCorp verze 5 | 2012 | 542,6 | 27 | 17 / 14 | verze 5 |
InterCorp verze 4 | 2011 | 92,3 | 22 | 13 / 10 | verze 4 |
InterCorp verze 3 | 2011 | 72,3 | 22 | 13 / 10 | verze 3 |
InterCorp verze 2 | 2009 | 49,3 | 21 | 10 / 7 | verze 2 |
InterCorp verze 1 | 2009 | 34,5 | 20 | 10 / 7 | verze 1 |
InterCorp verze 0 | 2008 | 25,0 | 19 | 0 / 0 | verze 0 |
Korpus se skládá ze dvou částí, a to jádra (core) a kolekce (collection). Jádrem korpusu InterCorp jsou převážně beletristické texty s ručními korekturami zarovnání. Kolekce jsou texty získané ve více jazycích, zpracované a zarovnané automaticky. V konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. neobsahují texty, které nemají český protějšek. Některé texty z korpusů Acquis Communautaire a Europarl byly také částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze Open Subtitles, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Na druhé straně byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.
Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými.
InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní Českého národního korpusu KonText (dříve také NoSketch Engine a Park). Kurs práce s rozhraním KonText najdete jako základní kurs.
Kontakty
Koordinace, technická podpora a administrace webových stránek
Alexandr Rosen
Ústav teoretické a komputační lingvistiky
email: alexandr.rosen(at mark)ff.cuni.cz
Diskusní skupina
intercorp(at mark)ff.cuni.cz
- skupinová adresa, používejte prosím jen v odůvodněných případech
Účastníci
Koordinátoři pro jednotlivé jazyky
Jak citovat InterCorp
Konkrétní jazyková verze: Autor, 1. – Autor, 2. – Autor, 3.2): Korpus InterCorp – angličtina, němčina3), verze 10 z 1. 12. 2017. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz
Celý korpus: Rosen, A. – Vavřín, M. – Zasina, A. J.: Korpus InterCorp, verze 10 z 1. 12. 2017. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz
Čermák, F. – Rosen, A. (2012): The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics, 17(3), 411–427. elektronická verze na IngentaConnect, preprint version