Korpus InterCorp

Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus pokrývající co největší počet jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK.

InterCorp lze plně využívat po bezplatné registraci a přihlášení. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.

Paralelní korpus slouží jako zdroj dat pro teoretické studie, lexikografii, studentské práce, výuku, zejména výuku cizích jazyků, počítačové zpracování přirozeného jazyka, překladatele i veřejnost.

Popis InterCorpu

Korpus InterCorp lze od verze 6 považovat za referenční, protože všechny původní verze budou zůstávat stále dostupné v podobě, ve které byly původně zveřejněny. Objem textů i počet jazyků a rozsah anotace, (lemmatizace a tagování) se postupně zvětšuje, a to vždy s vydáním nové verze a zařazením nových nástrojů.

Podrobnější údaje o jednotlivých verzích korpusu InterCorp najdete v přehledu:

Název verze	rok zveřejnění	počet milionů slov¹⁾	počet cizích jazyků	označkovaných / lemmatizovaných	seznam změn
Intercorp verze 7	2014	1 390,0	38	20 / 17	verze 7
Intercorp verze 6	2013	867,3	31	17 / 14	verze 6
Intercorp verze 5	2012	542,6	27	17 / 14	verze 5
Intercorp verze 4	2011	92,3	22	13 / 10	verze 4
Intercorp verze 3	2011	72,3	22	13 / 10	verze 3
Intercorp verze 2	2009	49,3	21	10 / 7	verze 2
Intercorp verze 1	2009	34,5	20	10 / 7	verze 1
Intercorp verze 0	2008	25,0	19	0 / 0	verze 0

Korpus jako takový se skládá ze dvou částí, a to jádra (core) a kolekce (collection). Jádrem korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho obsahuje korpus takzvané kolekce, což jsou texty zpracované a zarovnané automaticky. V konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. neobsahují texty, které nemají český protějšek.

Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými.

V současnosti je přístupný z rozhraní KonText (dříve také NoSketch Engine a Park).

Zadání paralelního dotazu

Výsledek dotazu na podřetězec lieb a lov

Jak citovat InterCorp

Rosen, A. – Vavřín, M.: Korpus InterCorp – angličtina, němčina²⁾, verze 7 z 19. 12. 2014. Ústav Českého národního korpusu FF UK, Praha 2014. Dostupný z WWW: http://www.korpus.cz

Čermák, F. – Rosen, A. (2012): The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics, 17(3), 411–427.

Související odkazy

Paralelní korpus • Korpusový manažer • Korpusy ČNK

¹⁾

počet slov v cizojazyčných textech celkem

²⁾

Upravte podle skutečně použitých jazyků.

Historie: • intercorp

Obsah

Korpus InterCorp

Popis InterCorpu

Jak citovat InterCorp

Související odkazy

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence