Toto je starší verze dokumentu!

Obsah

Korpus InterCorp verze 13ud – Universal Dependencies

Korpus InterCorp verze 13ud – Universal Dependencies

Název		čeština jádro	čeština kolekce	cizí jazyky jádro	cizí jazyky kolekce
Pozice	Počet tokenů	141 124 127	117 877 960	391 209 482	1 518 645 852
Pozice	Počet slovních tvarů	113 934 806	89 973 959	327 497 843	1 219 622 437
Struktury	Počet dokumentů	1 657	30	3 994	282
	Počet textů	1 657	111 951	3 994	1 843 528
	Počet vět	9 782 002	13 606 198	24 318 736	143 196 252
Další informace	referenční	ANO
	reprezentativní	NE (různé textové typy)
	rok zveřejnění	2021
	cizích jazyků	40
	tagovaných jazyků	35
	jazyky s lemmaty	35
	jazyky se syntaktickou anotací	35

Přístup k textům

Po registraci na stránce Prohlášení uživatele korpusů ÚČNK lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.

InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní KonText pomocí speciálního dotazovacího formuláře pro paralelní korpusy.

Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na Martina Vavřína.

Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Od verze 6 dál jsou všechny předchozí verze stále dostupné. Verzi 13, označenou 13ud, zveřejňujeme s lingvistickým značkováním podle standardu Universal Dependencies.

Hlavní rozdíly mezi verzemi 13 a 13ud

Z celkového počtu 41 jazyků (včetně češtiny) je ve verzi 13ud lingvisticky anotovaných 36; všechny takové jazyky jsou navíc vybaveny i syntaktickou anotací.
Texty jsou ve všech jazycích anotované stejně, a to podle standardu UD (Universal Dependencies).
Podrobný popis využití anotace podle UD v korpusu InterCorp najdete pod heslem Universal Dependencies ve Slovníčku pojmů ČNK.
Anotaci provedl u všech jazyků nástroj UDPipe na základě dat vytvořených v projektu UD.¹⁾

Obsah korpusu

InterCorp verze 13ud obsahuje stejné texty jako InterCorp verze 13, obě verze se liší jen v lingvistické anotaci. Údaje o počtu tokenů a slov ve verzi 13ud se však můžou mírně lišit kvůli jinému způsobu tokenizace.

Jádrem korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. kolekce. Ve verzi 13ud jsou k dispozici tyto kolekce:

publistické články a zpravodajství z webových stránek Project Syndicate a VoxEurop (dříve PressEurop)
právní texty Evropské unie z korpusu Acquis Communautaire
zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu Europarl
filmové titulky z databáze OpenSubtitles
překlady Bible

Tyto texty jsou zarovnány jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. ty, které nemají český protějšek. Některé texty z korpusů Acquis Communautaire a Europarl byly rovněž částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze OpenSubtitles, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Zato byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů. Došlo rovněž k rozdělení Syndicate a PressEurop na jednotlivé ročníky, čímž se navýšil počet dokumentů v kolekcích.

Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 13ud z prosince 2021 činí v zarovnaných cizojazyčných textech 327 milionů slov v jádru a 1 220 milionů slov v kolekcích. V českých textech je v jádru 114 a v kolekcích 90 milionů slov (viz historie verzí). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.

Skladba korpusu podle jednotlivých jazyků – jádro i kolekce

Skladba korpusu podle jednotlivých jazyků – jádro

Skladba korpusu podle jednotlivých jazyků – kolekce

Zkratka	Jazyk	Jádro	Syndicate	Presseurop	Acquis	Europarl	Subtitles	Bible	Celkem
ar	arabština	34	0	0	0	0	0	0	34
be	běloruština	5 713	0	0	0	0	0	0	5 713
bg	bulharština	7 067	0	0	13 582	9 082	0	0	29 732
ca	katalánština	8 006	0	0	0	0	0	728	8 735
da	dánština	7 122	0	0	20 012	13 800	14 372	656	55 962
de	němčina	37 680	4 735	2 506	20 710	13 153	8 388	725	87 897
el	řečtina	0	0	0	23 684	15 382	23 562	0	62 628
en	angličtina	33 585	4 901	2 685	23 138	15 643	51 589	730	132 270
es	španělština	26 553	5 609	2 858	26 270	16 249	36 625	0	114 164
et	estonština	0	0	0	14 885	10 899	10 290	0	36 073
fi	finština	5 655	0	0	15 260	10 108	15 047	542	46 613
fr	francouzština	19 734	5 594	3 041	26 294	17 196	25 996	764	98 619
he	hebrejština	0	0	0	0	0	16 050	0	16 050
hi	hindština	403	0	0	0	0	0	0	403
hr	chorvatština	21 924	0	0	0	0	19 022	570	41 515
hu	maďarština	6 441	0	0	17 851	12 188	21 091	0	57 572
is	islandština	0	0	0	0	0	1 581	0	1 581
it	italština	14 416	1 225	2 709	23 648	15 502	14 765	685	72 949
ja	japonština	2 279	0	0	0	0	452	0	2 731
lt	litevština	419	0	0	17 175	11 198	555	471	29 819
lv	lotyština	2 646	0	0	17 518	11 682	280	537	32 662
mk	makedonština	8 881	0	0	0	0	1 877	0	10 758
ms	malajština	0	0	0	0	0	3 521	0	3 521
mt	maltština	0	0	0	13 805	0	0	0	13 805
nl	nizozemština	16 214	812	2 953	23 401	15 556	29 355	717	89 008
no	norština	7 753	0	0	0	0	0	724	8 477
pl	polština	25 738	0	2 367	19 483	12 663	25 801	576	86 628
pt	portugalština	4 981	554	2 782	24 260	15 186	41 452	712	89 927
rn	romština	14	0	0	0	0	0	0	14
ro	rumunština	4 198	0	2 726	8 044	9 428	33 955	0	58 352
ru	ruština	8 662	3 993	0	0	0	6 898	566	20 119
sk	slovenština	8 543	0	0	18 397	12 727	5 132	561	45 361
sl	slovinština	3 871	0	0	18 513	12 249	17 054	0	51 688
sq	albánština	0	0	0	0	0	2 003	0	2 003
sr	srbština	11 580	0	0	0	0	20 679	0	32 259
sv	švédština	15 790	0	0	19 459	13 778	14 652	638	64 316
tr	turečtina	0	0	0	0	0	20 895	0	20 895
uk	ukrajinština	11 461	0	0	0	0	244	596	12 301
vi	vietnamština	0	0	0	0	0	1 269	0	1 269
zh	čínština	135	269	0	0	0	2 292	0	2 696
celkem		327 498	27 692	24 627	405 390	263 669	486 747	11 498	1 547 120
cs	čeština	113 935	4 356	2 313	19 189	12 919	50 634	562	203 909
CELKEM		441 433	32 048	26 941	424 579	276 587	537 382	12 060	1 751 029

Pozn. 1: Jazyky uvedené kurzívou nemají lingvistickou anotaci.

Pozn. 2: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.

Poděkování

Děkujeme za možnost využívat následující texty a software:

Texty:

za možnost zařadit do korpusu nejnovější (13. opravené) vydání Českého ekumenického překladu Bible z roku 2016 děkujeme České biblické společnosti, zvláště Petru Fryšovi
beletristické texty v řadě slovanských i jiných jazyků z korpusu ASPAC – Amsterdam Slavic Parallel Aligned Corpus – zvláštní poděkování patří Adrianu Barentsenovi
publicistické texty ve více jazycích z webových stránek Project Syndicate
publicistické texty ve více jazycích ze serveru VoxEurop
právnické texty v jazycích EU z korpusu JRC-ACQUIS
jednání Evropského parlamentu z korpusu EuroParl
slovensko-české konkordance ze Slovenského národního korpusu
povídky ve více jazycích z projektu Můj rok 1989 z Goethe Institutu
za více textů v česko-litevské části korpusu a za práci Jiřího Levého Umění překladu ve více jazycích vděčíme Patricku Cornessovi
román George Orwella 1984 ve více jazycích z korpusu Multext-East
ukrajinské a polské texty z korpusu PolUkr
norské texty z nakladatelství Forlaget Oktober
filmové titulky z databáze Open Subtitles

Předzpracování:

editor paralelních textů InterText (autor Pavel Vondřička)
zarovnávač Hunalign
větný segmentátor pro češtinu (autor Pavel Květoň)
větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
větný segmentátor Punkt pro všechny ostatní jazyky ze sady Natural Language Toolkit

Nástroj na lingvistické značkování:

UDPipe (s poděkováním Janě a Milanovi Strakovým, Danu Zemanovi a Martinu Popelovi)

Jak citovat

Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu www.intercorp.korpus.cz a k odborným publikacím odkaz na tento článek:

ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics. Vol. 13, no. 3, p. 411–427 (bibtex, elektronické vydání na serveru ingentaConnect, verze před tiskem).

Seznam další literatury najdete v Repozitáři bibliografických informací založených na ČNK. Každý odkaz na práci využívající InterCorp je vítán, viz podrobnosti.

Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.:

ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. Korpus InterCorp – čeština²⁾, verze 13ud z 22. 12. 2021. Ústav Českého národního korpusu, FF UK, Praha 2021. Dostupné z WWW: https://kontext.korpus.cz/

Odkazy

Výběr literatury k UD

Marie-Catherine de Marneffe, Christopher Manning, Joakim Nivre, Daniel Zeman (2021): Universal Dependencies. In: Computational Linguistics, ISSN 1530-9312, vol. 47, no. 2, pp. 255-308.

Timothy Baldwin, William Croft, Joakim Nivre, Agata Savary (2021): Universals of Linguistic Idiosyncrasy in Multilingual Computational Linguistics. Report from Dagstuhl Seminar 21351. DOI: 10.4230/DagRep.11.7.89

Daniel Zeman (2018): The World of Tokens, Tags and Trees. ISBN 978-80-88132-09-7.

Úplný seznam najdete zde.

Tutoriály a přednášky o UD

Daniel Zeman: Universal Dependencies and the Slavic Languages. Warszawa, 19.11.2018.

Joakim Nivre, Daniel Zeman, Filip Ginter, Francis M. Tyers: Tutorial on Universal Dependencies: Adding a new language to UD

Anna Nedoluzhko, Michal Novák, Martin Popel, Zdeněk Žabokrtský, Daniel Zeman: Coreference meets Universal Dependencies. Praha, 19/04/2021.

Daniel Zeman: Reflexives in Universal Dependencies. Praha, 04/03/2019.

O korpusu InterCorp s anotací podle UD

Olga Nádvorníková, Alexandr Rosen, Martin Vavřín: InterCorp s jednotnou morfologickou a syntaktickou anotací podle Universal Dependencies: zážitky tvůrců a uživatelů. Praha, 16/11/2021. Video, pdf: zážitky tvůrců, zážitky uživatelů.

Viz též

InterCorp • Verze 13 • Verze 12 • Verze 11 • Verze 10 • Verze 9 • Verze 8 • Verze 7 • Verze 6 • Verze 5 • Verze 4 • Verze 3 • Historie verzí

Původní stránky projektu InterCorp jsou stále zde.

¹⁾

Nástroj využívá všechna data pro daný jazyk, tj. všechny treebanky uvedené na stránce https://lindat.mff.cuni.cz/services/udpipe/IUDPipe. Při zpracování lze i tak zadat parametr, který pro některá rozhodnutí, např. pro tokenizaci, preferuje určitý model. Při anotaci toho korpusu byly zadány tyto modely: arabic-padt-ud-2.6-200830, belarusian-hse-ud-2.6-200830, bulgarian-btb-ud-2.6-200830, catalan-ancora-ud-2.6-200830, chinese-gsdsimp-ud-2.6-200830, croatian-set-ud-2.6-200830, czech-fictree-ud-2.6-200830, danish-ddt-ud-2.6-200830, dutch-alpino-ud-2.6-200830, english-partut-ud-2.6-200830, estonian-edt-ud-2.6-200830, finnish-tdt-ud-2.6-200830, french-gsd-ud-2.6-200830, german-gsd-ud-2.6-200830, greek-gdt-ud-2.6-200830, hebrew-htb-ud-2.6-200830, hindi-hdtb-ud-2.6-200830, hungarian-szeged-ud-2.6-200830, italian-postwita-ud-2.6-200830, japanese-gsd-ud-2.6-200830, latvian-lvtb-ud-2.6-200830, lithuanian-alksnis-ud-2.6-200830, maltese-mudt-ud-2.6-200830, norwegian-nynorsk-ud-2.6-200830, polish-pdb-ud-2.6-200830, portuguese-gsd-ud-2.6-200830, romanian-rrt-ud-2.6-200830, russian-syntagrus-ud-2.6-200830, serbian-set-ud-2.6-200830, slovak-snk-ud-2.6-200830, slovenian-ssj-ud-2.6-200830, spanish-ancora-ud-2.6-200830, swedish-talbanken-ud-2.6-200830, turkish-imst-ud-2.6-200830, ukrainian-iu-ud-2.6-200830, vietnamese-vtb-ud-2.6-200830.

²⁾

Vložte konkrétní jazyky.

Historie: • verze15 • verze14 • verze12 • verze13ud