~~NOTOC~~ =====Korpus InterCorp verze 7===== ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 95 814 527 | 116 374 744 | 208 845 922 | 1 546 493 833 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 77 121 760 | 88 303 155 | 173 224 560 | 1 216 880 655 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 184 | 5 | 2 294 | 87 | ^ ::: ^ Počet div | 1 184 | 107 388 | 2 294 | 1 817 043 | ^ ::: ^ Počet vět | 6 595 174 | 13 497 188 | 12 796 035 | 142 788 867 | ^ Další informace ^ [[pojmy:referencni|referenční]] | ANO ^^^^ ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] | NE ([[seznamy:txtype|různé textové typy]]) ^^^^ ^ ::: ^ rok zveřejnění | 2014 ^^^^ ^ ::: ^ cizích jazyků | 38 ^^^^ ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 20 ^^^^ ^ ::: ^ [[pojmy:lemma|lemmat.]] jazyků | 17 ^^^^ ====Přístup k textům==== InterCorp verze 7 je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu. Specifikem InterCorpu je jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné [[pojmy:referencni|referenční]] entity, objem textů a případně i počet jazyků a rozsah anotace se postupně zvětšuje, a to vždy s vydáním nové verze. Starší verze InterCorpu jsou od roku 2014 zpětně dostupné. ====Odkazy====

Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu www.korpus.cz/intercorp a k odborným publikacím odkaz na článek ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics. Vol. 13, no. 3, p. 411–427 (bibtex, elektronické vydání na serveru ingentaConnect, verze před tiskem).

Seznam další literatury najdete zde, případně v repozitáři bibliografických informací založených na Českém národním korpusu. Vítáme všechny odkazy na práce s využitím korpusu InterCorp a prosíme o jejich zadání do repozitáře; podrobnější informace o něm najdete zde

====Obsah korpusu====

Jádrem korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. kolekce. Ve verzi 7 jsou k dispozici tyto kolekce:

publistické články a zpravodajství z webových stránek Project Syndicate a Presseurop
právní texty Evropské Unie z korpusu Acquis Communautaire
zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu Europarl
filmové titulky ze databáze Open Subtitles

Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. neobsahují texty, které nemají český protějšek. Některé texty z korpusů Acquis Communautaire a Europarl byly také částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze Open Subtitles, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Na druhé straně byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.

Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 7 z prosince 2014 je 173 milionů pozic v zarovnaných cizojazyčných textech v jádru a 1 217 milionů slov v zarovnaných cizojazyčných textech v kolekcích; historii verzí najdete zde. Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech.

Graf složení korpusů jednotlivých jazyků – Jádro

Graf složení korpusů jednotlivých jazyků – Kolekce

====Velikost korpusu v tisících slov====

Zkratka	Jazyk	Jádro	Syndicate	Presseurop	Acquis	Europarl	Subtitles	Celkem
ar	arabština	34	0	0	0	0	0	34
be	běloruština	1 751	0	0	0	0	0	1 751
bg	bulharština	4 923	0	0	13 816	9 083	0	27 823
ca	katalánština	4 498	0	0	0	0	0	4 498
da	dánština	1 311	0	0	21 680	13 916	14 430	51 336
de	němčina	26 315	3 050	1 715	21 724	13 089	8 367	74 260
el	řečtina	0	0	0	25 070	15 404	23 715	64 188
en	angličtina	12 641	3 083	1 863	24 208	15 580	52 101	109 476
es	španělština	16 907	3 479	1 948	27 001	15 885	36 379	101 599
et	estonština	0	0	0	15 963	10 900	10 296	37 158
fi	finština	3 054	0	0	16 455	10 175	15 098	44 782
fr	francouzština	6 976	3 535	2 054	27 352	17 178	25 962	83 057
he	hebrejština	0	0	0	0	0	16 221	16 221
hi	hindština	206	0	0	0	0	0	206
hr	chorvatština	14 210	0	0	0	0	19 093	33 303
hu	maďarština	4 014	0	0	19 177	12 307	21 240	56 737
is	islandština	0	0	0	0	0	1 585	1 585
it	italština	6 313	247	1 893	24 849	15 489	14 654	63 446
ja	japonština	0	0	0	0	0	113	113
lt	litevština	358	0	0	18 393	11 213	558	30 522
lv	lotyština	1 337	0	0	18 745	11 689	280	32 051
mk	makedonština	3 221	0	0	0	0	1 877	5 098
ms	malajština	0	0	0	0	0	3 521	3 521
mt	maltština	0	0	0	14 133	0	0	14 133
nl	nizozemština	9 370	0	2 082	24 746	15 563	29 363	81 125
no	norština	4 103	0	0	0	0	0	4 103
pl	polština	16 009	0	1 662	20 628	12 811	26 572	77 683
pt	portugalština	2 393	0	2 103	28 603	16 485	43 392	92 976
ro	rumunština	3 156	0	1 917	8 200	9 446	34 129	56 847
ru	ruština	3 308	2 651	0	0	0	6 886	12 844
sk	slovenština	7 402	0	0	19 223	12 734	5 134	44 493
sl	slovinština	900	0	0	19 646	12 241	17 025	49 811
sq	albánština	0	0	0	0	0	2 004	2 004
sr	srbština	8 413	0	0	0	0	20 777	29 189
sv	švédština	7 789	0	0	20 586	13 840	14 694	56 909
tr	turečtina	0	0	0	0	0	21 191	21 191
uk	ukrajinština	2 310	0	0	0	0	246	2 556
vi	vietnamština	0	0	0	0	0	1 474	1 474
celkem		173 225	16 044	17 239	430 195	265 029	488 373	1 390 105
cs	čeština	77 122	2 749	1 640	20 303	12 923	50 688	165 425
CELKEM		250 346	18 793	18 880	450 498	277 952	539 061	1 555 530

Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.

====Morfosyntaktická anotace====

Texty v těchto jazycích jsou opatřeny morfologickou anotací.

Jazyk	Značky	Lemmata	Stručný popis	Podrobný popis	Nástroj
angličtina	✔	✔	anglicky	anglicky + dodatky	TreeTagger
bulharština	✔			anglicky	TreeTagger
čeština	✔	✔	česky anglicky	anglicky	Morče
estonština	✔	✔	estonsky a anglicky		TreeTagger
finština	✔	✔		anglicky *)	OMorFi+HunPOS
francouzština	✔	✔	anglicky		TreeTagger
islandština	✔	✔			IceStagger
italština	✔	✔	anglicky		TreeTagger
litevština	✔	✔	česky a anglicky	anglicky	Autor: Vidas Daudaravičius
maďarština	✔			anglicky	HunPos
němčina	✔	✔	anglicky **)	německy	RFTagger
nizozemština	✔			nizozemsky	TreeTagger
norština	✔	✔	anglicky norsky		Oslo Bergen Tagger
polština	✔	✔	anglicky polsky	anglicky	Morfeusz, TaKIPI
portugalština	✔	✔	španělsky		TreeTagger
ruština	✔	✔	anglicky	anglicky ***)	TreeTagger
slovenština	✔	✔	slovensky	slovensky	Radovan Garabík, Morče
slovinština	✔	✔		anglicky	totale
španělština	✔	✔	anglicky		TreeTagger
švédština	✔	✔			Stagger

*) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].

**) Uvnitř jedné morfologické značky používáme jako oddělovač jednotlivých kategorií dvojtečku místo tečky, tedy např. ADJA:Pos:Nom:Sg:Fem.

***) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.

Jak používat značky při hledání v korpusu se dozvíte v návodu k Parku.

Děkujeme za možnost využívat následující texty a software:

Texty:

beletristické texty v řadě slovanských i jiných jazyků z korpusu ASPAC – Amsterdam Slavic Parallel Aligned Corpus – zvláštní poděkování patří Adrianu Barentsenovi
publicistické texty ve více jazycích z webových stránek Project Syndicate
publicistické texty ve více jazycích ze serveru Presseurop/VoxEurop
právnické texty v jazycích EU z korpusu JRC-ACQUIS
jednání Evropského parlamentu z korpusu EuroParl
slovensko-české konkordance ze Slovenského národního korpusu
povídky ve více jazycích z projektu Můj rok 1989 z Goethe Institutu
za více textů v česko-litevské části korpusu a za práci Jiřího Levého Umění překladu ve více jazycích vděčíme Patricku Cornessovi
román George Orwella 1984 ve více jazycích z korpusu Multext-East
ukrajinské a polské texty z korpusu PolUkr
norské texty z nakladatelství Aschehoug & co., Cappelen Forlag a Forlaget Oktober
filmové titulky z databáze Open Subtitles

===Předzpracování===

editor paralelních textů InterText (autor Pavel Vondřička)
zarovnávač Hunalign
větný segmentátor pro češtinu (autor Pavel Květoň)
větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
větný segmentátor Punkt pro všechny ostatní jazyky ze sady Natural Language Toolkit

===Značkovače / lematizátory:===

MorfFlex, Morče a LanGr pro češtinu
TreeTagger pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu
Morfeusz a TaKIPI pro polštinu
HunPOS pro maďarštinu a další jazyky
tagger pro slovenštinu (s poděkováním Radovanu Garabíkovi)
tagger pro litevštinu, s poděkováním Vidasovi Daudaravičiusovi a Haně Skoumalové
tagger pro norštinu
totale pro slovinštinu (s poděkováním Tomaži Erjavcovi)
RFTagger pro němčinu
OMorFi+HunPOS pro finštinu (s poděkováním Filipu Ginterovi)
Stagger a IceStagger pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)