~~NOTOC~~ =====Korpus InterCorp verze 7===== ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 95 814 527 | 116 374 744 | 208 845 922 | 1 546 493 833 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 77 121 760 | 88 303 155 | 173 224 560 | 1 216 880 655 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 184 | 5 | 2 294 | 87 | ^ ::: ^ Počet div | 1 184 | 107 388 | 2 294 | 1 817 043 | ^ ::: ^ Počet vět | 6 595 174 | 13 497 188 | 12 796 035 | 142 788 867 | ^ Další informace ^ [[pojmy:referencni|referenční]] | ANO ^^^^ ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] | NE ([[seznamy:txtype|různé textové typy]]) ^^^^ ^ ::: ^ rok zveřejnění | 2014 ^^^^ ^ ::: ^ cizích jazyků | 38 ^^^^ ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 20 ^^^^ ^ ::: ^ [[pojmy:lemma|lemmat.]] jazyků | 17 ^^^^ ====Přístup k textům==== InterCorp verze 7 je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu. Specifikem InterCorpu je jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné [[pojmy:referencni|referenční]] entity, objem textů a případně i počet jazyků a rozsah anotace se postupně zvětšuje, a to vždy s vydáním nové verze. Starší verze InterCorpu jsou od roku 2014 zpětně dostupné. ====Odkazy====

Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu www.korpus.cz/intercorp a k odborným publikacím odkaz na článek ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics. Vol. 13, no. 3, p. 411–427 (bibtex, elektronické vydání na serveru ingentaConnect, verze před tiskem).

Seznam další literatury najdete zde, případně v repozitáři bibliografických informací založených na Českém národním korpusu. Vítáme všechny odkazy na práce s využitím korpusu InterCorp a prosíme o jejich zadání do repozitáře; podrobnější informace o něm najdete zde

====Obsah korpusu====

Jádrem korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. kolekce. Ve verzi 7 jsou k dispozici tyto kolekce:

Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. neobsahují texty, které nemají český protějšek. Některé texty z korpusů Acquis Communautaire a Europarl byly také částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze Open Subtitles, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Na druhé straně byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.

Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 7 z prosince 2014 je 173 milionů pozic v zarovnaných cizojazyčných textech v jádru a 1 217 milionů slov v zarovnaných cizojazyčných textech v kolekcích; historii verzí najdete zde. Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech.


Graf složení korpusů jednotlivých jazyků – Jádro

Graf složení korpusů jednotlivých jazyků – Kolekce


====Velikost korpusu v tisících slov====
Zkratka Jazyk Jádro Syndicate Presseurop Acquis Europarl Subtitles Celkem
ararabština340000034
beběloruština1 751000001 751
bgbulharština4 9230013 8169 083027 823
cakatalánština4 498000004 498
dadánština1 3110021 68013 91614 43051 336
deněmčina26 3153 0501 71521 72413 0898 36774 260
elřečtina00025 07015 40423 71564 188
enangličtina12 6413 0831 86324 20815 58052 101109 476
esšpanělština16 9073 4791 94827 00115 88536 379101 599
etestonština00015 96310 90010 29637 158
fifinština3 0540016 45510 17515 09844 782
frfrancouzština6 9763 5352 05427 35217 17825 96283 057
hehebrejština0000016 22116 221
hihindština20600000206
hrchorvatština14 210000019 09333 303
humaďarština4 0140019 17712 30721 24056 737
isislandština000001 5851 585
ititalština6 3132471 89324 84915 48914 65463 446
jajaponština00000113113
ltlitevština3580018 39311 21355830 522
lvlotyština1 3370018 74511 68928032 051
mkmakedonština3 22100001 8775 098
msmalajština000003 5213 521
mtmaltština00014 1330014 133
nlnizozemština9 37002 08224 74615 56329 36381 125
nonorština4 103000004 103
plpolština16 00901 66220 62812 81126 57277 683
ptportugalština2 39302 10328 60316 48543 39292 976
rorumunština3 15601 9178 2009 44634 12956 847
ruruština3 3082 6510006 88612 844
skslovenština7 4020019 22312 7345 13444 493
slslovinština9000019 64612 24117 02549 811
sqalbánština000002 0042 004
srsrbština8 413000020 77729 189
svšvédština7 7890020 58613 84014 69456 909
trturečtina0000021 19121 191
ukukrajinština2 31000002462 556
vivietnamština000001 4741 474
celkem173 22516 04417 239430 195265 029488 3731 390 105
csčeština77 1222 7491 64020 30312 92350 688165 425
CELKEM250 34618 79318 880450 498277 952539 0611 555 530

Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.

====Morfosyntaktická anotace====

Texty v těchto jazycích jsou opatřeny morfologickou anotací.

Jazyk Značky Lemmata Stručný popis Podrobný popis Nástroj
angličtina anglicky anglicky + dodatky TreeTagger
bulharština     anglicky TreeTagger
čeština česky anglicky anglicky Morče
estonština estonsky a anglicky   TreeTagger
finština   anglicky *) OMorFi+HunPOS
francouzština anglicky   TreeTagger
islandština     IceStagger
italština anglicky   TreeTagger
litevština česky a anglicky anglicky Autor: Vidas Daudaravičius
maďarština     anglicky HunPos
němčina anglicky **) německy RFTagger
nizozemština     nizozemsky TreeTagger
norština anglicky norsky   Oslo Bergen Tagger
polština anglicky polsky anglicky Morfeusz, TaKIPI
portugalština španělsky   TreeTagger
ruština anglicky anglicky ***) TreeTagger
slovenština slovensky slovensky Radovan Garabík, Morče
slovinština   anglicky totale
španělština anglicky   TreeTagger
švédština     Stagger

*) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].

**) Uvnitř jedné morfologické značky používáme jako oddělovač jednotlivých kategorií dvojtečku místo tečky, tedy např. ADJA:Pos:Nom:Sg:Fem.

***) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.

Jak používat značky při hledání v korpusu se dozvíte v návodu k Parku.

====Strukturní atributy==== ^Struktura^Atribut^Popis^Možné hodnoty^ |doc|doc.id|unikátní identifikátor dokumentu|text| | |doc.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh| | |doc.version|verze textu|číslo| | |doc.wordcount|velikost dokumentu ve slovech|číslo| |div|div.id|identifikace textu|příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP / _SUBTITLES / _SYNDICATE| | |div.group|rozdělení na:|//Core// / Acquis / Europarl / PressEurop / Subtitles / Syndicate| | |div.wordcount|počet slov textu|číslo| | |div.author|autor textu|příjmení, jméno| | |div.title|úplný název textu|text| | |div.publisher|vydavatel|text| | |div.pubplace|místo vydání|text| | |div.pubyear|rok vydání|letopočet| | |div.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles| | |div.original|je text originálem?|Yes / No| | |div.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / pt / rm / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh| | |div.translator|překladatel textu|příjmení, jméno| | |div.transsex|pohlaví překladatele|F / M| | |div.authsex|pohlaví autora:|F / M| |p|p.id|unikátní identifikátor odstavce|text| |s|s.id|unikátní identifikátor věty|text| ====Poděkování====

Děkujeme za možnost využívat následující texty a software:

Texty:

===Předzpracování=== ===Značkovače / lematizátory:=== ==== Související odkazy ==== [[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]]