~~NOTOC~~


=====Korpus InterCorp verze 8=====


<WRAP right>
^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  105 239 198 |  117 981 673 |  233 509 950 |  1 560 655 498 |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  84 718 325 |  89 645 545 |  194 055 340 |  1 229 043 791 |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 279 |  5 |  2 513 |  89 |
^ ::: ^ Počet div |  1 279 |  111 263 |  2 513 |  1 849 184 |
^ ::: ^ Počet vět |  7 250 794 |  13 588 082 |  14 377 637 |  143 478 514 |
^ Další informace ^ [[pojmy:referencni|referenční]] |  ANO   ^^^^
^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] |  NE ([[seznamy:txtype|různé textové typy]])  ^^^^
^ ::: ^ rok zveřejnění |  2015  ^^^^
^ ::: ^ cizích jazyků |  38  ^^^^
^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  20  ^^^^
^ ::: ^ [[pojmy:lemma|lemmat.]] jazyků |  17  ^^^^
</WRAP>

====Přístup k textům====

Po registraci na stránce [[https://www.korpus.cz/toolbar/signup.php|Prohlášení uživatele korpusů ÚČNK]] lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.

InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy.

Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.

Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Předchozí verze jsou přitom stále dostupné; od verze 6 dál přitom budou všechny původní zůstávat stále dostupné.
==== Jak citovat ====

Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu [[http://www.korpus.cz/intercorp|www.korpus.cz/intercorp]] a k odborným publikacím odkaz na tento článek:

<WRAP round info 50%>
ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. //International Journal of Corpus Linguistics//. Vol. 13, no. 3, p. 411–427
([[http://ucnk.ff.cuni.cz/intercorp/?req=page:references_bibtex&lang=cs|bibtex]], [[http://dx.doi.org/10.1075/ijcl.17.3.05cer|elektronické vydání na serveru ingentaConnect]], [[http://utkl.ff.cuni.cz/~rosen/public/2012_intercorp_ijcl.pdf|verze před tiskem]]). 

Seznam další literatury najdete v [[http://biblio.korpus.cz|Repozitáři bibliografických informací založených na ČNK]]. Každý odkaz na práci využívající InterCorp je vítán, viz [[https://www.korpus.cz/biblio_appeal.php|podrobnosti]].


Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.:

Rosen, A. – Vavřín, M.: //Korpus InterCorp – angličtina, němčina((Vložte konkrétní jazyky.)), verze 7 z 19.12.2014//. Ústav Českého národního korpusu, FF UK, Praha 2014. Dostupné z WWW: http://www.korpus.cz

</WRAP>
==== Obsah korpusu ====

**Jádrem** korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. **kolekce**. Ve verzi 8 jsou k dispozici tyto kolekce:

  * publistické články a zpravodajství z webových stránek [[http://www.project-syndicate.org|Project Syndicate]] a [[http://www.voxeurop.eu|VoxEurop]] (dříve PressEurop)
  * právní texty Evropské unie z korpusu [[https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis|Acquis Communautaire]]
  * zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http://www.statmt.org/europarl|Europarl]]
  * filmové titulky z databáze [[http://www.opensubtitles.org|OpenSubtitles]]

Tyto texty jsou zarovnány jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. ty, které nemají český protějšek. Některé texty z korpusů //Acquis Communautaire// a //Europarl// byly rovněž částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze //OpenSubtitles//, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Zato byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.

Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 8 z května 2015 činí 194 milionů slov v zarovnaných cizojazyčných textech v jádru a 1 229 milionů slov v zarovnaných cizojazyčných textech v kolekcích (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.

[{{:cnk:intercorp_wordcounts_v8.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}]

[{{:cnk:intercorp_wordcounts2_v8.png|Skladba korpusu podle jednotlivých jazyků – jádro}}]

[{{:cnk:intercorp_wordcounts3_v8.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}]

====Velikost korpusu v tisících slov====

^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Celkem ^
|  ar  | arabština |  34 |  0 |  0 |  0 |  0 |  0 |  34 |
|  be  | běloruština |  2 152 |  0 |  0 |  0 |  0 |  0 |  2 152 |
|  bg  | bulharština |  5 240 |  0 |  0 |  13 816 |  9 083 |  0 |  28 140 |
|  ca  | katalánština |  4 632 |  0 |  0 |  0 |  0 |  0 |  4 632 |
|  da  | dánština |  3 016 |  0 |  0 |  21 679 |  13 915 |  14 429 |  53 042 |
|  de  | němčina |  27 681 |  3 725 |  2 482 |  21 723 |  13 089 |  8 366 |  77 069 |
|  el  | řečtina |  0 |  0 |  0 |  25 069 |  15 403 |  23 714 |  64 187 |
|  en  | angličtina |  15 488 |  3 818 |  2 670 |  24 207 |  15 580 |  52 101 |  113 865 |
|  es  | španělština |  17 475 |  4 324 |  2 816 |  27 001 |  15 885 |  36 378 |  103 882 |
|  et  | estonština |  0 |  0 |  0 |  15 962 |  10 899 |  10 296 |  37 158 |
|  fi  | finština |  3 426 |  0 |  0 |  16 455 |  10 175 |  15 097 |  45 154 |
|  fr  | francouzština |  9 170 |  4 393 |  2 928 |  27 351 |  17 178 |  25 961 |  86 983 |
|  he  | hebrejština |  0 |  0 |  0 |  0 |  0 |  16 221 |  16 221 |
|  hi  | hindština |  408 |  0 |  0 |  0 |  0 |  0 |  408 |
|  hr  | chorvatština |  15 479 |  0 |  0 |  0 |  0 |  19 092 |  34 572 |
|  hu  | maďarština |  5 387 |  0 |  0 |  19 176 |  12 306 |  21 239 |  58 110 |
|  is  | islandština |  0 |  0 |  0 |  0 |  0 |  1 584 |  1 584 |
|  it  | italština |  7 247 |  651 |  2 707 |  24 849 |  15 489 |  14 653 |  65 599 |
|  ja  | japonština |  0 |  0 |  0 |  0 |  0 |  113 |  113 |
|  lt  | litevština |  358 |  0 |  0 |  18 392 |  11 212 |  557 |  30 521 |
|  lv  | lotyština |  1 336 |  0 |  0 |  18 744 |  11 688 |  280 |  32 050 |
|  mk  | makedonština |  3 741 |  0 |  0 |  0 |  0 |  1 877 |  5 619 |
|  ms  | malajština |  0 |  0 |  0 |  0 |  0 |  3 520 |  3 520 |
|  mt  | maltština |  0 |  0 |  0 |  14 133 |  0 |  0 |  14 133 |
|  nl  | nizozemština |  9 961 |  313 |  2 955 |  24 746 |  15 563 |  29 362 |  82 903 |
|  no  | norština |  4 815 |  0 |  0 |  0 |  0 |  0 |  4 815 |
|  pl  | polština |  17 516 |  0 |  2 378 |  20 627 |  12 811 |  26 572 |  79 905 |
|  pt  | portugalština |  2 393 |  369 |  2 999 |  28 602 |  16 484 |  43 391 |  94 241 |
|  ro  | rumunština |  3 432 |  0 |  2 737 |  8 199 |  9 446 |  34 128 |  57 944 |
|  ru  | ruština |  3 337 |  3 174 |  0 |  0 |  0 |  6 885 |  13 397 |
|  sk  | slovenština |  7 401 |  0 |  0 |  19 222 |  12 734 |  5 134 |  44 493 |
|  sl  | slovinština |  900 |  0 |  0 |  19 645 |  12 240 |  17 024 |  49 810 |
|  sq  | albánština |  0 |  0 |  0 |  0 |  0 |  2 003 |  2 003 |
|  sr  | srbština |  8 823 |  0 |  0 |  0 |  0 |  20 776 |  29 600 |
|  sv  | švédština |  8 138 |  0 |  0 |  20 585 |  13 840 |  14 693 |  57 258 |
|  tr  | turečtina |  0 |  0 |  0 |  0 |  0 |  21 190 |  21 190 |
|  uk  | ukrajinština |  5 054 |  0 |  0 |  0 |  0 |  246 |  5 300 |
|  vi  | vietnamština |  0 |  0 |  0 |  0 |  0 |  1 473 |  1 473 |
| **celkem** |  |  194 055 |  20 769 |  24 676 |  430 195 |  265 029 |  488 372 |  1 423 098 |
|  cs  | čeština |  84 718 |  3 416 |  2 315 |  20 303 |  12 922 |  50 688 |  174 363 |
| **CELKEM** |  |  278 773 |  24 185 |  26 991 |  450 498 |  277 951 |  539 060 |  1 597 462 |

Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.
==== Morfosyntaktická anotace ====

Texty v těchto jazycích jsou opatřeny morfologickou anotací.

^ Jazyk ^  Značky  ^  Lemmata  ^  Stručný popis  ^  Podrobný popis  ^  Nástroj  ^
^ angličtina |  ✔   |  ✔  |  [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglicky]]  | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]]  |  [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |
^ bulharština |  ✔  |     |     |  [[http://www.bultreebank.org/TechRep/BTB-TR03.pdf|anglicky]]  |  [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |
^ čeština |  ✔  |  ✔  |  [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] a [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] |  [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]]  |  [[http://ufal.mff.cuni.cz/morce/index.php|Morče]]  |
^ estonština |  ✔  |  ✔  |  [[http://www.cl.ut.ee/korpused/morfliides/seletus|estonsky a anglicky]]  |     |  [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |
^ finština |  ✔  |  ✔  |     |  [[http://home.gna.org/omorfi/omorfi/omorfi_user.html|anglicky]] *)  |  [[https://github.com/TurkuNLP/Finnish-dep-parser|OMorFi+HunPOS]]  |
^ francouzština |  ✔  |  ✔  |  [[http://www.ims.uni-stuttgart.de/%7Eschmid/french-tagset.html|anglicky]]  |     |  [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |
^ islandština |  ✔  |  ✔  |     |     |  [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]]  |
^ italština |  ✔  |  ✔  |  [[ftp://ftp.ims.uni-stuttgart.de/corpora/italian-tagset.txt|anglicky]]  |     |  [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |
^ litevština |  ✔  |  ✔  |  [[http://utkl.ff.cuni.cz/~skoumal/CZ-LT-CORP/tags.html|česky a anglicky]]  |  [[http://utkl.ff.cuni.cz/~skoumal/CZ-LT-CORP/LT-POS.pdf|anglicky]]  |  Autor: [[http://senas.vdu.lt/staff/informatics/CVPDF/CV_Daudaravicius_en.pdf|Vidas Daudaravičius]]  |
^ maďarština |  ✔  |     |     |  [[http://utkl.ff.cuni.cz/%7Erosen/public/kr_for_ldc.pdf|anglicky]]  |  [[http://code.google.com/p/hunpos/|HunPos]]  |
^ němčina |  ✔  |  ✔  |  [[http://www.sketchengine.co.uk/documentation/wiki/tagsets/german_rftagger|anglicky]] %%**%%)  |  [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]]  |
^ nizozemština |  ✔  |     |     |  [[http://www.inl.nl/tst-centrale/images/stories/producten/documentatie/ehc_handleiding_nl.pdf|nizozemsky]]  |  [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |
^ norština |  ✔  |  ✔  | [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] [[http://tekstlab.uio.no/obt-ny/index.html|norsky]] |     |  [[http://omilia.uio.no/obt/|Oslo Bergen Tagger]]  |
^ polština |  ✔  |  ✔  |  [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://korpus.pl/pl/cheatsheet/node2.html|polsky]]  |  [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]]  |  [[http://sgjp.pl/morfeusz/|Morfeusz]], [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]]  |
^ portugalština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]]  |     |  [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |
^ ruština |  ✔  |  ✔  |  [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]]  |  [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%)  |  [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |
^ slovenština |  ✔  |  ✔  |  [[http://korpus.sk/morpho.html/|slovensky]]  |  [[http://korpus.sk/attachments/publications/2004-garabik-gianitsova-horak-simkova-tokenizacia.pdf|slovensky]]  |  [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]]  |
^ slovinština |  ✔  |  ✔  |  [[http://nl.ijs.si/ME/V4/msd/html/msd.msds-sl.html|anglicky a slovinsky]]   |  [[http://nl.ijs.si/ME/V4/msd/html/msd-sl.introduction.html|anglicky]]  |  [[http://nl2.ijs.si/analyze/|totale]]  |
^ španělština |  ✔  |  ✔  |  [[ftp://ftp.ims.uni-stuttgart.de/corpora/spanish-tagset.txt|anglicky]]  |     |  [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |
^ švédština |  ✔  |  ✔  |  [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]]   |     |  [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]]  |


<wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap>
  
<wrap lo>%%**%%) Uvnitř jedné morfologické značky používáme jako oddělovač jednotlivých kategorií dvojtečku místo tečky, tedy např. ADJA:Pos:Nom:Sg:Fem.</wrap>

<wrap lo>%%***%%) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.</wrap>


U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can't// nebo //I'm//, které tagger rozdělí na dvě slova (//ca//+//n't// a //I//+//'m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś// (rozděleno na //była//+//m// a //gdyby//+//ś//). Je třeba počítat i s chybným rozdělením: //gdzie//+//ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky.


Morfologické značky obsahující znaky, které mají v regulárních výrazech zvláštní význam, např. ''$'' v anglické značce ''wp$'', je třeba v dotazech zadávat za zpětné lomítko, tedy např. takto: ''tag=%%"wp\$"%%''
====Strukturní atributy====

^Struktura^Atribut^Popis^Možné hodnoty^
|doc|doc.id|unikátní identifikátor dokumentu|text|
| |doc.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh|
| |doc.version|verze textu|číslo|
| |doc.wordcount|velikost dokumentu ve slovech|číslo|
|div|div.id|identifikace textu|příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP / _SUBTITLES / _SYNDICATE|
| |div.group|rozdělení na:|//Core// / Acquis / Europarl / PressEurop / Subtitles / Syndicate|
| |div.wordcount|počet slov textu|číslo|
| |div.author|autor textu|příjmení, jméno|
| |div.title|úplný název textu|text|
| |div.publisher|vydavatel|text|
| |div.pubplace|místo vydání|text|
| |div.pubyear|rok vydání|letopočet|
| |div.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles|
| |div.original|je text originálem?|Yes / No|
| |div.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / pt / rm / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh|
| |div.translator|překladatel textu|příjmení, jméno|
| |div.transsex|pohlaví překladatele|F / M|
| |div.authsex|pohlaví autora:|F / M|
|p|p.id|unikátní identifikátor odstavce|text|
|s|s.id|unikátní identifikátor věty|text|


====Počet textů v jádru korpusu podle jazyka textu a jazyka originálu====

^ ^  Jazyk originálu  ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ ^ ^
^ ↓ Jazyk textu ^ ar ^ be ^ bg ^ ca ^ cs ^ da ^ de ^ en ^ es ^ fi ^ fr ^ hi ^ hr ^ hu ^ it ^ lt ^ lv ^ mk ^ nl ^ no ^ pl ^ pt ^ ro ^ ru ^ sk ^ sl ^ sr ^ sv ^ uk ^ celkem ^ jiné ^
^ ar |  1 |   |   |   |  1 |   |  1 |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |  3 |   |
^ be |   |  3 |   |   |  8 |   |  4 |  13 |  1 |   |  1 |   |  1 |   |   |   |   |   |   |   |  3 |   |   |  2 |  1 |   |  1 |  1 |   |  39 |   |
^ bg |   |   |  19 |   |  9 |   |  1 |  27 |   |   |  4 |   |   |   |  2 |   |   |   |   |   |  1 |  1 |   |  2 |   |   |   |  2 |   |  68 |   |
^ ca |   |   |   |  1 |  16 |   |  3 |  12 |  5 |  1 |  2 |   |   |   |  3 |   |   |   |   |   |   |  1 |   |  1 |   |   |   |   |   |  45 |  1 |
^ cs |  1 |  3 |  19 |  1 |  267 |  9 |  134 |  242 |  127 |  24 |  95 |  2 |  26 |  1 |  20 |  1 |  7 |  1 |  30 |  7 |  49 |  21 |   |  39 |  56 |  3 |  8 |  58 |  6 |  1257 |   |
^ da |   |   |   |   |  6 |  9 |   |  12 |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |  27 |   |
^ de |   |   |   |   |  85 |   |  126 |  65 |  10 |  1 |  4 |   |   |  1 |  7 |  1 |  1 |   |  6 |  3 |  3 |  2 |   |  3 |  1 |   |  3 |  5 |   |  327 |   |
^ en |   |   |   |   |  25 |   |  4 |  125 |   |   |  3 |   |   |   |  1 |   |   |   |  2 |   |  1 |  1 |   |  6 |   |   |  5 |  4 |   |  177 |  1 |
^ es |   |   |   |  1 |  25 |   |  8 |  29 |  126 |  1 |  6 |   |   |   |  7 |   |   |   |   |  1 |   |  4 |   |  2 |   |   |   |  3 |   |  213 |  1 |
^ fi |   |   |   |   |  11 |  1 |  1 |  12 |  2 |  25 |   |   |   |   |  1 |   |   |   |   |  1 |   |  1 |   |   |   |   |   |  2 |   |  57 |  1 |
^ fr |   |   |   |   |  36 |   |  1 |  10 |   |   |  83 |   |   |   |  2 |   |   |   |  1 |   |   |  2 |   |  2 |   |   |   |   |   |  137 |   |
^ hi |   |   |   |   |  2 |   |   |  1 |   |   |  1 |  2 |   |   |   |   |   |   |   |   |   |  1 |   |   |   |   |   |   |   |  7 |   |
^ hr |   |   |  1 |   |  71 |   |  15 |  52 |  11 |  2 |  4 |   |  26 |   |  6 |   |   |   |  7 |  1 |  3 |  4 |   |  1 |   |  1 |   |  8 |   |  213 |  2 |
^ hu |   |   |   |   |  16 |   |  5 |  23 |   |   |  9 |   |   |   |  1 |   |   |   |   |   |   |  3 |   |  14 |   |   |   |   |   |  71 |   |
^ it |   |   |   |   |  4 |   |  4 |  21 |  9 |  1 |  3 |   |   |   |  19 |   |   |   |   |   |   |  3 |   |  1 |   |   |   |  3 |   |  68 |  1 |
^ lt |   |   |   |   |  8 |   |  2 |  2 |   |   |   |   |   |   |   |  1 |  1 |   |   |   |  2 |   |   |   |  1 |   |   |   |   |  17 |   |
^ lv |   |   |   |   |  22 |   |  2 |  1 |   |   |   |   |   |   |   |  1 |  7 |   |   |   |  2 |   |   |   |  1 |   |   |   |   |  36 |   |
^ mk |   |   |   |   |  15 |   |  1 |  16 |   |   |  1 |   |  1 |   |  1 |   |   |  2 |  1 |   |  3 |   |   |  2 |   |   |  2 |  4 |   |  49 |   |
^ nl |   |   |   |   |  24 |   |  3 |  33 |  7 |   |  3 |   |   |   |  3 |   |   |   |  30 |  2 |  2 |  3 |   |  3 |   |   |   |  6 |   |  119 |   |
^ no |   |   |   |   |  11 |   |  5 |  21 |  4 |   |  1 |   |   |   |  3 |   |   |   |   |  6 |   |  2 |   |   |   |   |   |  1 |   |  54 |   |
^ pl |   |   |   |   |  36 |   |  8 |  97 |  10 |  2 |  8 |   |   |   |  2 |  1 |  1 |   |  3 |  1 |  46 |  4 |   |  6 |  1 |   |   |  5 |   |  231 |  1 |
^ pt |   |   |   |   |  6 |   |   |  8 |   |   |   |   |   |   |   |   |   |   |   |   |   |  15 |   |   |   |   |   |   |   |  29 |   |
^ ro |   |   |   |   |  7 |   |  5 |  12 |  3 |   |  1 |   |  1 |   |  1 |   |   |   |   |   |  1 |  1 |   |   |   |   |  1 |   |   |  33 |  3 |
^ ru |   |   |   |   |  9 |   |  1 |  22 |   |   |  2 |   |   |   |   |   |   |   |  1 |   |  1 |   |   |  22 |   |   |  1 |  3 |   |  62 |  1 |
^ sk |   |   |   |   |  55 |   |  2 |  5 |  1 |   |   |   |   |   |   |   |  1 |   |   |   |  2 |   |   |   |  56 |   |   |   |   |  122 |  18 |
^ sl |   |   |   |   |  7 |   |  1 |  2 |   |   |   |   |  1 |   |   |   |   |   |   |   |   |   |   |   |   |  2 |   |  2 |   |  15 |   |
^ sr |   |   |   |   |  11 |   |  7 |  33 |  9 |   |  3 |   |   |   |  7 |   |   |   |  2 |   |  4 |  3 |   |  10 |  1 |   |  5 |  2 |   |  97 |  3 |
^ sv |   |   |   |   |  11 |   |  4 |  23 |  7 |   |  2 |   |   |   |  1 |   |   |   |  1 |   |   |   |   |   |   |   |   |  50 |   |  99 |  1 |
^ uk |   |   |   |   |  6 |   |  1 |  31 |  3 |   |  5 |   |   |   |  2 |   |   |   |   |   |  5 |   |   |  3 |   |   |   |  5 |  6 |  67 |   |
^ celkem |  2 |  6 |  39 |  3 |  810 |  19 |  349 |  950 |  335 |  57 |  241 |  4 |  56 |  2 |  89 |  5 |  18 |  3 |  84 |  22 |  128 |  72 |   |  119 |  118 |  6 |  26 |  164 |  12 |   |   |


  * Tabulka uvádí počty textů v jádru korpusu InterCorp.
  * Pro každý jazyk, který má v jádru nějaké texty, jsou v příslušném řádku uvedeny počty textů, zvlášť podle jazyka originálu, uvedeného v záhlaví příslušného sloupce. Takže např. v arabštině jádro obsahuje jeden arabský, jeden český a jeden německý originální text. Celkem jsou tedy v jádru 3 texty v arabštině (viz předposlední sloupec).
  * Ve sloupcích lze zjistit, kolik originálních textů v jazyku uvedeném v záhlaví je přeloženo do ostatních jazyků. Kódy těchto jazyků jsou v prvním sloupci. Poslední sloupec udává počet originálních textů v jiných jazycích, které jádro InterCorpu neobsahuje.
  * V diagonále tabulky je počet originálních textů v příslušném jazyce. Např. v maďarštině a rumunštině nemáme žádný originální text, v rumunštině ani v překladu.

==== Poděkování ====

Děkujeme za možnost využívat následující texty a software:

=== Texty: ===

  * beletristické texty v řadě slovanských i jiných jazyků z korpusu [[http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3|ASPAC – Amsterdam Slavic Parallel Aligned Corpus]] – zvláštní poděkování patří Adrianu Barentsenovi
  * publicistické texty ve více jazycích z webových stránek [[http://www.project-syndicate.org/|Project Syndicate]]
  * publicistické texty ve více jazycích ze serveru [[http://www.voxeurop.eu|Presseurop/VoxEurop]]
  * právnické texty v jazycích EU z korpusu [[http://wt.jrc.it/lt/Acquis/|JRC-ACQUIS]]
  * jednání Evropského parlamentu z korpusu [[http://www.statmt.org/europarl/|EuroParl]]
  * slovensko-české konkordance ze [[http://korpus.juls.savba.sk/|Slovenského národního korpusu]]
  * povídky ve více jazycích z projektu //Můj rok 1989// z [[http://www.goethe.de/ins/cz/pra/|Goethe Institutu]]
  * za více textů v česko-litevské části korpusu a za práci Jiřího Levého Umění překladu ve více jazycích vděčíme Patricku Cornessovi
  * román George Orwella //1984// ve více jazycích z korpusu [[http://nl.ijs.si/ME/|Multext-East]]
  * ukrajinské a polské texty z korpusu [[http://www.domeczek.pl/~polukr/|PolUkr]]
  * norské texty z nakladatelství [[http://www.aschehoug.no/|Forlaget Oktober]]
  * filmové titulky z databáze [[http://www.opensubtitles.org|Open Subtitles]]

=== Předzpracování: ===

  * editor paralelních textů [[http://wanthalf.saga.cz/intertext|InterText]] (autor Pavel Vondřička)
  * zarovnávač [[http://mokk.bme.hu/resources/hunalign|Hunalign]]
  * větný segmentátor pro češtinu (autor Pavel Květoň)
  * větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
  * větný segmentátor Punkt pro všechny ostatní jazyky ze sady [[http://www.nltk.org|Natural Language Toolkit]]


=== Značkovače / lematizátory: ===

  * [[http://ufal.mff.cuni.cz/morfflex|MorfFlex]], [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] a [[https://is.cuni.cz/webapps/zzp/download/140018093/?back_id=10|LanGr]] pro češtinu
  * [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu
  * [[http://sgjp.pl/morfeusz/|Morfeusz]] a [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]] pro polštinu
  * [[http://code.google.com/p/hunpos/|HunPOS]] pro maďarštinu a další jazyky
  * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi)
  * tagger pro litevštinu, s poděkováním Vidasovi Daudaravičiusovi a Haně Skoumalové
  * [[http://omilia.uio.no/obt/|tagger]] pro norštinu
  * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (s poděkováním Tomaži Erjavcovi)
  * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu
  * [[https://github.com/TurkuNLP/Finnish-dep-parser|OMorFi+HunPOS]] pro finštinu (s poděkováním Filipu Ginterovi)
  * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)

----

==== Související odkazy ====

<WRAP round box 51%>
[[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]]

Viz též [[http://ucnk.ff.cuni.cz/intercorp/|původní stránky projektu InterCorp]]. %%//%% See [[http://ucnk.ff.cuni.cz/intercorp/?lang=en|the original InterCorp site in English]].
</WRAP>