====== Korpus InterCorp verze 13ud – Universal Dependencies ======

^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  141 124 127 |  117 877 960 |  391 209 482 |  1 518 645 852 |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  113 934 806 |  89 973 959 |   327 497 843 |  1 219 622 437 |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 657 |  30 |  3 994 |   282 |
^ ::: ^ Počet textů |  1 657 |  111 951 |  3 994 |  1 843 528 |
^ ::: ^ Počet vět |  9 782 002 |  13 606 198 |  24 318 736 |  143 196 252 |
^ Další informace ^ [[pojmy:referencni|referenční]] |  ANO   ^^^^
^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] |  NE ([[seznamy:txtype|různé textové typy]])  ^^^^
^ ::: ^ rok zveřejnění |  2021  ^^^^
^ ::: ^ cizích jazyků |  40  ^^^^
^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  35  ^^^^
^ ::: ^ jazyky s [[pojmy:lemma|lemmaty]] |  35  ^^^^
^ ::: ^ jazyky se syntaktickou anotací |  35  ^^^^

=====Přístup k textům=====

Po registraci na stránce [[https://www.korpus.cz/signup|Prohlášení uživatele korpusů ÚČNK]] lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.

InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy.

Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na [[alexandr.rosen@ff.cuni.cz|Alexandra Rosena]].

Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Od verze 6 dál jsou všechny předchozí verze stále dostupné. Verzi 13, označenou 13ud, zveřejňujeme s lingvistickým značkováním podle standardu [[https://universaldependencies.org|Universal Dependencies]].

===== Hlavní rozdíly mezi verzemi 13 a 13ud =====

  * Z celkového počtu 41 jazyků (včetně češtiny) je ve verzi 13ud **lingvisticky anotovaných 36**; všechny takové jazyky jsou navíc vybaveny i **syntaktickou anotací**.
  * Texty jsou ve všech jazycích **anotované stejně**, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]).
  * Podrobný popis využití anotace podle UD v korpusu InterCorp najdete pod heslem [[pojmy:ud|Universal Dependencies]] ve [[pojmy:prehled_pojmu|Slovníčku pojmů ČNK]].
  * Anotaci provedl u všech jazyků nástroj [[https://ufal.mff.cuni.cz/udpipe|UDPipe]] na základě dat vytvořených v projektu UD.((Nástroj využívá všechna data pro daný jazyk, tj. všechny treebanky uvedené na stránce [[https://lindat.mff.cuni.cz/services/udpipe/IUDPipe]]. Při zpracování lze i tak zadat parametr, který pro některá rozhodnutí, např. pro tokenizaci, preferuje určitý model. Při anotaci toho korpusu byly zadány tyto modely: arabic-padt-ud-2.6-200830,
belarusian-hse-ud-2.6-200830,
bulgarian-btb-ud-2.6-200830,
catalan-ancora-ud-2.6-200830,
chinese-gsdsimp-ud-2.6-200830, 
croatian-set-ud-2.6-200830,
czech-fictree-ud-2.6-200830,
danish-ddt-ud-2.6-200830,
dutch-alpino-ud-2.6-200830,
english-partut-ud-2.6-200830,
estonian-edt-ud-2.6-200830,
finnish-tdt-ud-2.6-200830,
french-gsd-ud-2.6-200830,
german-gsd-ud-2.6-200830,
greek-gdt-ud-2.6-200830,
hebrew-htb-ud-2.6-200830,
hindi-hdtb-ud-2.6-200830,
hungarian-szeged-ud-2.6-200830,
italian-postwita-ud-2.6-200830,
japanese-gsd-ud-2.6-200830,
latvian-lvtb-ud-2.6-200830,
lithuanian-alksnis-ud-2.6-200830,
maltese-mudt-ud-2.6-200830,
norwegian-nynorsk-ud-2.6-200830,
polish-pdb-ud-2.6-200830,
portuguese-gsd-ud-2.6-200830,
romanian-rrt-ud-2.6-200830,
russian-syntagrus-ud-2.6-200830,
serbian-set-ud-2.6-200830,
slovak-snk-ud-2.6-200830,
slovenian-ssj-ud-2.6-200830,
spanish-ancora-ud-2.6-200830,
swedish-talbanken-ud-2.6-200830,
turkish-imst-ud-2.6-200830,
ukrainian-iu-ud-2.6-200830,
vietnamese-vtb-ud-2.6-200830.))

===== Obsah korpusu =====

InterCorp verze 13ud obsahuje **stejné texty** jako [[cnk:intercorp:verze13|InterCorp verze 13]], obě verze se **liší jen v lingvistické anotaci**. Údaje o počtu tokenů a slov ve verzi 13ud se však můžou mírně lišit kvůli jinému způsobu tokenizace. 

**Jádrem** korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. **kolekce**. Ve verzi 13ud jsou k dispozici tyto kolekce:

  * publistické články a zpravodajství z webových stránek [[http://www.project-syndicate.org|Project Syndicate]] a [[http://www.voxeurop.eu|VoxEurop]] (dříve PressEurop)
  * právní texty Evropské unie z korpusu [[https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis|Acquis Communautaire]]
  * zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http://www.statmt.org/europarl|Europarl]]
  * filmové titulky z databáze [[http://www.opensubtitles.org|OpenSubtitles]]
  * překlady Bible 

Tyto texty jsou zarovnány jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. ty, které nemají český protějšek. Některé texty z korpusů //Acquis Communautaire// a //Europarl// byly rovněž částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze //OpenSubtitles//, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Zato byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.
Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se navýšil počet dokumentů v kolekcích. 

Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 13ud z prosince 2021 činí v zarovnaných cizojazyčných textech 327 milionů slov v jádru a 1 220 milionů slov v kolekcích. V českých textech je v jádru 114 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.

[{{:cnk:intercorp:intercorp_wordcounts_13ud.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\


[{{:cnk:intercorp:intercorp_wordcounts2_13ud.png|Skladba korpusu podle jednotlivých jazyků – jádro}}] \\


[{{:cnk:intercorp:intercorp_wordcounts3_13ud.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}] \\


^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Bible ^ Celkem ^
^  ar  ^ arabština  |  34 |  0 |  0 |  0 |  0 |  0 |  0 |  34 |
^  be  ^ běloruština  |  5 713 |  0 |  0 |  0 |  0 |  0 |  0 |  5 713 |
^  bg  ^ bulharština  |  7 067 |  0 |  0 |  13 582 |  9 082 |  0 |  0 |  29 732 |
^  ca  ^ katalánština  |  8 006 |  0 |  0 |  0 |  0 |  0 |  728 |  8 735 |
^  da  ^ dánština  |  7 122 |  0 |  0 |  20 012 |  13 800 |  14 372 |  656 |  55 962 |
^  de  ^ němčina  |  37 680 |  4 735 |  2 506 |  20 710 |  13 153 |  8 388 |  725 |  87 897 |
^  el  ^ řečtina  |  0 |  0 |  0 |  23 684 |  15 382 |  23 562 |  0 |  62 628 |
^  en  ^ angličtina  |  33 585 |  4 901 |  2 685 |  23 138 |  15 643 |  51 589 |  730 |  132 270 |
^  es  ^ španělština  |  26 553 |  5 609 |  2 858 |  26 270 |  16 249 |  36 625 |  0 |  114 164 |
^  et  ^ estonština  |  0 |  0 |  0 |  14 885 |  10 899 |  10 290 |  0 |  36 073 |
^  fi  ^ finština  |  5 655 |  0 |  0 |  15 260 |  10 108 |  15 047 |  542 |  46 613 |
^  fr  ^ francouzština  |  19 734 |  5 594 |  3 041 |  26 294 |  17 196 |  25 996 |  764 |  98 619 |
^  he  ^ hebrejština  |  0 |  0 |  0 |  0 |  0 |  16 050 |  0 |  16 050 |
^  hi  ^ hindština  |  403 |  0 |  0 |  0 |  0 |  0 |  0 |  403 |
^  hr  ^ chorvatština  |  21 924 |  0 |  0 |  0 |  0 |  19 022 |  570 |  41 515 |
^  hu  ^ maďarština  |  6 441 |  0 |  0 |  17 851 |  12 188 |  21 091 |  0 |  57 572 |
^  //is//  ^ //islandština//  |  0 |  0 |  0 |  0 |  0 |  1 581 |  0 |  1 581 |
^  it  ^ italština  |  14 416 |  1 225 |  2 709 |  23 648 |  15 502 |  14 765 |  685 |  72 949 |
^  ja  ^ japonština  |  2 279 |  0 |  0 |  0 |  0 |  452 |  0 |  2 731 |
^  lt  ^ litevština  |  419 |  0 |  0 |  17 175 |  11 198 |  555 |  471 |  29 819 |
^  lv  ^ lotyština  |  2 646 |  0 |  0 |  17 518 |  11 682 |  280 |  537 |  32 662 |
^  //mk//  ^ //makedonština//  |  8 881 |  0 |  0 |  0 |  0 |  1 877 |  0 |  10 758 |
^  //ms//  ^ //malajština//  |  0 |  0 |  0 |  0 |  0 |  3 521 |  0 |  3 521 |
^  mt  ^ maltština  |  0 |  0 |  0 |  13 805 |  0 |  0 |  0 |  13 805 |
^  nl  ^ nizozemština  |  16 214 |  812 |  2 953 |  23 401 |  15 556 |  29 355 |  717 |  89 008 |
^  no  ^ norština  |  7 753 |  0 |  0 |  0 |  0 |  0 |  724 |  8 477 |
^  pl  ^ polština  |  25 738 |  0 |  2 367 |  19 483 |  12 663 |  25 801 |  576 |  86 628 |
^  pt  ^ portugalština  |  4 981 |  554 |  2 782 |  24 260 |  15 186 |  41 452 |  712 |  89 927 |
^  //rn//  ^ //romština//  |  14 |  0 |  0 |  0 |  0 |  0 |  0 |  14 |
^  ro  ^ rumunština  |  4 198 |  0 |  2 726 |  8 044 |  9 428 |  33 955 |  0 |  58 352 |
^  ru  ^ ruština  |  8 662 |  3 993 |  0 |  0 |  0 |  6 898 |  566 |  20 119 |
^  sk  ^ slovenština  |  8 543 |  0 |  0 |  18 397 |  12 727 |  5 132 |  561 |  45 361 |
^  sl  ^ slovinština  |  3 871 |  0 |  0 |  18 513 |  12 249 |  17 054 |  0 |  51 688 |
^  //sq//  ^ //albánština//  |  0 |  0 |  0 |  0 |  0 |  2 003 |  0 |  2 003 |
^  sr  ^ srbština  |  11 580 |  0 |  0 |  0 |  0 |  20 679 |  0 |  32 259 |
^  sv  ^ švédština  |  15 790 |  0 |  0 |  19 459 |  13 778 |  14 652 |  638 |  64 316 |
^  tr  ^ turečtina  |  0 |  0 |  0 |  0 |  0 |  20 895 |  0 |  20 895 |
^  uk  ^ ukrajinština  |  11 461 |  0 |  0 |  0 |  0 |  244 |  596 |  12 301 |
^  vi  ^ vietnamština  |  0 |  0 |  0 |  0 |  0 |  1 269 |  0 |  1 269 |
^  zh  ^ čínština  |  135 |  269 |  0 |  0 |  0 |  2 292 |  0 |  2 696 |
^ **celkem** ^ |  327 498 |  27 692 |  24 627 |  405 390 |  263 669 |  486 747 |  11 498 |  1 547 120 |
^  cs  ^ čeština  |  113 935 |  4 356 |  2 313 |  19 189 |  12 919 |  50 634 |  562 |  203 909 |
^ **CELKEM** ^ |  441 433 |  32 048 |  26 941 |  424 579 |  276 587 |  537 382 |  12 060 |  1 751 029 |

Pozn. 1: Jazyky uvedené kurzívou nemají lingvistickou anotaci.
 
Pozn. 2: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.


===== Poděkování =====

Děkujeme za možnost využívat následující texty a software:

==== Texty: ====

  * za možnost zařadit do korpusu nejnovější (13. opravené) vydání Českého ekumenického překladu Bible z roku 2016 děkujeme [[http://www.dumbible.cz|České biblické společnosti]], zvláště Petru Fryšovi
  * beletristické texty v řadě slovanských i jiných jazyků z korpusu [[http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3|ASPAC – Amsterdam Slavic Parallel Aligned Corpus]] – zvláštní poděkování patří Adrianu Barentsenovi
  * publicistické texty ve více jazycích z webových stránek [[http://www.project-syndicate.org/|Project Syndicate]]
  * publicistické texty ve více jazycích ze serveru [[http://www.voxeurop.eu|VoxEurop]]
  * právnické texty v jazycích EU z korpusu [[http://wt.jrc.it/lt/Acquis/|JRC-ACQUIS]]
  * jednání Evropského parlamentu z korpusu [[http://www.statmt.org/europarl/|EuroParl]]
  * slovensko-české konkordance ze [[http://korpus.juls.savba.sk/|Slovenského národního korpusu]]
  * povídky ve více jazycích z projektu //Můj rok 1989// z [[http://www.goethe.de/ins/cz/pra/|Goethe Institutu]]
  * za více textů v česko-litevské části korpusu a za práci Jiřího Levého Umění překladu ve více jazycích vděčíme Patricku Cornessovi
  * román George Orwella //1984// ve více jazycích z korpusu [[http://nl.ijs.si/ME/|Multext-East]]
  * ukrajinské a polské texty z korpusu [[http://www.domeczek.pl/~polukr/|PolUkr]]
  * norské texty z nakladatelství [[http://www.aschehoug.no/|Forlaget Oktober]]
  * filmové titulky z databáze [[http://www.opensubtitles.org|Open Subtitles]]

==== Předzpracování: ====

  * editor paralelních textů [[http://wanthalf.saga.cz/intertext|InterText]] (autor Pavel Vondřička)
  * zarovnávač [[http://mokk.bme.hu/resources/hunalign|Hunalign]]
  * větný segmentátor pro češtinu (autor Pavel Květoň)
  * větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
  * větný segmentátor Punkt pro všechny ostatní jazyky ze sady [[http://www.nltk.org|Natural Language Toolkit]]


==== Nástroj na lingvistické značkování: ====

  * [[http://ufal.mff.cuni.cz/udpipe|UDPipe]] (s poděkováním Janě a Milanovi Strakovým, Danu Zemanovi a Martinu Popelovi)

===== Jak citovat =====

Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu [[https://intercorp.korpus.cz/|www.intercorp.korpus.cz]] a k odborným publikacím odkaz na tento článek:

<WRAP round info 50%>
ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. //International Journal of Corpus Linguistics//. Vol. 13, no. 3, p. 411–427
([[http://utkl.ff.cuni.cz/~rosen/public/mybib_bib.html#cermak:rosen:10|bibtex]],
[[http://dx.doi.org/10.1075/ijcl.17.3.05cer|elektronické vydání na serveru ingentaConnect]], [[http://utkl.ff.cuni.cz/~rosen/public/2012_intercorp_ijcl.pdf|verze před tiskem]]). 

Seznam další literatury najdete v [[https://www.korpus.cz/biblio|Repozitáři bibliografických informací založených na ČNK]]. Každý odkaz na práci využívající InterCorp je vítán, viz [[https://www.korpus.cz/biblio_appeal.php|podrobnosti]].


Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.:

ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština((Vložte konkrétní jazyky.)), verze 13ud z 22. 12. 2021//. Ústav Českého národního korpusu, FF UK, Praha 2021. Dostupné z WWW: https://kontext.korpus.cz/

</WRAP>


==== Viz též ====

<WRAP round box 51%>
[[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze12|Verze 13]] • [[cnk:intercorp:verze12|Verze 12]] • [[cnk:intercorp:verze11|Verze 11]] • [[cnk:intercorp:verze10|Verze 10]] • [[cnk:intercorp:verze9|Verze 9]] • [[cnk:intercorp:verze8|Verze 8]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]]

Původní stránky projektu InterCorp jsou stále [[https://intercorp.korpus.cz|zde]].
</WRAP>