=====Korpus InterCorp verze 16=====

^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  154 512 254 |  363 685 460 |  464 653 933 |  5 840 602 221 |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  124 679 582 |  272 862 335 |  386 728 679 |  4 505 550 764 |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 812 |  33 |  4 643 |   338 |
^ ::: ^ Počet textů |  1 812 |  162 612 |  4 643 |  2 662 665 |
^ ::: ^ Počet vět |  10 691 339 |  50 729 559 |  28 684 678 |  790 046 584 |
^ Další informace ^ [[pojmy:referencni|referenční]] |  ANO   ^^^^
^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] |  NE ([[seznamy:txtype|různé textové typy]])  ^^^^
^ ::: ^ rok zveřejnění |  2023  ^^^^
^ ::: ^ cizích jazyků |  61  ^^^^
^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  27  ^^^^
^ ::: ^ jazyky s [[pojmy:lemma|lemmaty]] |  25  ^^^^

====Přístup k textům====

Po registraci na stránce [[https://www.korpus.cz/signup|Prohlášení uživatele korpusů ÚČNK]] lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.

InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy.

Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na [[alexandr.rosen@ff.cuni.cz|Alexandra Rosena]].

Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Od verze 6 dál jsou všechny předchozí verze stále dostupné.

==== Obsah korpusu ====

**Jádrem** korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. **kolekce**. Ve verzi 16 jsou k dispozici tyto kolekce:

  * publistické články a zpravodajství z webových stránek [[http://www.project-syndicate.org|Project Syndicate]] a [[http://www.voxeurop.eu|VoxEurop]] (dříve PressEurop)
  * právní texty Evropské unie z korpusu [[https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis|Acquis Communautaire]]
  * zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http://www.statmt.org/europarl|Europarl]]
  * filmové titulky z databáze [[http://www.opensubtitles.org|OpenSubtitles]]
  * překlady Bible 

Tyto texty jsou zarovnány jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. ty, které nemají český protějšek. Některé texty z korpusů //Acquis Communautaire// a //Europarl// byly rovněž částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze //OpenSubtitles//, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Zato byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.
Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se zvýšil počet dokumentů v kolekcích. 

Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 16 z roku 2023 činí v zarovnaných cizojazyčných textech 387 milionů slov v jádru a 4 506 milionů slov v kolekcích. V českých textech je v jádru 125 a v kolekcích 273 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.

[{{:cnk:intercorp:intercorp_wordcounts_v16.png?1000|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\


[{{:cnk:intercorp:intercorp_wordcounts2_v16.png?1000|Skladba korpusu podle jednotlivých jazyků – jádro}}] \\


[{{:cnk:intercorp:intercorp_wordcounts3_v16.png?1000|Skladba korpusu podle jednotlivých jazyků – kolekce}}] \\

====Velikost korpusu v tisících slov====

^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Bible ^ Celkem ^
^  af  ^ afrikánština |  0 |  0 |  0 |  0 |  0 |  136 |  0 |  136 |
^  ar  ^ arabština |  34 |  384 |  0 |  0 |  0 |  126 157 |  0 |  126 576 |
^  be  ^ běloruština |  7 131 |  0 |  0 |  0 |  0 |  0 |  0 |  7 131 |
^  bg  ^ bulharština |  7 068 |  0 |  0 |  13 577 |  9 083 |  165 092 |  0 |  194 820 |
^  bn  ^ bengálština |  0 |  0 |  0 |  0 |  0 |  1 554 |  0 |  1 554 |
^  br  ^ bretonština |  0 |  0 |  0 |  0 |  0 |  98 |  0 |  98 |
^  bs  ^ bosenština |  0 |  0 |  0 |  0 |  0 |  58 758 |  0 |  58 758 |
^  ca  ^ katalánština |  10 112 |  0 |  0 |  0 |  0 |  2 735 |  736 |  13 582 |
^  cs  ^ čeština |  124 680 |  4 717 |  2 312 |  19 214 |  12 917 |  233 139 |  563 |  397 542 |
^  da  ^ dánština |  9 548 |  0 |  0 |  20 313 |  13 916 |  71 825 |  657 |  116 259 |
^  de  ^ němčina |  40 679 |  5 067 |  2 483 |  20 610 |  13 089 |  98 566 |  724 |  181 219 |
^  el  ^ řečtina |  0 |  0 |  0 |  23 853 |  15 404 |  162 561 |  0 |  201 818 |
^  en  ^ angličtina |  42 395 |  5 273 |  2 670 |  22 902 |  15 576 |  280 335 |  730 |  369 882 |
^  eo  ^ esperanto |  0 |  0 |  0 |  0 |  0 |  226 |  0 |  226 |
^  es  ^ španělština |  30 661 |  6 074 |  2 859 |  26 262 |  16 249 |  223 134 |  0 |  305 240 |
^  et  ^ estonština |  79 |  0 |  0 |  14 896 |  10 899 |  54 514 |  0 |  80 388 |
^  eu  ^ baskičtina |  0 |  0 |  0 |  0 |  0 |  3 022 |  0 |  3 022 |
^  fa  ^ perština |  0 |  0 |  0 |  0 |  0 |  33 167 |  0 |  33 167 |
^  fi  ^ finština |  6 959 |  0 |  0 |  15 269 |  10 108 |  90 471 |  543 |  123 349 |
^  fr  ^ francouzština |  24 361 |  5 896 |  3 046 |  26 200 |  17 179 |  181 433 |  764 |  258 879 |
^  gl  ^ galicijština |  0 |  0 |  0 |  0 |  0 |  623 |  0 |  623 |
^  he  ^ hebrejština |  0 |  0 |  0 |  0 |  0 |  130 143 |  0 |  130 143 |
^  hi  ^ hindština |  409 |  0 |  0 |  0 |  0 |  432 |  0 |  841 |
^  hr  ^ chorvatština |  24 529 |  0 |  0 |  0 |  0 |  137 966 |  571 |  163 066 |
^  hs  ^ hornolužická srbština |  466 |  0 |  0 |  0 |  0 |  0 |  0 |  466 |
^  hu  ^ maďarština |  6 921 |  8 |  0 |  17 852 |  12 198 |  141 691 |  0 |  178 670 |
^  hy  ^ arménština |  0 |  0 |  0 |  0 |  0 |  24 |  0 |  24 |
^  id  ^ indonéština |  0 |  0 |  0 |  0 |  0 |  38 343 |  0 |  38 343 |
^  is  ^ islandština |  0 |  0 |  0 |  0 |  0 |  7 375 |  0 |  7 375 |
^  it  ^ italština |  18 086 |  1 389 |  2 747 |  23 771 |  15 494 |  163 622 |  684 |  225 793 |
^  ja  ^ japonština |  3 818 |  2 |  0 |  0 |  0 |  12 485 |  0 |  16 305 |
^  ka  ^ gruzínština |  0 |  0 |  0 |  0 |  0 |  889 |  0 |  889 |
^  kk  ^ kazaština |  0 |  0 |  0 |  0 |  0 |  14 |  0 |  14 |
^  ko  ^ korejština |  0 |  0 |  0 |  0 |  0 |  5 980 |  0 |  5 980 |
^  lt  ^ litevština |  696 |  0 |  0 |  17 316 |  11 213 |  5 269 |  471 |  34 964 |
^  lv  ^ lotyština |  3 636 |  0 |  0 |  17 533 |  11 682 |  2 053 |  537 |  35 441 |
^  mk  ^ makedonština |  8 881 |  0 |  0 |  0 |  0 |  15 595 |  0 |  24 476 |
^  ml  ^ malajámština |  0 |  0 |  0 |  0 |  0 |  1 281 |  0 |  1 281 |
^  ms  ^ malajština |  0 |  0 |  0 |  0 |  0 |  7 939 |  0 |  7 939 |
^  mt  ^ maltština |  0 |  0 |  0 |  13 935 |  0 |  0 |  0 |  13 935 |
^  nl  ^ nizozemština |  18 782 |  812 |  2 953 |  23 416 |  15 558 |  170 979 |  717 |  233 217 |
^  no  ^ norština |  8 221 |  0 |  0 |  0 |  0 |  39 807 |  724 |  48 752 |
^  pl  ^ polština |  28 597 |  0 |  2 380 |  19 604 |  12 817 |  169 498 |  583 |  233 480 |
^  pt  ^ portugalština |  7 285 |  739 |  2 782 |  24 598 |  15 193 |  229 515 |  706 |  280 818 |
^  rn  ^ romština |  14 |  0 |  0 |  0 |  0 |  0 |  0 |  14 |
^  ro  ^ rumunština |  4 219 |  0 |  2 738 |  8 092 |  9 446 |  212 396 |  0 |  236 890 |
^  ru  ^ ruština |  12 387 |  4 302 |  0 |  0 |  0 |  104 609 |  565 |  121 864 |
^  si  ^ sinhálština |  0 |  0 |  0 |  0 |  0 |  2 346 |  0 |  2 346 |
^  sk  ^ slovenština |  8 586 |  0 |  0 |  18 399 |  12 727 |  34 581 |  561 |  74 854 |
^  sl  ^ slovinština |  4 636 |  0 |  0 |  18 515 |  12 241 |  83 000 |  0 |  118 392 |
^  sq  ^ albánština |  0 |  0 |  0 |  0 |  0 |  9 351 |  0 |  9 351 |
^  sr  ^ srbština |  12 706 |  0 |  0 |  0 |  0 |  152 636 |  0 |  165 342 |
^  sv  ^ švédština |  19 740 |  0 |  0 |  19 542 |  13 784 |  81 548 |  638 |  135 252 |
^  ta  ^ tamilština |  0 |  0 |  0 |  0 |  0 |  104 |  0 |  104 |
^  te  ^ telugština |  0 |  0 |  0 |  0 |  0 |  96 |  0 |  96 |
^  th  ^ thajština |  0 |  0 |  0 |  0 |  0 |  5 660 |  0 |  5 660 |
^  tl  ^ tagalština |  0 |  0 |  0 |  0 |  0 |  38 |  0 |  38 |
^  tr  ^ turečtina |  0 |  0 |  0 |  0 |  0 |  149 892 |  0 |  149 892 |
^  uk  ^ ukrajinština |  14 849 |  0 |  0 |  0 |  0 |  2 938 |  596 |  18 382 |
^  ur  ^ urdština |  0 |  0 |  0 |  0 |  0 |  158 |  0 |  158 |
^  vi  ^ vietnamština |  0 |  0 |  0 |  0 |  0 |  22 298 |  0 |  22 298 |
^  zh  ^ čínština |  238 |  838 |  0 |  0 |  0 |  71 331 |  0 |  72 407 |
^  **CELKEM**  ^   |  511 408 |  35 503 |  26 971 |  425 670 |  276 772 |  4 001 428 |  12 069 |  5 289 821 |

Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.

====Počet textů v jádru korpusu====

^ Zkratka ^ Jazyk ^ Počet textů ^ z toho originály ^
^  ar  ^ arabština |  3 |  1 |
^  be  ^ běloruština |  108 |  14 |
^  bg  ^ bulharština |  87 |  19 |
^  ca  ^ katalánština |  92 |  1 |
^  cs  ^ čeština |  1 812 |  368 |
^  da  ^ dánština |  93 |  9 |
^  de  ^ němčina |  471 |  163 |
^  en  ^ angličtina |  422 |  271 |
^  es  ^ španělština |  355 |  142 |
^  et  ^ estonština |  1 |  0 |
^  fi  ^ finština |  112 |  36 |
^  fr  ^ francouzština |  277 |  126 |
^  hi  ^ hindština |  7 |  2 |
^  hr  ^ chorvatština |  324 |  37 |
^  hs  ^ hornolužická srbština |  13 |  5 |
^  hu  ^ maďarština |  89 |  1 |
^  it  ^ italština |  171 |  26 |
^  ja  ^ japonština |  35 |  15 |
^  lt  ^ litevština |  23 |  4 |
^  lv  ^ lotyština |  73 |  15 |
^  mk  ^ makedonština |  108 |  4 |
^  nl  ^ nizozemština |  215 |  52 |
^  no  ^ norština |  102 |  23 |
^  pl  ^ polština |  348 |  54 |
^  pt  ^ portugalština |  87 |  24 |
^  rn  ^ romština |  2 |  2 |
^  ro  ^ rumunština |  45 |  5 |
^  ru  ^ ruština |  160 |  37 |
^  sk  ^ slovenština |  165 |  62 |
^  sl  ^ slovinština |  73 |  25 |
^  sr  ^ srbština |  148 |  13 |
^  sv  ^ švédština |  232 |  101 |
^  uk  ^ ukrajinština |  199 |  8 |
^  zh  ^ čínština |  3 |  3 |
^  **CELKEM**  ^   |  6 455 |  1 668 |

==== Morfosyntaktická anotace ====

Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek.  Popis značek je dostupný i z vyhledávacího rozhraní KonText, když jako typ dotazu zvolíte CQL. Někdy odkazujeme na stručný popis sady značek daného jazyka na stránkách [[https://www.sketchengine.eu|Sketch Engine]].

^  Jazyk  ^  Značky  ^  Lemmata  ^  Stručný popis  ^  Podrobný popis  ^  Značky v korpusu  ^ Nástroj  ^
^ angličtina |  ✔   |  ✔  |  [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/PennTreebankTags.pdf|anglicky]]  | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~AoIeKE4AOIoO|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
^ běloruština |  ✔  |   ✔   |  [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://universaldependencies.org/be/index.html#morphology|anglicky]]%%****%%)  |   [[https://www.korpus.cz/kontext/wordlist/result?q=~WUgyKq0a2I2I|ukázat]]  |[[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  |
^ bulharština |  ✔  |   ✔   |  [[https://www.sketchengine.eu/bulgarian-treebank-part-of-speech-tagset/|anglicky]]   |  [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/BTB-TR03_BulTreeBank_morphosyntactic_tag.pdf|anglicky]]  |   [[https://www.korpus.cz/kontext/wordlist/result?q=~deauEUMQSay2|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
^ čeština |  ✔  |  ✔  |  [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] a [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] |  [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~dWMc6cC2mEYI|ukázat]]  | [[http://ufal.mff.cuni.cz/morce/index.php|Morče]]  |
^ čínština |  ✔  |    |  [[https://www.sketchengine.eu/chinese-penn-treebank-part-of-speech-tagset/|anglicky]]  |  [[https://repository.upenn.edu/cgi/viewcontent.cgi?article=1039&context=ircs_reports|anglicky]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~Qy0WEKcyKCAG|ukázat]]  | [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar v0.7.5]]  |
^ estonština |  ✔  |  ✔  |  [[http://www.cl.ut.ee/korpused/morfliides/seletus|estonsky a anglicky]]  |     |   [[https://www.korpus.cz/kontext/wordlist/result?q=~OYogQQcMUc86|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
^ finština |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/finntreebank|anglicky]]%%*%%)  |  [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/treebank/sources/FinnTreeBankManual.pdf|anglicky]]%%*%%)  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~BwiUqc2SoaKY|ukázat]]  |[[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] +[[https://code.google.com/archive/p/hunpos/|HunPOS]]  |
^ francouzština |  ✔  |  ✔  |  [[https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/french-tagset.html|anglicky]]  |     |  [[https://www.korpus.cz/kontext/wordlist/result?q=~MEY8qsoECM42|ukázat]]  |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
^ chorvatština |  ✔  |  ✔  |   [[https://github.com/ffnlp/sethr/blob/master/mte4r-upos.mapping|anglicky]]  |  [[http://nlp.ffzg.hr/data/tagging/msd-hr.html|anglicky]]   |  [[https://www.korpus.cz/kontext/wordlist/result?q=~ve6ySioUWoQo|ukázat]]  | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]]   |
^ islandština |  ✔  |  ✔  |  [[http://www.malfong.is/files/ot_tagset_files_en.pdf|anglicky]]   |  [[http://nlp.cs.ru.is/pdf/Tagset.pdf|anglicky]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~OSQqSoscsiiG|ukázat]]  | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]]  |
^ italština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/italian-tagset.txt|anglicky]]   |     |  [[https://www.korpus.cz/kontext/wordlist/result?q=~AG82UCM6swiK|ukázat]]  |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
^ japonština |  ✔  |  ✔  |  [[https://www.sketchengine.eu/tagset-jp-mecab/|anglicky]]   |     |  [[https://www.korpus.cz/kontext/wordlist/result?q=~v8EQwWqiygis|ukázat]]  | [[https://taku910.github.io/mecab/|MeCab]] + [[https://unidic.ninjal.ac.jp|Unidic]]  |
^ katalánština |  ✔  |  ✔  |  [[http://clic.ub.edu/corpus/webfm_send/18|anglicky]]  |     |  [[https://www.korpus.cz/kontext/wordlist/result?q=~xIQI46GMkQMc|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
^ lotyština |  ✔  |  ✔  |   [[http://www.semti-kamols.lv/doc_upl/TagSet.html|lotyšsky]]  |     |  [[https://www.korpus.cz/kontext/wordlist/result?q=~NiGIW6iec6eq|ukázat]]  | [[https://peteris.rocks/blog/latvian-part-of-speech-tagging|LVTagger]]  |
^ maďarština |  ✔  |     |    |  [[http://www.inf.u-szeged.hu/projectdirs/hlt/en/Szeged%20Treebank%202.0_en.html|anglicky]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~CCeWgGmqmcqi|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]]  |
^ němčina |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%)  |  [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~gs4MCm8iuEea|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]]  |
^ nizozemština |  ✔  |  ✔    |   [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]]  |   |  [[https://www.korpus.cz/kontext/wordlist/result?q=~58AMOGUAOg6I|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
^ norština |  ✔  |  ✔  |  [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://universaldependencies.org/no/index.html#morphology|anglicky]]%%****%%)  |    [[https://www.korpus.cz/kontext/wordlist/result?q=~I6aemQOK8yiU|ukázat]]  | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  |
^ polština |  ✔  |  ✔  |  [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]]  |  [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~ReKM6qg4Ic8W|ukázat]]  |[[http://sgjp.pl/morfeusz/|Morfeusz]], [[https://github.com/kwrobel-nlp/krnnt|KRNNT]]  |
^ portugalština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]]  |     |  [[https://www.korpus.cz/kontext/wordlist/result?q=~saGaiAI0uEMo|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
^ ruština |  ✔  |  ✔  |  [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]]  |  [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%)  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~T2sc4y6Uw2WO|ukázat]]  |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
^ slovenština |  ✔  |  ✔  |  [[http://korpus.sk/morpho.html/|slovensky]] [[https://korpus.sk/morpho_en.html/|anglicky]]  |  [[https://korpus.sk/attachments/morpho_en/tagset-www.pdf|slovensky]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~qkQQs4cq2IyG|ukázat]]  | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]]  |
^ slovinština |  ✔  |  ✔  |   |  [[http://nl.ijs.si/jos/msd/html-en/josMSD-en.html|anglicky]]  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~jQMEsa8MuCQm|ukázat]]  | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]]  |
^ srbština |  ✔  |  ✔  |  [[https://www.sketchengine.eu/multext-east-serbian-part-of-speech-tagset/|anglicky]]  |   [[http://nl.ijs.si/ME/V4/msd/html/msd-sr.html|anglicky]]   |  [[https://www.korpus.cz/kontext/wordlist/result?q=~3C8YOAWM0IIC|ukázat]]  | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]]   |
^ španělština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]]  |     |  [[https://www.korpus.cz/kontext/wordlist/result?q=~twEuIaMu4sSQ|ukázat]]  | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
^ švédština |  ✔  |  ✔  |  [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]]   |     |  [[https://www.korpus.cz/kontext/wordlist/result?q=~hOAuiSoQMGQe|ukázat]]  | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]]  |
^ ukrajinština |  ✔  |  ✔  |  [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://universaldependencies.org/uk/index.html#morphology|anglicky]]%%****%%)  |  [[https://www.korpus.cz/kontext/wordlist/result?q=~iQ0owcu4o2eQ|ukázat]]  | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  |

<wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap>
  
<wrap lo>%%**%%) Uvnitř jedné morfologické značky používáme jako oddělovač jednotlivých kategorií dvojtečku místo tečky, tedy např. ADJA:Pos:Nom:Sg:Fem.</wrap>

<wrap lo>%%***%%) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.</wrap>

<wrap lo>%%****%%) Značka je uvedena ve formátu UD (Universal Dependencies), jednotlivé části značky jsou odděleny svislítkem (|), např. tvar школы v genitivu singuláru je značkován takto: ''NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing''. Dotaz lze formulovat tak jako u jiných jazyků, tedy na řetězec znaků, např. ''[tag=%%"NOUN.*Case=Gen\|Gender=Fem.*"%%]'' nebo lze specifikovat jednotlivé části značky zvlášť, tedy např. ''[tag=%%"Case=Gen"%% & tag=%%"NOUN"%% & tag=%%"Gender=Fem"%%]'' (na pořadí kategorií nezáleží). Výsledek je v obou případech stejný. </wrap>

Rozdíly mezi formátem značek v dokumentaci a v korpusu jsou i u některých jiných jazyků. Před zadáním dotazu na značku si formát značky prosím ověřte. Můžete využít třeba výpisy značek z korpusu ve výše uvedené tabulce – viz sloupec **Značky v korpusu**. Nebo na stránce s výsledky libovolného dotazu zaškrtněte v menu **Zobrazení/Korpusová nastavení...** mezi **Pozičními atributy** volbu //tag// a v **Možnostech zobrazení** vyberte //pro každý token//.

U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can't// nebo //I'm//, které tagger rozdělí na dvě slova (//ca//+//n't// a //I//+//'m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś// (rozděleno na //była//+//m// a //gdyby//+//ś//). Je třeba počítat i s chybným rozdělením: //gdzie//+//ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky.


Morfologické značky obsahující znaky, které mají v regulárních výrazech zvláštní význam, např. ''$'' v anglické značce ''wp$'', je třeba v dotazech zadávat za zpětné lomítko, tedy např. takto: ''tag=%%"wp\$"%%''.

====Strukturní atributy====

^Struktura^Atribut^Popis^Možné hodnoty^
|doc|doc.id|identifikátor dokumentu| příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP_ročník / _SUBTITLES / _SYNDICATE_ročník / _OT / _NT |
|text|text.id|identifikace textu|příjmení_autora-zkrácený_název_textu:0 / _ACQUIS:číslo / _EUROPARL:číslo / _PRESSEUROP:číslo / _SUBTITLES:číslo / _SYNDICATE_ročník:název / _OT:kniha / _NT:kniha |
| |text.author|autor textu|příjmení, jméno|
| |text.title|úplný název textu|text|
| |text.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / rn / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh|
| |text.version|verze textu|číslo|
| |text.group|jádro/kolekce| Core / Acquis / Europarl / PressEurop / Subtitles / Syndicate / Bible |
| |text.publisher|vydavatel|text|
| |text.pubplace|místo vydání|text|
| |text.pubDateYear|rok vydání|číslo|
| |text.pubDateMonth|měsíc vydání|číslo|
| |text.origyear|rok vytvoření originálu|číslo|
| |text.isbn|ISBN|číslo|
| |text.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles / religious |
| |text.comment|poznámka|text|
| |text.original|originální verze?|Yes / No|
| |text.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / pt / rm / rn / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh|
| |text.translator|překladatel|příjmení, jméno|
| |text.transsex|pohlaví překladatele|F / M|
| |text.authsex|pohlaví autora|F / M|
| |text.transcomment|poznámka k překladu|text|
| |text.collectiontitle|název kolekce|text|
| |text.volume|číslo svazku|číslo|
| |text.pages|počet stran|číslo|
| |text.lang_var|varieta jazyka|de-AT / de-CH / de-DE / en-AU / en-CA / en-GB / en-UM / en-US / es-ES / es-MX / es-PE / fr-BE / fr-FR / it-CH / it-IT / nl-BE / nl-NL / nn-NO / nb-NO / pt-BR / pt-PT / sr-RS |
| |text.wordcount|počet slov|číslo|
|div|div.id|identifikátor oddílu (Bible)| _NT / _OT:kapitola |
| |div.type|typ oddílu (kapitola)|chapter|
|p|p.id|identifikátor odstavce|doc:text:div:par|
|s|s.id|identifikátor věty|doc:text:div:par:sent|
|hi|hi.rend|řez písma|italic / bold / bold italic|
|lb|lb.id|identifikátor verše (Bible)|book:chapter:verse|

==== Poděkování ====

Děkujeme za možnost využívat následující texty a software:

=== Texty: ===

  * za možnost zařadit do korpusu nejnovější (13. opravené) vydání Českého ekumenického překladu Bible z roku 2016 děkujeme [[http://www.dumbible.cz|České biblické společnosti]], zvláště Petru Fryšovi
  * beletristické texty v řadě slovanských i jiných jazyků z korpusu [[http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3|ASPAC – Amsterdam Slavic Parallel Aligned Corpus]] – zvláštní poděkování patří Adrianu Barentsenovi
  * publicistické texty ve více jazycích z webových stránek [[http://www.project-syndicate.org/|Project Syndicate]]
  * publicistické texty ve více jazycích ze serveru [[http://www.voxeurop.eu|VoxEurop]]
  * právnické texty v jazycích EU z korpusu [[http://wt.jrc.it/lt/Acquis/|JRC-ACQUIS]]
  * jednání Evropského parlamentu z korpusu [[http://www.statmt.org/europarl/|EuroParl]]
  * slovensko-české konkordance ze [[http://korpus.juls.savba.sk/|Slovenského národního korpusu]]
  * povídky ve více jazycích z projektu //Můj rok 1989// z [[http://www.goethe.de/ins/cz/pra/|Goethe Institutu]]
  * za více textů v česko-litevské části korpusu a za práci Jiřího Levého Umění překladu ve více jazycích vděčíme Patricku Cornessovi
  * román George Orwella //1984// ve více jazycích z korpusu [[http://nl.ijs.si/ME/|Multext-East]]
  * ukrajinské a polské texty z korpusu [[http://www.domeczek.pl/~polukr/|PolUkr]]
  * norské texty z nakladatelství [[http://www.aschehoug.no/|Forlaget Oktober]]
  * filmové titulky z databáze [[http://www.opensubtitles.org|Open Subtitles]]

=== Předzpracování: ===

  * editor paralelních textů [[http://wanthalf.saga.cz/intertext|InterText]] (autor Pavel Vondřička)
  * zarovnávač [[http://mokk.bme.hu/resources/hunalign|Hunalign]]
  * větný segmentátor pro češtinu (autor Pavel Květoň)
  * větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
  * větný segmentátor Punkt pro všechny ostatní jazyky ze sady [[http://www.nltk.org|Natural Language Toolkit]]


=== Značkovače / lemmatizátory: ===

  * [[http://ufal.mff.cuni.cz/morfflex|MorfFlex]], [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] a [[https://is.cuni.cz/webapps/zzp/download/140018093/?back_id=10|LanGr]] pro češtinu
  * [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, katalánštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu
  * [[http://sgjp.pl/morfeusz/|Morfeusz]] a [[https://github.com/kwrobel-nlp/krnnt|KRNNT]] pro polštinu
  * [[http://code.google.com/p/hunpos/|HunPOS]] pro finštinu a další jazyky
  * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi)
  * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (do v.11, s poděkováním Tomaži Erjavcovi) 
  * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu a maďarštinu
  * [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] pro finštinu (s poděkováním Filipu Ginterovi)
  * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)
  * [[https://github.com/clarinsi/reldi-tagger|RelDI tagger]] pro chorvatštinu, srbštinu((Ljubešić, N., Klubička, F., Željko Agić, and Jazbec, I.-P. (2016). New inflectional lexicons and training corpora for improved morphosyntactic annotation of Croatian and Serbian. In Calzolari, N. et al., editors, //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016)//, Paris, France. European Language Resources Association (ELRA).)) a slovinštinu((Ljubešić, N. and Erjavec, T. (2016). Corpus vs. lexicon supervision in morphosyntactic tagging: the case of Slovene. In Calzolari, N. et al., editors, //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016)//, Paris, France. European Language Resources Association (ELRA).)) (s poděkováním Nikolovi Ljubešićovi)
  * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisi Ņikiforovsovi a Michalu Škrabalovi)
  * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému)
  * [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu (s poděkováním Adamovi Nohejlovi)
  * [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar]] pro čínštinu (s poděkováním Vlastimilu Dobečkovi)

==== Známé problémy ====
  * Ve finštině, polštině a slovenštině se u některých textů v jádru nezobrazuje hodnota atributu **doc.id**. Projevuje se to při pokusu zobrazit doc.id v metadatech, strukturách i ve statistice podle dokumentů. Dá se to obejít využitím atributu **text.id**. V kolekcích (Subtitles, Acquis, etc.) se atribut doc.id ukazuje správně.


==== Jak citovat ====

Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu [[https://intercorp.korpus.cz/|www.intercorp.korpus.cz]] a k odborným publikacím odkaz na tento článek:

<WRAP round info 50%>
ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. //International Journal of Corpus Linguistics//. Vol. 13, no. 3, p. 411–427
([[http://utkl.ff.cuni.cz/~rosen/public/mybib_bib.html#cermak:rosen:10|bibtex]],
[[http://dx.doi.org/10.1075/ijcl.17.3.05cer|elektronické vydání na serveru ingentaConnect]], [[http://utkl.ff.cuni.cz/~rosen/public/2012_intercorp_ijcl.pdf|verze před tiskem]]). 

Seznam další literatury najdete v [[https://www.korpus.cz/biblio|Repozitáři bibliografických informací založených na ČNK]]. Každý odkaz na práci využívající InterCorp je vítán, viz [[https://www.korpus.cz/biblio_appeal.php|podrobnosti]].


Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.:

ROSEN, A. – ŠIMČÍK, B. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 16 ze ?. ?. 2023//. Ústav Českého národního korpusu, FF UK, Praha 2023. Dostupné z WWW: https://kontext.korpus.cz/

</WRAP>

==== Viz též ====

<WRAP round box 51%>
[[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze15|Verze 15]] • [[cnk:intercorp:verze13ud|Verze 13ud]] • [[cnk:intercorp:verze14|Verze 14]] • [[cnk:intercorp:verze13|Verze 13]] • [[cnk:intercorp:verze12|Verze 12]] • [[cnk:intercorp:verze11|Verze 11]] • [[cnk:intercorp:verze10|Verze 10]] • [[cnk:intercorp:verze9|Verze 9]] • [[cnk:intercorp:verze8|Verze 8]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]]

Původní stránky projektu InterCorp jsou stále [[https://intercorp.korpus.cz|zde]].
</WRAP>