====== Korpus InterCorp verze 13ud – Universal Dependencies ======
^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 141 124 127 | 117 877 960 | 391 209 482 | 1 518 645 852 |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 113 934 806 | 89 973 959 | 327 497 843 | 1 219 622 437 |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 657 | 30 | 3 994 | 282 |
^ ::: ^ Počet textů | 1 657 | 111 951 | 3 994 | 1 843 528 |
^ ::: ^ Počet vět | 9 782 002 | 13 606 198 | 24 318 736 | 143 196 252 |
^ Další informace ^ [[pojmy:referencni|referenční]] | ANO ^^^^
^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] | NE ([[seznamy:txtype|různé textové typy]]) ^^^^
^ ::: ^ rok zveřejnění | 2021 ^^^^
^ ::: ^ cizích jazyků | 40 ^^^^
^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 35 ^^^^
^ ::: ^ jazyky s [[pojmy:lemma|lemmaty]] | 35 ^^^^
^ ::: ^ jazyky se syntaktickou anotací | 35 ^^^^
=====Přístup k textům=====
Po registraci na stránce [[https://www.korpus.cz/signup|Prohlášení uživatele korpusů ÚČNK]] lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.
InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy.
Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na [[alexandr.rosen@ff.cuni.cz|Alexandra Rosena]].
Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Od verze 6 dál jsou všechny předchozí verze stále dostupné. Verzi 13, označenou 13ud, zveřejňujeme s lingvistickým značkováním podle standardu [[https://universaldependencies.org|Universal Dependencies]].
===== Hlavní rozdíly mezi verzemi 13 a 13ud =====
* Z celkového počtu 41 jazyků (včetně češtiny) je ve verzi 13ud **lingvisticky anotovaných 36**; všechny takové jazyky jsou navíc vybaveny i **syntaktickou anotací**.
* Texty jsou ve všech jazycích **anotované stejně**, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]).
* Podrobný popis využití anotace podle UD v korpusu InterCorp najdete pod heslem [[pojmy:ud|Universal Dependencies]] ve [[pojmy:prehled_pojmu|Slovníčku pojmů ČNK]].
* Anotaci provedl u všech jazyků nástroj [[https://ufal.mff.cuni.cz/udpipe|UDPipe]] na základě dat vytvořených v projektu UD.((Nástroj využívá všechna data pro daný jazyk, tj. všechny treebanky uvedené na stránce [[https://lindat.mff.cuni.cz/services/udpipe/IUDPipe]]. Při zpracování lze i tak zadat parametr, který pro některá rozhodnutí, např. pro tokenizaci, preferuje určitý model. Při anotaci toho korpusu byly zadány tyto modely: arabic-padt-ud-2.6-200830,
belarusian-hse-ud-2.6-200830,
bulgarian-btb-ud-2.6-200830,
catalan-ancora-ud-2.6-200830,
chinese-gsdsimp-ud-2.6-200830,
croatian-set-ud-2.6-200830,
czech-fictree-ud-2.6-200830,
danish-ddt-ud-2.6-200830,
dutch-alpino-ud-2.6-200830,
english-partut-ud-2.6-200830,
estonian-edt-ud-2.6-200830,
finnish-tdt-ud-2.6-200830,
french-gsd-ud-2.6-200830,
german-gsd-ud-2.6-200830,
greek-gdt-ud-2.6-200830,
hebrew-htb-ud-2.6-200830,
hindi-hdtb-ud-2.6-200830,
hungarian-szeged-ud-2.6-200830,
italian-postwita-ud-2.6-200830,
japanese-gsd-ud-2.6-200830,
latvian-lvtb-ud-2.6-200830,
lithuanian-alksnis-ud-2.6-200830,
maltese-mudt-ud-2.6-200830,
norwegian-nynorsk-ud-2.6-200830,
polish-pdb-ud-2.6-200830,
portuguese-gsd-ud-2.6-200830,
romanian-rrt-ud-2.6-200830,
russian-syntagrus-ud-2.6-200830,
serbian-set-ud-2.6-200830,
slovak-snk-ud-2.6-200830,
slovenian-ssj-ud-2.6-200830,
spanish-ancora-ud-2.6-200830,
swedish-talbanken-ud-2.6-200830,
turkish-imst-ud-2.6-200830,
ukrainian-iu-ud-2.6-200830,
vietnamese-vtb-ud-2.6-200830.))
===== Obsah korpusu =====
InterCorp verze 13ud obsahuje **stejné texty** jako [[cnk:intercorp:verze13|InterCorp verze 13]], obě verze se **liší jen v lingvistické anotaci**. Údaje o počtu tokenů a slov ve verzi 13ud se však můžou mírně lišit kvůli jinému způsobu tokenizace.
**Jádrem** korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. **kolekce**. Ve verzi 13ud jsou k dispozici tyto kolekce:
* publistické články a zpravodajství z webových stránek [[http://www.project-syndicate.org|Project Syndicate]] a [[http://www.voxeurop.eu|VoxEurop]] (dříve PressEurop)
* právní texty Evropské unie z korpusu [[https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis|Acquis Communautaire]]
* zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http://www.statmt.org/europarl|Europarl]]
* filmové titulky z databáze [[http://www.opensubtitles.org|OpenSubtitles]]
* překlady Bible
Tyto texty jsou zarovnány jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. ty, které nemají český protějšek. Některé texty z korpusů //Acquis Communautaire// a //Europarl// byly rovněž částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze //OpenSubtitles//, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Zato byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.
Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se navýšil počet dokumentů v kolekcích.
Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 13ud z prosince 2021 činí v zarovnaných cizojazyčných textech 327 milionů slov v jádru a 1 220 milionů slov v kolekcích. V českých textech je v jádru 114 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.
[{{:cnk:intercorp:intercorp_wordcounts_13ud.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\
[{{:cnk:intercorp:intercorp_wordcounts2_13ud.png|Skladba korpusu podle jednotlivých jazyků – jádro}}] \\
[{{:cnk:intercorp:intercorp_wordcounts3_13ud.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}] \\
^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Bible ^ Celkem ^
^ ar ^ arabština | 34 | 0 | 0 | 0 | 0 | 0 | 0 | 34 |
^ be ^ běloruština | 5 713 | 0 | 0 | 0 | 0 | 0 | 0 | 5 713 |
^ bg ^ bulharština | 7 067 | 0 | 0 | 13 582 | 9 082 | 0 | 0 | 29 732 |
^ ca ^ katalánština | 8 006 | 0 | 0 | 0 | 0 | 0 | 728 | 8 735 |
^ da ^ dánština | 7 122 | 0 | 0 | 20 012 | 13 800 | 14 372 | 656 | 55 962 |
^ de ^ němčina | 37 680 | 4 735 | 2 506 | 20 710 | 13 153 | 8 388 | 725 | 87 897 |
^ el ^ řečtina | 0 | 0 | 0 | 23 684 | 15 382 | 23 562 | 0 | 62 628 |
^ en ^ angličtina | 33 585 | 4 901 | 2 685 | 23 138 | 15 643 | 51 589 | 730 | 132 270 |
^ es ^ španělština | 26 553 | 5 609 | 2 858 | 26 270 | 16 249 | 36 625 | 0 | 114 164 |
^ et ^ estonština | 0 | 0 | 0 | 14 885 | 10 899 | 10 290 | 0 | 36 073 |
^ fi ^ finština | 5 655 | 0 | 0 | 15 260 | 10 108 | 15 047 | 542 | 46 613 |
^ fr ^ francouzština | 19 734 | 5 594 | 3 041 | 26 294 | 17 196 | 25 996 | 764 | 98 619 |
^ he ^ hebrejština | 0 | 0 | 0 | 0 | 0 | 16 050 | 0 | 16 050 |
^ hi ^ hindština | 403 | 0 | 0 | 0 | 0 | 0 | 0 | 403 |
^ hr ^ chorvatština | 21 924 | 0 | 0 | 0 | 0 | 19 022 | 570 | 41 515 |
^ hu ^ maďarština | 6 441 | 0 | 0 | 17 851 | 12 188 | 21 091 | 0 | 57 572 |
^ //is// ^ //islandština// | 0 | 0 | 0 | 0 | 0 | 1 581 | 0 | 1 581 |
^ it ^ italština | 14 416 | 1 225 | 2 709 | 23 648 | 15 502 | 14 765 | 685 | 72 949 |
^ ja ^ japonština | 2 279 | 0 | 0 | 0 | 0 | 452 | 0 | 2 731 |
^ lt ^ litevština | 419 | 0 | 0 | 17 175 | 11 198 | 555 | 471 | 29 819 |
^ lv ^ lotyština | 2 646 | 0 | 0 | 17 518 | 11 682 | 280 | 537 | 32 662 |
^ //mk// ^ //makedonština// | 8 881 | 0 | 0 | 0 | 0 | 1 877 | 0 | 10 758 |
^ //ms// ^ //malajština// | 0 | 0 | 0 | 0 | 0 | 3 521 | 0 | 3 521 |
^ mt ^ maltština | 0 | 0 | 0 | 13 805 | 0 | 0 | 0 | 13 805 |
^ nl ^ nizozemština | 16 214 | 812 | 2 953 | 23 401 | 15 556 | 29 355 | 717 | 89 008 |
^ no ^ norština | 7 753 | 0 | 0 | 0 | 0 | 0 | 724 | 8 477 |
^ pl ^ polština | 25 738 | 0 | 2 367 | 19 483 | 12 663 | 25 801 | 576 | 86 628 |
^ pt ^ portugalština | 4 981 | 554 | 2 782 | 24 260 | 15 186 | 41 452 | 712 | 89 927 |
^ //rn// ^ //romština// | 14 | 0 | 0 | 0 | 0 | 0 | 0 | 14 |
^ ro ^ rumunština | 4 198 | 0 | 2 726 | 8 044 | 9 428 | 33 955 | 0 | 58 352 |
^ ru ^ ruština | 8 662 | 3 993 | 0 | 0 | 0 | 6 898 | 566 | 20 119 |
^ sk ^ slovenština | 8 543 | 0 | 0 | 18 397 | 12 727 | 5 132 | 561 | 45 361 |
^ sl ^ slovinština | 3 871 | 0 | 0 | 18 513 | 12 249 | 17 054 | 0 | 51 688 |
^ //sq// ^ //albánština// | 0 | 0 | 0 | 0 | 0 | 2 003 | 0 | 2 003 |
^ sr ^ srbština | 11 580 | 0 | 0 | 0 | 0 | 20 679 | 0 | 32 259 |
^ sv ^ švédština | 15 790 | 0 | 0 | 19 459 | 13 778 | 14 652 | 638 | 64 316 |
^ tr ^ turečtina | 0 | 0 | 0 | 0 | 0 | 20 895 | 0 | 20 895 |
^ uk ^ ukrajinština | 11 461 | 0 | 0 | 0 | 0 | 244 | 596 | 12 301 |
^ vi ^ vietnamština | 0 | 0 | 0 | 0 | 0 | 1 269 | 0 | 1 269 |
^ zh ^ čínština | 135 | 269 | 0 | 0 | 0 | 2 292 | 0 | 2 696 |
^ **celkem** ^ | 327 498 | 27 692 | 24 627 | 405 390 | 263 669 | 486 747 | 11 498 | 1 547 120 |
^ cs ^ čeština | 113 935 | 4 356 | 2 313 | 19 189 | 12 919 | 50 634 | 562 | 203 909 |
^ **CELKEM** ^ | 441 433 | 32 048 | 26 941 | 424 579 | 276 587 | 537 382 | 12 060 | 1 751 029 |
Pozn. 1: Jazyky uvedené kurzívou nemají lingvistickou anotaci.
Pozn. 2: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.
===== Poděkování =====
Děkujeme za možnost využívat následující texty a software:
==== Texty: ====
* za možnost zařadit do korpusu nejnovější (13. opravené) vydání Českého ekumenického překladu Bible z roku 2016 děkujeme [[http://www.dumbible.cz|České biblické společnosti]], zvláště Petru Fryšovi
* beletristické texty v řadě slovanských i jiných jazyků z korpusu [[http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3|ASPAC – Amsterdam Slavic Parallel Aligned Corpus]] – zvláštní poděkování patří Adrianu Barentsenovi
* publicistické texty ve více jazycích z webových stránek [[http://www.project-syndicate.org/|Project Syndicate]]
* publicistické texty ve více jazycích ze serveru [[http://www.voxeurop.eu|VoxEurop]]
* právnické texty v jazycích EU z korpusu [[http://wt.jrc.it/lt/Acquis/|JRC-ACQUIS]]
* jednání Evropského parlamentu z korpusu [[http://www.statmt.org/europarl/|EuroParl]]
* slovensko-české konkordance ze [[http://korpus.juls.savba.sk/|Slovenského národního korpusu]]
* povídky ve více jazycích z projektu //Můj rok 1989// z [[http://www.goethe.de/ins/cz/pra/|Goethe Institutu]]
* za více textů v česko-litevské části korpusu a za práci Jiřího Levého Umění překladu ve více jazycích vděčíme Patricku Cornessovi
* román George Orwella //1984// ve více jazycích z korpusu [[http://nl.ijs.si/ME/|Multext-East]]
* ukrajinské a polské texty z korpusu [[http://www.domeczek.pl/~polukr/|PolUkr]]
* norské texty z nakladatelství [[http://www.aschehoug.no/|Forlaget Oktober]]
* filmové titulky z databáze [[http://www.opensubtitles.org|Open Subtitles]]
==== Předzpracování: ====
* editor paralelních textů [[http://wanthalf.saga.cz/intertext|InterText]] (autor Pavel Vondřička)
* zarovnávač [[http://mokk.bme.hu/resources/hunalign|Hunalign]]
* větný segmentátor pro češtinu (autor Pavel Květoň)
* větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
* větný segmentátor Punkt pro všechny ostatní jazyky ze sady [[http://www.nltk.org|Natural Language Toolkit]]
==== Nástroj na lingvistické značkování: ====
* [[http://ufal.mff.cuni.cz/udpipe|UDPipe]] (s poděkováním Janě a Milanovi Strakovým, Danu Zemanovi a Martinu Popelovi)
===== Jak citovat =====
Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu [[https://intercorp.korpus.cz/|www.intercorp.korpus.cz]] a k odborným publikacím odkaz na tento článek:
ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. //International Journal of Corpus Linguistics//. Vol. 13, no. 3, p. 411–427
([[http://utkl.ff.cuni.cz/~rosen/public/mybib_bib.html#cermak:rosen:10|bibtex]],
[[http://dx.doi.org/10.1075/ijcl.17.3.05cer|elektronické vydání na serveru ingentaConnect]], [[http://utkl.ff.cuni.cz/~rosen/public/2012_intercorp_ijcl.pdf|verze před tiskem]]).
Seznam další literatury najdete v [[https://www.korpus.cz/biblio|Repozitáři bibliografických informací založených na ČNK]]. Každý odkaz na práci využívající InterCorp je vítán, viz [[https://www.korpus.cz/biblio_appeal.php|podrobnosti]].
Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.:
ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština((Vložte konkrétní jazyky.)), verze 13ud z 22. 12. 2021//. Ústav Českého národního korpusu, FF UK, Praha 2021. Dostupné z WWW: https://kontext.korpus.cz/
==== Viz též ====
[[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze12|Verze 13]] • [[cnk:intercorp:verze12|Verze 12]] • [[cnk:intercorp:verze11|Verze 11]] • [[cnk:intercorp:verze10|Verze 10]] • [[cnk:intercorp:verze9|Verze 9]] • [[cnk:intercorp:verze8|Verze 8]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]]
Původní stránky projektu InterCorp jsou stále [[https://intercorp.korpus.cz|zde]].