====== Korpus InterCorp verze 13ud – Universal Dependencies ====== ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 141 124 127 | 117 877 960 | 391 209 482 | 1 518 645 852 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 113 934 806 | 89 973 959 | 327 497 843 | 1 219 622 437 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 657 | 30 | 3 994 | 282 | ^ ::: ^ Počet textů | 1 657 | 111 951 | 3 994 | 1 843 528 | ^ ::: ^ Počet vět | 9 782 002 | 13 606 198 | 24 318 736 | 143 196 252 | ^ Další informace ^ [[pojmy:referencni|referenční]] | ANO ^^^^ ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] | NE ([[seznamy:txtype|různé textové typy]]) ^^^^ ^ ::: ^ rok zveřejnění | 2021 ^^^^ ^ ::: ^ cizích jazyků | 40 ^^^^ ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 35 ^^^^ ^ ::: ^ jazyky s [[pojmy:lemma|lemmaty]] | 35 ^^^^ ^ ::: ^ jazyky se syntaktickou anotací | 35 ^^^^ =====Přístup k textům===== Po registraci na stránce [[https://www.korpus.cz/signup|Prohlášení uživatele korpusů ÚČNK]] lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete. InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na [[alexandr.rosen@ff.cuni.cz|Alexandra Rosena]]. Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Od verze 6 dál jsou všechny předchozí verze stále dostupné. Verzi 13, označenou 13ud, zveřejňujeme s lingvistickým značkováním podle standardu [[https://universaldependencies.org|Universal Dependencies]]. ===== Hlavní rozdíly mezi verzemi 13 a 13ud ===== * Z celkového počtu 41 jazyků (včetně češtiny) je ve verzi 13ud **lingvisticky anotovaných 36**; všechny takové jazyky jsou navíc vybaveny i **syntaktickou anotací**. * Texty jsou ve všech jazycích **anotované stejně**, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]). * Podrobný popis využití anotace podle UD v korpusu InterCorp najdete pod heslem [[pojmy:ud|Universal Dependencies]] ve [[pojmy:prehled_pojmu|Slovníčku pojmů ČNK]]. * Anotaci provedl u všech jazyků nástroj [[https://ufal.mff.cuni.cz/udpipe|UDPipe]] na základě dat vytvořených v projektu UD.((Nástroj využívá všechna data pro daný jazyk, tj. všechny treebanky uvedené na stránce [[https://lindat.mff.cuni.cz/services/udpipe/IUDPipe]]. Při zpracování lze i tak zadat parametr, který pro některá rozhodnutí, např. pro tokenizaci, preferuje určitý model. Při anotaci toho korpusu byly zadány tyto modely: arabic-padt-ud-2.6-200830, belarusian-hse-ud-2.6-200830, bulgarian-btb-ud-2.6-200830, catalan-ancora-ud-2.6-200830, chinese-gsdsimp-ud-2.6-200830, croatian-set-ud-2.6-200830, czech-fictree-ud-2.6-200830, danish-ddt-ud-2.6-200830, dutch-alpino-ud-2.6-200830, english-partut-ud-2.6-200830, estonian-edt-ud-2.6-200830, finnish-tdt-ud-2.6-200830, french-gsd-ud-2.6-200830, german-gsd-ud-2.6-200830, greek-gdt-ud-2.6-200830, hebrew-htb-ud-2.6-200830, hindi-hdtb-ud-2.6-200830, hungarian-szeged-ud-2.6-200830, italian-postwita-ud-2.6-200830, japanese-gsd-ud-2.6-200830, latvian-lvtb-ud-2.6-200830, lithuanian-alksnis-ud-2.6-200830, maltese-mudt-ud-2.6-200830, norwegian-nynorsk-ud-2.6-200830, polish-pdb-ud-2.6-200830, portuguese-gsd-ud-2.6-200830, romanian-rrt-ud-2.6-200830, russian-syntagrus-ud-2.6-200830, serbian-set-ud-2.6-200830, slovak-snk-ud-2.6-200830, slovenian-ssj-ud-2.6-200830, spanish-ancora-ud-2.6-200830, swedish-talbanken-ud-2.6-200830, turkish-imst-ud-2.6-200830, ukrainian-iu-ud-2.6-200830, vietnamese-vtb-ud-2.6-200830.)) ===== Obsah korpusu ===== InterCorp verze 13ud obsahuje **stejné texty** jako [[cnk:intercorp:verze13|InterCorp verze 13]], obě verze se **liší jen v lingvistické anotaci**. Údaje o počtu tokenů a slov ve verzi 13ud se však můžou mírně lišit kvůli jinému způsobu tokenizace. **Jádrem** korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. **kolekce**. Ve verzi 13ud jsou k dispozici tyto kolekce: * publistické články a zpravodajství z webových stránek [[http://www.project-syndicate.org|Project Syndicate]] a [[http://www.voxeurop.eu|VoxEurop]] (dříve PressEurop) * právní texty Evropské unie z korpusu [[https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis|Acquis Communautaire]] * zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http://www.statmt.org/europarl|Europarl]] * filmové titulky z databáze [[http://www.opensubtitles.org|OpenSubtitles]] * překlady Bible Tyto texty jsou zarovnány jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. ty, které nemají český protějšek. Některé texty z korpusů //Acquis Communautaire// a //Europarl// byly rovněž částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze //OpenSubtitles//, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Zato byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů. Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se navýšil počet dokumentů v kolekcích. Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 13ud z prosince 2021 činí v zarovnaných cizojazyčných textech 327 milionů slov v jádru a 1 220 milionů slov v kolekcích. V českých textech je v jádru 114 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov. [{{:cnk:intercorp:intercorp_wordcounts_13ud.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\ [{{:cnk:intercorp:intercorp_wordcounts2_13ud.png|Skladba korpusu podle jednotlivých jazyků – jádro}}] \\ [{{:cnk:intercorp:intercorp_wordcounts3_13ud.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}] \\ ^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Bible ^ Celkem ^ ^ ar ^ arabština | 34 | 0 | 0 | 0 | 0 | 0 | 0 | 34 | ^ be ^ běloruština | 5 713 | 0 | 0 | 0 | 0 | 0 | 0 | 5 713 | ^ bg ^ bulharština | 7 067 | 0 | 0 | 13 582 | 9 082 | 0 | 0 | 29 732 | ^ ca ^ katalánština | 8 006 | 0 | 0 | 0 | 0 | 0 | 728 | 8 735 | ^ da ^ dánština | 7 122 | 0 | 0 | 20 012 | 13 800 | 14 372 | 656 | 55 962 | ^ de ^ němčina | 37 680 | 4 735 | 2 506 | 20 710 | 13 153 | 8 388 | 725 | 87 897 | ^ el ^ řečtina | 0 | 0 | 0 | 23 684 | 15 382 | 23 562 | 0 | 62 628 | ^ en ^ angličtina | 33 585 | 4 901 | 2 685 | 23 138 | 15 643 | 51 589 | 730 | 132 270 | ^ es ^ španělština | 26 553 | 5 609 | 2 858 | 26 270 | 16 249 | 36 625 | 0 | 114 164 | ^ et ^ estonština | 0 | 0 | 0 | 14 885 | 10 899 | 10 290 | 0 | 36 073 | ^ fi ^ finština | 5 655 | 0 | 0 | 15 260 | 10 108 | 15 047 | 542 | 46 613 | ^ fr ^ francouzština | 19 734 | 5 594 | 3 041 | 26 294 | 17 196 | 25 996 | 764 | 98 619 | ^ he ^ hebrejština | 0 | 0 | 0 | 0 | 0 | 16 050 | 0 | 16 050 | ^ hi ^ hindština | 403 | 0 | 0 | 0 | 0 | 0 | 0 | 403 | ^ hr ^ chorvatština | 21 924 | 0 | 0 | 0 | 0 | 19 022 | 570 | 41 515 | ^ hu ^ maďarština | 6 441 | 0 | 0 | 17 851 | 12 188 | 21 091 | 0 | 57 572 | ^ //is// ^ //islandština// | 0 | 0 | 0 | 0 | 0 | 1 581 | 0 | 1 581 | ^ it ^ italština | 14 416 | 1 225 | 2 709 | 23 648 | 15 502 | 14 765 | 685 | 72 949 | ^ ja ^ japonština | 2 279 | 0 | 0 | 0 | 0 | 452 | 0 | 2 731 | ^ lt ^ litevština | 419 | 0 | 0 | 17 175 | 11 198 | 555 | 471 | 29 819 | ^ lv ^ lotyština | 2 646 | 0 | 0 | 17 518 | 11 682 | 280 | 537 | 32 662 | ^ //mk// ^ //makedonština// | 8 881 | 0 | 0 | 0 | 0 | 1 877 | 0 | 10 758 | ^ //ms// ^ //malajština// | 0 | 0 | 0 | 0 | 0 | 3 521 | 0 | 3 521 | ^ mt ^ maltština | 0 | 0 | 0 | 13 805 | 0 | 0 | 0 | 13 805 | ^ nl ^ nizozemština | 16 214 | 812 | 2 953 | 23 401 | 15 556 | 29 355 | 717 | 89 008 | ^ no ^ norština | 7 753 | 0 | 0 | 0 | 0 | 0 | 724 | 8 477 | ^ pl ^ polština | 25 738 | 0 | 2 367 | 19 483 | 12 663 | 25 801 | 576 | 86 628 | ^ pt ^ portugalština | 4 981 | 554 | 2 782 | 24 260 | 15 186 | 41 452 | 712 | 89 927 | ^ //rn// ^ //romština// | 14 | 0 | 0 | 0 | 0 | 0 | 0 | 14 | ^ ro ^ rumunština | 4 198 | 0 | 2 726 | 8 044 | 9 428 | 33 955 | 0 | 58 352 | ^ ru ^ ruština | 8 662 | 3 993 | 0 | 0 | 0 | 6 898 | 566 | 20 119 | ^ sk ^ slovenština | 8 543 | 0 | 0 | 18 397 | 12 727 | 5 132 | 561 | 45 361 | ^ sl ^ slovinština | 3 871 | 0 | 0 | 18 513 | 12 249 | 17 054 | 0 | 51 688 | ^ //sq// ^ //albánština// | 0 | 0 | 0 | 0 | 0 | 2 003 | 0 | 2 003 | ^ sr ^ srbština | 11 580 | 0 | 0 | 0 | 0 | 20 679 | 0 | 32 259 | ^ sv ^ švédština | 15 790 | 0 | 0 | 19 459 | 13 778 | 14 652 | 638 | 64 316 | ^ tr ^ turečtina | 0 | 0 | 0 | 0 | 0 | 20 895 | 0 | 20 895 | ^ uk ^ ukrajinština | 11 461 | 0 | 0 | 0 | 0 | 244 | 596 | 12 301 | ^ vi ^ vietnamština | 0 | 0 | 0 | 0 | 0 | 1 269 | 0 | 1 269 | ^ zh ^ čínština | 135 | 269 | 0 | 0 | 0 | 2 292 | 0 | 2 696 | ^ **celkem** ^ | 327 498 | 27 692 | 24 627 | 405 390 | 263 669 | 486 747 | 11 498 | 1 547 120 | ^ cs ^ čeština | 113 935 | 4 356 | 2 313 | 19 189 | 12 919 | 50 634 | 562 | 203 909 | ^ **CELKEM** ^ | 441 433 | 32 048 | 26 941 | 424 579 | 276 587 | 537 382 | 12 060 | 1 751 029 | Pozn. 1: Jazyky uvedené kurzívou nemají lingvistickou anotaci. Pozn. 2: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků. ===== Poděkování ===== Děkujeme za možnost využívat následující texty a software: ==== Texty: ==== * za možnost zařadit do korpusu nejnovější (13. opravené) vydání Českého ekumenického překladu Bible z roku 2016 děkujeme [[http://www.dumbible.cz|České biblické společnosti]], zvláště Petru Fryšovi * beletristické texty v řadě slovanských i jiných jazyků z korpusu [[http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3|ASPAC – Amsterdam Slavic Parallel Aligned Corpus]] – zvláštní poděkování patří Adrianu Barentsenovi * publicistické texty ve více jazycích z webových stránek [[http://www.project-syndicate.org/|Project Syndicate]] * publicistické texty ve více jazycích ze serveru [[http://www.voxeurop.eu|VoxEurop]] * právnické texty v jazycích EU z korpusu [[http://wt.jrc.it/lt/Acquis/|JRC-ACQUIS]] * jednání Evropského parlamentu z korpusu [[http://www.statmt.org/europarl/|EuroParl]] * slovensko-české konkordance ze [[http://korpus.juls.savba.sk/|Slovenského národního korpusu]] * povídky ve více jazycích z projektu //Můj rok 1989// z [[http://www.goethe.de/ins/cz/pra/|Goethe Institutu]] * za více textů v česko-litevské části korpusu a za práci Jiřího Levého Umění překladu ve více jazycích vděčíme Patricku Cornessovi * román George Orwella //1984// ve více jazycích z korpusu [[http://nl.ijs.si/ME/|Multext-East]] * ukrajinské a polské texty z korpusu [[http://www.domeczek.pl/~polukr/|PolUkr]] * norské texty z nakladatelství [[http://www.aschehoug.no/|Forlaget Oktober]] * filmové titulky z databáze [[http://www.opensubtitles.org|Open Subtitles]] ==== Předzpracování: ==== * editor paralelních textů [[http://wanthalf.saga.cz/intertext|InterText]] (autor Pavel Vondřička) * zarovnávač [[http://mokk.bme.hu/resources/hunalign|Hunalign]] * větný segmentátor pro češtinu (autor Pavel Květoň) * větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička) * větný segmentátor Punkt pro všechny ostatní jazyky ze sady [[http://www.nltk.org|Natural Language Toolkit]] ==== Nástroj na lingvistické značkování: ==== * [[http://ufal.mff.cuni.cz/udpipe|UDPipe]] (s poděkováním Janě a Milanovi Strakovým, Danu Zemanovi a Martinu Popelovi) ===== Jak citovat ===== Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu [[https://intercorp.korpus.cz/|www.intercorp.korpus.cz]] a k odborným publikacím odkaz na tento článek: ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. //International Journal of Corpus Linguistics//. Vol. 13, no. 3, p. 411–427 ([[http://utkl.ff.cuni.cz/~rosen/public/mybib_bib.html#cermak:rosen:10|bibtex]], [[http://dx.doi.org/10.1075/ijcl.17.3.05cer|elektronické vydání na serveru ingentaConnect]], [[http://utkl.ff.cuni.cz/~rosen/public/2012_intercorp_ijcl.pdf|verze před tiskem]]). Seznam další literatury najdete v [[https://www.korpus.cz/biblio|Repozitáři bibliografických informací založených na ČNK]]. Každý odkaz na práci využívající InterCorp je vítán, viz [[https://www.korpus.cz/biblio_appeal.php|podrobnosti]]. Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština((Vložte konkrétní jazyky.)), verze 13ud z 22. 12. 2021//. Ústav Českého národního korpusu, FF UK, Praha 2021. Dostupné z WWW: https://kontext.korpus.cz/ ==== Viz též ==== [[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze12|Verze 13]] • [[cnk:intercorp:verze12|Verze 12]] • [[cnk:intercorp:verze11|Verze 11]] • [[cnk:intercorp:verze10|Verze 10]] • [[cnk:intercorp:verze9|Verze 9]] • [[cnk:intercorp:verze8|Verze 8]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]] Původní stránky projektu InterCorp jsou stále [[https://intercorp.korpus.cz|zde]].