=====Korpus InterCorp verze 15===== ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 148 487 713 | 117 094 767 | 434 905 960 | 1 551 791 814 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 119 933 378 | 90 181 070 | 361 991 365 | 1 226 159 823 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 743 | 33 | 4 372 | 313 | ^ ::: ^ Počet textů | 1 743 | 112 393 | 4 372 | 1 846 588 | ^ ::: ^ Počet vět | 10 288 141 | 13 626 168 | 26 843 652 | 143 334 058 | ^ Další informace ^ [[pojmy:referencni|referenční]] | ANO ^^^^ ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] | NE ([[seznamy:txtype|různé textové typy]]) ^^^^ ^ ::: ^ rok zveřejnění | 2022 ^^^^ ^ ::: ^ cizích jazyků | 41 ^^^^ ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 27 ^^^^ ^ ::: ^ jazyky s [[pojmy:lemma|lemmaty]] | 25 ^^^^ ====Přístup k textům==== Po registraci na stránce [[https://www.korpus.cz/signup|Prohlášení uživatele korpusů ÚČNK]] lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete. InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na [[alexandr.rosen@ff.cuni.cz|Alexandra Rosena]]. Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Od verze 6 dál jsou všechny předchozí verze stále dostupné. ==== Obsah korpusu ==== **Jádrem** korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. **kolekce**. Ve verzi 15 jsou k dispozici tyto kolekce: * publistické články a zpravodajství z webových stránek [[http://www.project-syndicate.org|Project Syndicate]] a [[http://www.voxeurop.eu|VoxEurop]] (dříve PressEurop) * právní texty Evropské unie z korpusu [[https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis|Acquis Communautaire]] * zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http://www.statmt.org/europarl|Europarl]] * filmové titulky z databáze [[http://www.opensubtitles.org|OpenSubtitles]] * překlady Bible Tyto texty jsou zarovnány jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. ty, které nemají český protějšek. Některé texty z korpusů //Acquis Communautaire// a //Europarl// byly rovněž částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze //OpenSubtitles//, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Zato byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů. Došlo rovněž k rozdělení //Syndicate// a //PressEurop// na jednotlivé ročníky, čímž se zvýšil počet dokumentů v kolekcích. Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 15 z listopadu 2022 činí v zarovnaných cizojazyčných textech 362 milionů slov v jádru a 1 226 milionů slov v kolekcích. V českých textech je v jádru 120 a v kolekcích 90 milionů slov (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov. [{{:cnk:intercorp:intercorp_wordcounts_v15.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] \\ [{{:cnk:intercorp:intercorp_wordcounts2_v15.png|Skladba korpusu podle jednotlivých jazyků – jádro}}] \\ [{{:cnk:intercorp:intercorp_wordcounts3_v15.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}] \\ ====Velikost korpusu v tisících slov==== ^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Bible ^ Celkem ^ ^ ar ^ arabština | 34 | 384 | 0 | 0 | 0 | 0 | 0 | 418 | ^ be ^ běloruština | 6 524 | 0 | 0 | 0 | 0 | 0 | 0 | 6 524 | ^ bg ^ bulharština | 7 068 | 0 | 0 | 13 577 | 9 083 | 0 | 0 | 29 728 | ^ ca ^ katalánština | 8 920 | 0 | 0 | 0 | 0 | 0 | 736 | 9 656 | ^ da ^ dánština | 8 456 | 0 | 0 | 20 313 | 13 916 | 14 429 | 657 | 57 770 | ^ de ^ němčina | 39 412 | 5 067 | 2 483 | 20 610 | 13 088 | 8 392 | 724 | 89 776 | ^ el ^ řečtina | 0 | 0 | 0 | 23 853 | 15 404 | 23 709 | 0 | 62 966 | ^ en ^ angličtina | 38 706 | 5 273 | 2 670 | 22 902 | 15 576 | 52 106 | 730 | 137 964 | ^ es ^ španělština | 29 145 | 6 074 | 2 859 | 26 262 | 16 249 | 36 650 | 0 | 117 239 | ^ et ^ estonština | 0 | 0 | 0 | 14 896 | 10 899 | 10 298 | 0 | 36 093 | ^ fi ^ finština | 6 674 | 0 | 0 | 15 269 | 10 108 | 15 047 | 543 | 47 641 | ^ fr ^ francouzština | 21 996 | 5 896 | 3 046 | 26 200 | 17 179 | 25 986 | 764 | 101 067 | ^ he ^ hebrejština | 0 | 0 | 0 | 0 | 0 | 16 221 | 0 | 16 221 | ^ hi ^ hindština | 409 | 0 | 0 | 0 | 0 | 0 | 0 | 409 | ^ hr ^ chorvatština | 23 351 | 0 | 0 | 0 | 0 | 19 048 | 571 | 42 971 | ^ hs ^ hornolužičtina | 128 | 0 | 0 | 0 | 0 | 0 | 0 | 128 | ^ hu ^ maďarština | 6 922 | 8 | 0 | 17 852 | 12 198 | 21 115 | 0 | 58 095 | ^ is ^ islandština | 0 | 0 | 0 | 0 | 0 | 1 581 | 0 | 1 581 | ^ it ^ italština | 16 384 | 1 389 | 2 747 | 23 771 | 15 494 | 14 700 | 684 | 75 169 | ^ ja ^ japonština | 3 491 | 2 | 0 | 0 | 0 | 477 | 0 | 3 970 | ^ lt ^ litevština | 502 | 0 | 0 | 17 316 | 11 213 | 558 | 471 | 30 059 | ^ lv ^ lotyština | 3 437 | 0 | 0 | 17 522 | 11 682 | 280 | 537 | 33 458 | ^ mk ^ makedonština | 8 881 | 0 | 0 | 0 | 0 | 1 877 | 0 | 10 758 | ^ ms ^ malajština | 0 | 0 | 0 | 0 | 0 | 3 521 | 0 | 3 521 | ^ mt ^ maltština | 0 | 0 | 0 | 13 935 | 0 | 0 | 0 | 13 935 | ^ nl ^ nizozemština | 17 769 | 812 | 2 953 | 23 416 | 15 558 | 29 373 | 717 | 90 598 | ^ no ^ norština | 7 851 | 0 | 0 | 0 | 0 | 0 | 724 | 8 575 | ^ pl ^ polština | 28 112 | 0 | 2 380 | 19 604 | 12 817 | 26 576 | 583 | 90 072 | ^ pt ^ portugalština | 6 943 | 739 | 2 782 | 24 598 | 15 193 | 41 468 | 706 | 92 429 | ^ rn ^ romština | 14 | 0 | 0 | 0 | 0 | 0 | 0 | 14 | ^ ro ^ rumunština | 4 219 | 0 | 2 738 | 8 092 | 9 446 | 34 128 | 0 | 58 622 | ^ ru ^ ruština | 10 549 | 4 302 | 0 | 0 | 0 | 6 887 | 565 | 22 303 | ^ sk ^ slovenština | 8 596 | 0 | 0 | 18 399 | 12 727 | 5 133 | 561 | 45 416 | ^ sl ^ slovinština | 4 354 | 0 | 0 | 18 515 | 12 241 | 17 035 | 0 | 52 144 | ^ sq ^ albánština | 0 | 0 | 0 | 0 | 0 | 2 003 | 0 | 2 003 | ^ sr ^ srbština | 12 356 | 0 | 0 | 0 | 0 | 20 727 | 0 | 33 082 | ^ sv ^ švédština | 17 877 | 0 | 0 | 19 542 | 13 784 | 14 666 | 638 | 66 507 | ^ tr ^ turečtina | 0 | 0 | 0 | 0 | 0 | 21 190 | 0 | 21 190 | ^ uk ^ ukrajinština | 12 712 | 0 | 0 | 0 | 0 | 244 | 596 | 13 551 | ^ vi ^ vietnamština | 0 | 0 | 0 | 0 | 0 | 1 474 | 0 | 1 474 | ^ zh ^ čínština | 202 | 604 | 0 | 0 | 0 | 2 247 | 0 | 3 054 | ^ **celkem** ^ | 361 991 | 30 552 | 24 658 | 406 445 | 263 854 | 489 143 | 11 507 | 1 588 151 | ^ cs ^ čeština | 119 933 | 4 712 | 2 310 | 19 085 | 12 908 | 50 604 | 562 | 210 114 | ^ **CELKEM** ^ | 481 925 | 35 264 | 26 968 | 425 530 | 276 763 | 539 747 | 12 069 | 1 798 266 | Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků. ==== Morfosyntaktická anotace ==== Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek. Popis značek je dostupný i z vyhledávacího rozhraní KonText, když jako typ dotazu zvolíte CQL. Někdy odkazujeme na stručný popis sady značek daného jazyka na stránkách [[https://www.sketchengine.eu|Sketch Engine]]. ^ Jazyk ^ Značky ^ Lemmata ^ Stručný popis ^ Podrobný popis ^ Značky v korpusu ^ Nástroj ^ ^ angličtina | ✔ | ✔ | [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/PennTreebankTags.pdf|anglicky]] | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~SYU20meuus0a|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | ^ běloruština | ✔ | ✔ | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://universaldependencies.org/be/index.html#morphology|anglicky]]%%****%%) | [[https://www.korpus.cz/kontext/wordlist/result?q=~ju0ayEyoeIOi|ukázat]] |[[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | ^ bulharština | ✔ | ✔ | [[https://www.sketchengine.eu/bulgarian-treebank-part-of-speech-tagset/|anglicky]] | [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/BTB-TR03_BulTreeBank_morphosyntactic_tag.pdf|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~b6IUUoMyUs8O|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | ^ čeština | ✔ | ✔ | [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] a [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] | [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~wK68uwI0uWiW|ukázat]] | [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] | ^ čínština | ✔ | | [[https://www.sketchengine.eu/chinese-penn-treebank-part-of-speech-tagset/|anglicky]] | [[https://repository.upenn.edu/cgi/viewcontent.cgi?article=1039&context=ircs_reports|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~uwCay4cSYSy2|ukázat]] | [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar v0.7.5]] | ^ estonština | ✔ | ✔ | [[http://www.cl.ut.ee/korpused/morfliides/seletus|estonsky a anglicky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~mWSCSIKm8OcY|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | ^ finština | ✔ | ✔ | [[https://www.sketchengine.co.uk/finntreebank|anglicky]]%%*%%) | [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/treebank/sources/FinnTreeBankManual.pdf|anglicky]]%%*%%) | [[https://www.korpus.cz/kontext/wordlist/result?q=~6iw6q2e06KcI|ukázat]] |[[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] +[[https://code.google.com/archive/p/hunpos/|HunPOS]] | ^ francouzština | ✔ | ✔ | [[https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/french-tagset.html|anglicky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~m6aC4MMkssms|ukázat]] |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | ^ chorvatština | ✔ | ✔ | [[https://github.com/ffnlp/sethr/blob/master/mte4r-upos.mapping|anglicky]] | [[http://nlp.ffzg.hr/data/tagging/msd-hr.html|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~CeqE4wiqmIoA|ukázat]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | ^ islandština | ✔ | ✔ | [[http://www.malfong.is/files/ot_tagset_files_en.pdf|anglicky]] | [[http://nlp.cs.ru.is/pdf/Tagset.pdf|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~bEoEKqasyiEe|ukázat]] | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]] | ^ italština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/italian-tagset.txt|anglicky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~fmIIwaQqWGqm|ukázat]] |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | ^ japonština | ✔ | ✔ | [[https://www.sketchengine.eu/tagset-jp-mecab/|anglicky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~hIOk8CYaIMqm|ukázat]] | [[https://taku910.github.io/mecab/|MeCab]] + [[https://unidic.ninjal.ac.jp|Unidic]] | ^ katalánština | ✔ | ✔ | [[http://clic.ub.edu/corpus/webfm_send/18|anglicky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~cOI6eWQG0c8O|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | ^ lotyština | ✔ | ✔ | [[http://www.semti-kamols.lv/doc_upl/TagSet.html|lotyšsky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~GeQ8SSOCouq0|ukázat]] | [[https://peteris.rocks/blog/latvian-part-of-speech-tagging|LVTagger]] | ^ maďarština | ✔ | | | [[http://www.inf.u-szeged.hu/projectdirs/hlt/en/Szeged%20Treebank%202.0_en.html|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~jSyOE2A2KKsQ|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] | ^ němčina | ✔ | ✔ | [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%) | [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~u4ISOKym04am|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] | ^ nizozemština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~KSoiyk0CuCCc|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | ^ norština | ✔ | ✔ | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://universaldependencies.org/no/index.html#morphology|anglicky]]%%****%%) | [[https://www.korpus.cz/kontext/wordlist/result?q=~EcIww4ecGgOG|ukázat]] | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | ^ polština | ✔ | ✔ | [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]] | [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~McUUoI6EwKaC|ukázat]] |[[http://sgjp.pl/morfeusz/|Morfeusz]], [[https://github.com/kwrobel-nlp/krnnt|KRNNT]] | ^ portugalština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~Fis6w6WSYqYg|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | ^ ruština | ✔ | ✔ | [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%) | [[https://www.korpus.cz/kontext/wordlist/result?q=~Ymey666Kk0qe|ukázat]] |[[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | ^ slovenština | ✔ | ✔ | [[http://korpus.sk/morpho.html/|slovensky]] [[https://korpus.sk/morpho_en.html/|anglicky]] | [[https://korpus.sk/attachments/morpho_en/tagset-www.pdf|slovensky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~mKMiKqM6CqO2|ukázat]] | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] | ^ slovinština | ✔ | ✔ | | [[http://nl.ijs.si/jos/msd/html-en/josMSD-en.html|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~FkkKukIsmeue|ukázat]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | ^ srbština | ✔ | ✔ | [[https://www.sketchengine.eu/multext-east-serbian-part-of-speech-tagset/|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-sr.html|anglicky]] | [[https://www.korpus.cz/kontext/wordlist/result?q=~bGMCy2o2EwOM|ukázat]] | [[https://github.com/clarinsi/reldi-tagger|ReLDI Tagger]] | ^ španělština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~mQYWIgi6yIK4|ukázat]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | ^ švédština | ✔ | ✔ | [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]] | | [[https://www.korpus.cz/kontext/wordlist/result?q=~tcGEoMWww0oC|ukázat]] | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] | ^ ukrajinština | ✔ | ✔ | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://universaldependencies.org/uk/index.html#morphology|anglicky]]%%****%%) | [[https://www.korpus.cz/kontext/wordlist/result?q=~IKEKEIm2Auug|ukázat]] | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | %%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP]. %%**%%) Uvnitř jedné morfologické značky používáme jako oddělovač jednotlivých kategorií dvojtečku místo tečky, tedy např. ADJA:Pos:Nom:Sg:Fem. %%***%%) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu. %%****%%) Značka je uvedena ve formátu UD (Universal Dependencies), jednotlivé části značky jsou odděleny svislítkem (|), např. tvar школы v genitivu singuláru je značkován takto: ''NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing''. Dotaz lze formulovat tak jako u jiných jazyků, tedy na řetězec znaků, např. ''[tag=%%"NOUN.*Case=Gen\|Gender=Fem.*"%%]'' nebo lze specifikovat jednotlivé části značky zvlášť, tedy např. ''[tag=%%"Case=Gen"%% & tag=%%"NOUN"%% & tag=%%"Gender=Fem"%%]'' (na pořadí kategorií nezáleží). Výsledek je v obou případech stejný. Rozdíly mezi formátem značek v dokumentaci a v korpusu jsou i u některých jiných jazyků. Před zadáním dotazu na značku si formát značky prosím ověřte. Můžete využít třeba výpisy značek z korpusu ve výše uvedené tabulce – viz sloupec **Značky v korpusu**. Nebo na stránce s výsledky libovolného dotazu zaškrtněte v menu **Zobrazení/Korpusová nastavení...** mezi **Pozičními atributy** volbu //tag// a v **Možnostech zobrazení** vyberte //pro každý token//. U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can't// nebo //I'm//, které tagger rozdělí na dvě slova (//ca//+//n't// a //I//+//'m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś// (rozděleno na //była//+//m// a //gdyby//+//ś//). Je třeba počítat i s chybným rozdělením: //gdzie//+//ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky. Morfologické značky obsahující znaky, které mají v regulárních výrazech zvláštní význam, např. ''$'' v anglické značce ''wp$'', je třeba v dotazech zadávat za zpětné lomítko, tedy např. takto: ''tag=%%"wp\$"%%''. ====Strukturní atributy==== ^Struktura^Atribut^Popis^Možné hodnoty^ |doc|doc.id|identifikátor dokumentu| příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP_ročník / _SUBTITLES / _SYNDICATE_ročník / _OT / _NT | |text|text.id|identifikace textu|příjmení_autora-zkrácený_název_textu:0 / _ACQUIS:číslo / _EUROPARL:číslo / _PRESSEUROP:číslo / _SUBTITLES:číslo / _SYNDICATE_ročník:název / _OT:kniha / _NT:kniha | | |text.author|autor textu|příjmení, jméno| | |text.title|úplný název textu|text| | |text.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / rn / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh| | |text.version|verze textu|číslo| | |text.group|jádro/kolekce| Core / Acquis / Europarl / PressEurop / Subtitles / Syndicate / Bible | | |text.publisher|vydavatel|text| | |text.pubplace|místo vydání|text| | |text.pubDateYear|rok vydání|číslo| | |text.pubDateMonth|měsíc vydání|číslo| | |text.origyear|rok vytvoření originálu|číslo| | |text.isbn|ISBN|číslo| | |text.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles / religious | | |text.comment|poznámka|text| | |text.original|originální verze?|Yes / No| | |text.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / pt / rm / rn / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh| | |text.translator|překladatel|příjmení, jméno| | |text.transsex|pohlaví překladatele|F / M| | |text.authsex|pohlaví autora|F / M| | |text.transcomment|poznámka k překladu|text| | |text.collectiontitle|název kolekce|text| | |text.volume|číslo svazku|číslo| | |text.pages|počet stran|číslo| | |text.lang_var|varieta jazyka|de-AT / de-CH / de-DE / en-AU / en-CA / en-GB / en-UM / en-US / es-ES / es-MX / es-PE / fr-BE / fr-FR / it-CH / it-IT / nl-BE / nl-NL / nn-NO / nb-NO / pt-BR / pt-PT / sr-RS | | |text.wordcount|počet slov|číslo| |div|div.id|identifikátor oddílu (Bible)| _NT / _OT:kapitola | | |div.type|typ oddílu (kapitola)|chapter| |p|p.id|identifikátor odstavce|doc:text:div:par| |s|s.id|identifikátor věty|doc:text:div:par:sent| |hi|hi.rend|řez písma|italic / bold / bold italic| |lb|lb.id|identifikátor verše (Bible)|book:chapter:verse| ==== Poděkování ==== Děkujeme za možnost využívat následující texty a software: === Texty: === * za možnost zařadit do korpusu nejnovější (13. opravené) vydání Českého ekumenického překladu Bible z roku 2016 děkujeme [[http://www.dumbible.cz|České biblické společnosti]], zvláště Petru Fryšovi * beletristické texty v řadě slovanských i jiných jazyků z korpusu [[http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3|ASPAC – Amsterdam Slavic Parallel Aligned Corpus]] – zvláštní poděkování patří Adrianu Barentsenovi * publicistické texty ve více jazycích z webových stránek [[http://www.project-syndicate.org/|Project Syndicate]] * publicistické texty ve více jazycích ze serveru [[http://www.voxeurop.eu|VoxEurop]] * právnické texty v jazycích EU z korpusu [[http://wt.jrc.it/lt/Acquis/|JRC-ACQUIS]] * jednání Evropského parlamentu z korpusu [[http://www.statmt.org/europarl/|EuroParl]] * slovensko-české konkordance ze [[http://korpus.juls.savba.sk/|Slovenského národního korpusu]] * povídky ve více jazycích z projektu //Můj rok 1989// z [[http://www.goethe.de/ins/cz/pra/|Goethe Institutu]] * za více textů v česko-litevské části korpusu a za práci Jiřího Levého Umění překladu ve více jazycích vděčíme Patricku Cornessovi * román George Orwella //1984// ve více jazycích z korpusu [[http://nl.ijs.si/ME/|Multext-East]] * ukrajinské a polské texty z korpusu [[http://www.domeczek.pl/~polukr/|PolUkr]] * norské texty z nakladatelství [[http://www.aschehoug.no/|Forlaget Oktober]] * filmové titulky z databáze [[http://www.opensubtitles.org|Open Subtitles]] === Předzpracování: === * editor paralelních textů [[http://wanthalf.saga.cz/intertext|InterText]] (autor Pavel Vondřička) * zarovnávač [[http://mokk.bme.hu/resources/hunalign|Hunalign]] * větný segmentátor pro češtinu (autor Pavel Květoň) * větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička) * větný segmentátor Punkt pro všechny ostatní jazyky ze sady [[http://www.nltk.org|Natural Language Toolkit]] === Značkovače / lemmatizátory: === * [[http://ufal.mff.cuni.cz/morfflex|MorfFlex]], [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] a [[https://is.cuni.cz/webapps/zzp/download/140018093/?back_id=10|LanGr]] pro češtinu * [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, katalánštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu * [[http://sgjp.pl/morfeusz/|Morfeusz]] a [[https://github.com/kwrobel-nlp/krnnt|KRNNT]] pro polštinu * [[http://code.google.com/p/hunpos/|HunPOS]] pro finštinu a další jazyky * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi) * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (do v.11, s poděkováním Tomaži Erjavcovi) * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu a maďarštinu * [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] pro finštinu (s poděkováním Filipu Ginterovi) * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi) * [[https://github.com/clarinsi/reldi-tagger|RelDI tagger]] pro chorvatštinu, srbštinu((Ljubešić, N., Klubička, F., Željko Agić, and Jazbec, I.-P. (2016). New inflectional lexicons and training corpora for improved morphosyntactic annotation of Croatian and Serbian. In Calzolari, N. et al., editors, //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016)//, Paris, France. European Language Resources Association (ELRA).)) a slovinštinu((Ljubešić, N. and Erjavec, T. (2016). Corpus vs. lexicon supervision in morphosyntactic tagging: the case of Slovene. In Calzolari, N. et al., editors, //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016)//, Paris, France. European Language Resources Association (ELRA).)) (s poděkováním Nikolovi Ljubešićovi) * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisi Ņikiforovsovi a Michalu Škrabalovi) * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému) * [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu (s poděkováním Adamovi Nohejlovi) * [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar]] pro čínštinu (s poděkováním Vlastimilu Dobečkovi) ==== Jak citovat ==== Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu [[https://intercorp.korpus.cz/|www.intercorp.korpus.cz]] a k odborným publikacím odkaz na tento článek: ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. //International Journal of Corpus Linguistics//. Vol. 13, no. 3, p. 411–427 ([[http://utkl.ff.cuni.cz/~rosen/public/mybib_bib.html#cermak:rosen:10|bibtex]], [[http://dx.doi.org/10.1075/ijcl.17.3.05cer|elektronické vydání na serveru ingentaConnect]], [[http://utkl.ff.cuni.cz/~rosen/public/2012_intercorp_ijcl.pdf|verze před tiskem]]). Seznam další literatury najdete v [[https://www.korpus.cz/biblio|Repozitáři bibliografických informací založených na ČNK]]. Každý odkaz na práci využívající InterCorp je vítán, viz [[https://www.korpus.cz/biblio_appeal.php|podrobnosti]]. Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 15 ze 11. 11. 2022//. Ústav Českého národního korpusu, FF UK, Praha 2022. Dostupné z WWW: https://kontext.korpus.cz/ ==== Viz též ==== [[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze13ud|Verze 13ud]] • [[cnk:intercorp:verze14|Verze 14]] • [[cnk:intercorp:verze13|Verze 13]] • [[cnk:intercorp:verze12|Verze 12]] • [[cnk:intercorp:verze11|Verze 11]] • [[cnk:intercorp:verze10|Verze 10]] • [[cnk:intercorp:verze9|Verze 9]] • [[cnk:intercorp:verze8|Verze 8]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]] Původní stránky projektu InterCorp jsou stále [[https://intercorp.korpus.cz|zde]].