~~NOTOC~~
=====Korpus InterCorp verze 9=====
^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 120 443 181 | 117 981 673 | 278 445 878 | 1 556 840 965 |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 96 956 714 | 89 645 545 | 231 501 606 | 1 228 896 294 |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1430 | 5 | 2 934 | 89 |
^ ::: ^ Počet div | 1 430 | 111 263 | 2 934 | 1 849 184 |
^ ::: ^ Počet vět | 8 308 814 | 13 588 082 | 17 210 601 | 143 478 514 |
^ Další informace ^ [[pojmy:referencni|referenční]] | ANO ^^^^
^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] | NE ([[seznamy:txtype|různé textové typy]]) ^^^^
^ ::: ^ rok zveřejnění | 2016 ^^^^
^ ::: ^ cizích jazyků | 39 ^^^^
^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 23 ^^^^
^ ::: ^ [[pojmy:lemma|lemmat.]] jazyků | 20 ^^^^
====Přístup k textům====
Po registraci na stránce [[https://www.korpus.cz/toolbar/signup.php|Prohlášení uživatele korpusů ÚČNK]] lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.
InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy.
Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.
Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Předchozí verze jsou přitom stále dostupné; od verze 6 dál přitom budou všechny původní zůstávat stále dostupné.
==== Jak citovat ====
Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu [[http://www.korpus.cz/intercorp|www.korpus.cz/intercorp]] a k odborným publikacím odkaz na tento článek:
ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. //International Journal of Corpus Linguistics//. Vol. 13, no. 3, p. 411–427
([[http://ucnk.ff.cuni.cz/intercorp/?req=page:references_bibtex&lang=cs|bibtex]],
[[http://dx.doi.org/10.1075/ijcl.17.3.05cer|elektronické vydání na serveru ingentaConnect]], [[http://utkl.ff.cuni.cz/~rosen/public/2012_intercorp_ijcl.pdf|verze před tiskem]]).
Seznam další literatury najdete v [[http://biblio.korpus.cz|Repozitáři bibliografických informací založených na ČNK]]. Každý odkaz na práci využívající InterCorp je vítán, viz [[https://www.korpus.cz/biblio_appeal.php|podrobnosti]].
Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.:
Rosen, A. – Vavřín, M.: //Korpus InterCorp – angličtina, němčina((Vložte konkrétní jazyky.)), verze 7 z 19.12.2014//. Ústav Českého národního korpusu, FF UK, Praha 2014. Dostupné z WWW: http://www.korpus.cz
==== Obsah korpusu ====
**Jádrem** korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. **kolekce**. Ve verzi 9 jsou k dispozici tyto kolekce:
* publistické články a zpravodajství z webových stránek [[http://www.project-syndicate.org|Project Syndicate]] a [[http://www.voxeurop.eu|VoxEurop]] (dříve PressEurop)
* právní texty Evropské unie z korpusu [[https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis|Acquis Communautaire]]
* zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http://www.statmt.org/europarl|Europarl]]
* filmové titulky z databáze [[http://www.opensubtitles.org|OpenSubtitles]]
Tyto texty jsou zarovnány jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. ty, které nemají český protějšek. Některé texty z korpusů //Acquis Communautaire// a //Europarl// byly rovněž částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze //OpenSubtitles//, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Zato byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.
Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 9 z července 2016 činí 231 milionů slov v zarovnaných cizojazyčných textech v jádru a 1 228 milionů slov v zarovnaných cizojazyčných textech v kolekcích (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.
[{{:cnk:intercorp_wordcounts_v9.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}]
[{{:cnk:intercorp_wordcounts2_v9.png|Skladba korpusu podle jednotlivých jazyků – jádro}}]
[{{:cnk:intercorp_wordcounts3_v9.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}]
====Velikost korpusu v tisících slov====
^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Celkem ^
| ar | arabština | 34 | 0 | 0 | 0 | 0 | 0 | 34 |
| be | běloruština | 3 025 | 0 | 0 | 0 | 0 | 0 | 3 025 |
| bg | bulharština | 6 007 | 0 | 0 | 13 816 | 9 083 | 0 | 28 907 |
| ca | katalánština | 4 632 | 0 | 0 | 0 | 0 | 0 | 4 632 |
| da | dánština | 3 556 | 0 | 0 | 21 679 | 13 915 | 14 429 | 53 581 |
| de | němčina | 31 168 | 3 725 | 2 482 | 21 723 | 13 089 | 8 366 | 80 556 |
| el | řečtina | 0 | 0 | 0 | 25 069 | 15 403 | 23 714 | 64 187 |
| en | angličtina | 21 208 | 3 818 | 2 670 | 24 207 | 15 580 | 52 101 | 119 586 |
| es | španělština | 19 310 | 4 324 | 2 816 | 27 001 | 15 885 | 36 378 | 105 716 |
| et | estonština | 0 | 0 | 0 | 15 962 | 10 899 | 10 296 | 37 158 |
| fi | finština | 3 645 | 0 | 0 | 16 455 | 10 175 | 15 097 | 45 373 |
| fr | francouzština | 12 406 | 4 393 | 2 928 | 27 351 | 17 178 | 25 961 | 90 219 |
| he | hebrejština | 0 | 0 | 0 | 0 | 0 | 16 221 | 16 221 |
| hi | hindština | 408 | 0 | 0 | 0 | 0 | 0 | 408 |
| hr | chorvatština | 19 980 | 0 | 0 | 0 | 0 | 19 042 | 39 023 |
| hu | maďarština | 5 818 | 0 | 0 | 19 176 | 12 306 | 21 239 | 58 541 |
| is | islandština | 0 | 0 | 0 | 0 | 0 | 1 584 | 1 584 |
| it | italština | 8 694 | 651 | 2 707 | 24 849 | 15 489 | 14 653 | 67 046 |
| ja | japonština | 0 | 0 | 0 | 0 | 0 | 113 | 113 |
| lt | litevština | 358 | 0 | 0 | 18 392 | 11 212 | 557 | 30 521 |
| lv | lotyština | 1 666 | 0 | 0 | 24 667 | 13 895 | 381 | 40 609 |
| mk | makedonština | 4 663 | 0 | 0 | 0 | 0 | 1 877 | 6 540 |
| ms | malajština | 0 | 0 | 0 | 0 | 0 | 3 520 | 3 520 |
| mt | maltština | 0 | 0 | 0 | 14 133 | 0 | 0 | 14 133 |
| nl | nizozemština | 11 444 | 314 | 2 955 | 24 746 | 15 563 | 29 362 | 84 386 |
| no | norština | 4 965 | 0 | 0 | 0 | 0 | 0 | 4 965 |
| pl | polština | 21 433 | 0 | 2 378 | 20 627 | 12 811 | 26 572 | 83 822 |
| pt | portugalština | 2 605 | 369 | 2 999 | 28 602 | 16 484 | 43 391 | 94 454 |
| rn | romština | 5 | 0 | 0 | 0 | 0 | 0 | 5 |
| ro | rumunština | 3 432 | 0 | 2 737 | 8 199 | 9 446 | 34 128 | 57 944 |
| ru | ruština | 4 788 | 3 174 | 0 | 0 | 0 | 6 885 | 14 848 |
| sk | slovenština | 8 066 | 0 | 0 | 19 222 | 12 734 | 5 134 | 45 158 |
| sl | slovinština | 2 057 | 0 | 0 | 19 645 | 12 240 | 17 024 | 50 968 |
| sq | albánština | 0 | 0 | 0 | 0 | 0 | 2 003 | 2 003 |
| sr | srbština | 9 886 | 0 | 0 | 0 | 0 | 20 720 | 30 607 |
| sv | švédština | 8 959 | 0 | 0 | 20 585 | 13 840 | 14 693 | 58 079 |
| tr | turečtina | 0 | 0 | 0 | 0 | 0 | 21 190 | 21 190 |
| uk | ukrajinština | 7 597 | 0 | 0 | 0 | 0 | 246 | 7 843 |
| vi | vietnamština | 0 | 0 | 0 | 0 | 0 | 1 473 | 1 473 |
| **celkem** | | 231 501 | 20 769 | 24 676 | 430 160 | 265 022 | 488 266 | 1 460 397 |
| cs | čeština | 96 956 | 3 416 | 2 315 | 20 303 | 12 922 | 50 688 | 186 602 |
| **CELKEM** | | 328 458 | 24 186 | 26 991 | 450 463 | 277 945 | 538 954 | 1 647 000 |
Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.
==== Morfosyntaktická anotace ====
Texty v těchto jazycích jsou opatřeny morfologickou anotací.
^ Jazyk ^ Značky ^ Lemmata ^ Stručný popis ^ Podrobný popis ^ Nástroj ^
^ angličtina | ✔ | ✔ | [[https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html|anglicky]] | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]] | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] |
^ bulharština | ✔ | | | [[http://www.bultreebank.org/TechRep/BTB-TR03.pdf|anglicky]] | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] |
^ čeština | ✔ | ✔ | [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] a [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] | [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]] | [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] |
^ estonština | ✔ | ✔ | [[http://www.cl.ut.ee/korpused/morfliides/seletus|estonsky a anglicky]] | | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] |
^ finština | ✔ | ✔ | | [[http://home.gna.org/omorfi/omorfi/omorfi_user.html|anglicky]] *) | [[https://github.com/TurkuNLP/Finnish-dep-parser|OMorFi+HunPOS]] |
^ francouzština | ✔ | ✔ | [[http://www.ims.uni-stuttgart.de/%7Eschmid/french-tagset.html|anglicky]] | | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] |
^ chorvatština | ✔ | ✔ | [[https://github.com/ffnlp/sethr/blob/master/mte4r-upos.mapping|anglicky]] | | [[https://github.com/uzh/reldi|ReLDI Tagger]] |
^ islandština | ✔ | ✔ | [[http://www.malfong.is/files/ot_tagset_files_en.pdf|anglicky]] | | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]] |
^ italština | ✔ | ✔ | [[ftp://ftp.ims.uni-stuttgart.de/corpora/italian-tagset.txt|anglicky]] | | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] |
^ litevština | ✔ | ✔ | [[http://utkl.ff.cuni.cz/~skoumal/CZ-LT-CORP/tags.html|česky a anglicky]] | [[http://utkl.ff.cuni.cz/~skoumal/CZ-LT-CORP/LT-POS.pdf|anglicky]] | Autor: [[http://senas.vdu.lt/staff/informatics/CVPDF/CV_Daudaravicius_en.pdf|Vidas Daudaravičius]] |
^ lotyština | ✔ | ✔ | [[http://www.semti-kamols.lv/doc_upl/TagSet.html|lotyšsky]] | | [[https://peteris.rocks/blog/latvian-part-of-speech-tagging|LVTagger]] |
^ maďarština | ✔ | | | [[http://utkl.ff.cuni.cz/%7Erosen/public/kr_for_ldc.pdf|anglicky]] | [[http://code.google.com/p/hunpos/|HunPos]] |
^ němčina | ✔ | ✔ | [[http://www.sketchengine.co.uk/documentation/wiki/tagsets/german_rftagger|anglicky]] %%**%%) | [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]] | [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] |
^ nizozemština | ✔ | | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]] | [[http://www.inl.nl/tst-centrale/images/stories/producten/documentatie/ehc_handleiding_nl.pdf|nizozemsky]] | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] |
^ norština | ✔ | ✔ | [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] [[http://tekstlab.uio.no/obt-ny/index.html|norsky]] | | [[https://visl.sdu.dk/remoting.html|VISL]] |
^ polština | ✔ | ✔ | [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]] | [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]] | [[http://sgjp.pl/morfeusz/|Morfeusz]], [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]] |
^ portugalština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]] | | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] |
^ ruština | ✔ | ✔ | [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%) | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] |
^ slovenština | ✔ | ✔ | [[http://korpus.sk/morpho.html/|slovensky]] | [[http://korpus.sk/attachments/publications/2004-garabik-gianitsova-horak-simkova-tokenizacia.pdf|slovensky]] | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] |
^ slovinština | ✔ | ✔ | [[http://nl.ijs.si/ME/V4/msd/html/msd.msds-sl.html|anglicky a slovinsky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-sl.introduction.html|anglicky]] | [[http://nl2.ijs.si/analyze/|ToTaLe]] |
^ srbština | ✔ | ✔ | [[http://nl.ijs.si/ME/V4/msd/html/msd.msds-sr.html|anglicky]] | | [[https://github.com/uzh/reldi|ReLDI Tagger]] |
^ španělština | ✔ | ✔ | [[ftp://ftp.ims.uni-stuttgart.de/corpora/spanish-tagset.txt|anglicky]] | | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] |
^ švédština | ✔ | ✔ | [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]] | | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] |
%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].
%%**%%) Uvnitř jedné morfologické značky používáme jako oddělovač jednotlivých kategorií dvojtečku místo tečky, tedy např. ADJA:Pos:Nom:Sg:Fem.
%%***%%) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.
U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can't// nebo //I'm//, které tagger rozdělí na dvě slova (//ca//+//n't// a //I//+//'m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś// (rozděleno na //była//+//m// a //gdyby//+//ś//). Je třeba počítat i s chybným rozdělením: //gdzie//+//ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky.
Morfologické značky obsahující znaky, které mají v regulárních výrazech zvláštní význam, např. ''$'' v anglické značce ''wp$'', je třeba v dotazech zadávat za zpětné lomítko, tedy např. takto: ''tag=%%"wp\$"%%''
====Strukturní atributy====
^Struktura^Atribut^Popis^Možné hodnoty^
|doc|doc.id|unikátní identifikátor dokumentu|text|
| |doc.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / rn / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh|
| |doc.version|verze textu|číslo|
| |doc.wordcount|velikost dokumentu ve slovech|číslo|
|div|div.id|identifikace textu|příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP / _SUBTITLES / _SYNDICATE|
| |div.group|rozdělení na:|//Core// / Acquis / Europarl / PressEurop / Subtitles / Syndicate|
| |div.wordcount|počet slov textu|číslo|
| |div.author|autor textu|příjmení, jméno|
| |div.title|úplný název textu|text|
| |div.publisher|vydavatel|text|
| |div.pubplace|místo vydání|text|
| |div.pubyear|rok vydání|letopočet|
| |div.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles|
| |div.original|je text originálem?|Yes / No|
| |div.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / rn / pt / rm / rn / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh|
| |div.translator|překladatel textu|příjmení, jméno|
| |div.transsex|pohlaví překladatele|F / M|
| |div.authsex|pohlaví autora:|F / M|
|p|p.id|unikátní identifikátor odstavce|text|
|s|s.id|unikátní identifikátor věty|text|
====Počet textů v jádru korpusu podle jazyka textu a jazyka originálu====
^ ^ Jazyk originálu ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ ^ ^
^ ↓ Jazyk textu ^ ar ^ be ^ bg ^ ca ^ cs ^ da ^ de ^ en ^ es ^ fi ^ fr ^ hi ^ hr ^ hu ^ it ^ lt ^ lv ^ mk ^ nl ^ no ^ pl ^ rn ^ pt ^ ro ^ ru ^ sk ^ sl ^ sr ^ sv ^ uk ^ celkem ^ jiné ^
^ ar | 1 | | | | 1 | | 1 | | | | | | | | | | | | | | | | | | | | | | | 3 | |
^ be | | 3 | | | 8 | | 4 | 13 | 1 | | 1 | | 1 | | | | | | | | 3 | | | 2 | 1 | | 1 | 1 | | 39 | |
^ bg | | | 19 | | 9 | | 1 | 27 | | | 4 | | | | 2 | | | | | | 1 | 1 | | 2 | | | | 2 | | 68 | |
^ ca | | | | 1 | 16 | | 3 | 12 | 5 | 1 | 2 | | | | 3 | | | | | | | 1 | | 1 | | | | | | 45 | 1 |
^ cs | 1 | 3 | 19 | 1 | 267 | 9 | 134 | 242 | 127 | 24 | 95 | 2 | 26 | 1 | 20 | 1 | 7 | 1 | 30 | 7 | 49 | 21 | | 39 | 56 | 3 | 8 | 58 | 6 | 1257 | |
^ da | | | | | 6 | 9 | | 12 | | | | | | | | | | | | | | | | | | | | | | 27 | |
^ de | | | | | 85 | | 126 | 65 | 10 | 1 | 4 | | | 1 | 7 | 1 | 1 | | 6 | 3 | 3 | 2 | | 3 | 1 | | 3 | 5 | | 327 | |
^ en | | | | | 25 | | 4 | 125 | | | 3 | | | | 1 | | | | 2 | | 1 | 1 | | 6 | | | 5 | 4 | | 177 | 1 |
^ es | | | | 1 | 25 | | 8 | 29 | 126 | 1 | 6 | | | | 7 | | | | | 1 | | 4 | | 2 | | | | 3 | | 213 | 1 |
^ fi | | | | | 11 | 1 | 1 | 12 | 2 | 25 | | | | | 1 | | | | | 1 | | 1 | | | | | | 2 | | 57 | 1 |
^ fr | | | | | 36 | | 1 | 10 | | | 83 | | | | 2 | | | | 1 | | | 2 | | 2 | | | | | | 137 | |
^ hi | | | | | 2 | | | 1 | | | 1 | 2 | | | | | | | | | | 1 | | | | | | | | 7 | |
^ hr | | | 1 | | 71 | | 15 | 52 | 11 | 2 | 4 | | 26 | | 6 | | | | 7 | 1 | 3 | 4 | | 1 | | 1 | | 8 | | 213 | 2 |
^ hu | | | | | 16 | | 5 | 23 | | | 9 | | | | 1 | | | | | | | 3 | | 14 | | | | | | 71 | |
^ it | | | | | 4 | | 4 | 21 | 9 | 1 | 3 | | | | 19 | | | | | | | 3 | | 1 | | | | 3 | | 68 | 1 |
^ lt | | | | | 8 | | 2 | 2 | | | | | | | | 1 | 1 | | | | 2 | | | | 1 | | | | | 17 | |
^ lv | | | | | 22 | | 2 | 1 | | | | | | | | 1 | 7 | | | | 2 | | | | 1 | | | | | 36 | |
^ mk | | | | | 15 | | 1 | 16 | | | 1 | | 1 | | 1 | | | 2 | 1 | | 3 | | | 2 | | | 2 | 4 | | 49 | |
^ nl | | | | | 24 | | 3 | 33 | 7 | | 3 | | | | 3 | | | | 30 | 2 | 2 | 3 | | 3 | | | | 6 | | 119 | |
^ no | | | | | 11 | | 5 | 21 | 4 | | 1 | | | | 3 | | | | | 6 | | 2 | | | | | | 1 | | 54 | |
^ pl | | | | | 36 | | 8 | 97 | 10 | 2 | 8 | | | | 2 | 1 | 1 | | 3 | 1 | 46 | 4 | | 6 | 1 | | | 5 | | 231 | 1 |
^ rn | | | | | 1 | | | | | | | | | | | | | | | | | | | | | | | | | | |
^ pt | | | | | 6 | | | 8 | | | | | | | | | | | | | | 15 | | | | | | | | 29 | |
^ ro | | | | | 7 | | 5 | 12 | 3 | | 1 | | 1 | | 1 | | | | | | 1 | 1 | | | | | 1 | | | 33 | 3 |
^ ru | | | | | 9 | | 1 | 22 | | | 2 | | | | | | | | 1 | | 1 | | | 22 | | | 1 | 3 | | 62 | 1 |
^ sk | | | | | 55 | | 2 | 5 | 1 | | | | | | | | 1 | | | | 2 | | | | 56 | | | | | 122 | 18 |
^ sl | | | | | 7 | | 1 | 2 | | | | | 1 | | | | | | | | | | | | | 2 | | 2 | | 15 | |
^ sr | | | | | 11 | | 7 | 33 | 9 | | 3 | | | | 7 | | | | 2 | | 4 | 3 | | 10 | 1 | | 5 | 2 | | 97 | 3 |
^ sv | | | | | 11 | | 4 | 23 | 7 | | 2 | | | | 1 | | | | 1 | | | | | | | | | 50 | | 99 | 1 |
^ uk | | | | | 6 | | 1 | 31 | 3 | | 5 | | | | 2 | | | | | | 5 | | | 3 | | | | 5 | 6 | 67 | |
^ celkem | 2 | 6 | 39 | 3 | 810 | 19 | 349 | 950 | 335 | 57 | 241 | 4 | 56 | 2 | 89 | 5 | 18 | 3 | 84 | 22 | 128 | 72 | | 119 | 118 | 6 | 26 | 164 | 12 | | |
* Tabulka uvádí počty textů v jádru korpusu InterCorp (zatím ve verzi 8).
* Pro každý jazyk, který má v jádru nějaké texty, jsou v příslušném řádku uvedeny počty textů, zvlášť podle jazyka originálu, uvedeného v záhlaví příslušného sloupce. Takže např. v arabštině jádro obsahuje jeden arabský, jeden český a jeden německý originální text. Celkem jsou tedy v jádru 3 texty v arabštině (viz předposlední sloupec).
* Ve sloupcích lze zjistit, kolik originálních textů v jazyku uvedeném v záhlaví je přeloženo do ostatních jazyků. Kódy těchto jazyků jsou v prvním sloupci. Poslední sloupec udává počet originálních textů v jiných jazycích, které jádro InterCorpu neobsahuje.
* V diagonále tabulky je počet originálních textů v příslušném jazyce. Např. v maďarštině a rumunštině nemáme žádný originální text, v rumunštině ani v překladu.
==== Poděkování ====
Děkujeme za možnost využívat následující texty a software:
=== Texty: ===
* beletristické texty v řadě slovanských i jiných jazyků z korpusu [[http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3|ASPAC – Amsterdam Slavic Parallel Aligned Corpus]] – zvláštní poděkování patří Adrianu Barentsenovi
* publicistické texty ve více jazycích z webových stránek [[http://www.project-syndicate.org/|Project Syndicate]]
* publicistické texty ve více jazycích ze serveru [[http://www.voxeurop.eu|VoxEurop]]
* právnické texty v jazycích EU z korpusu [[http://wt.jrc.it/lt/Acquis/|JRC-ACQUIS]]
* jednání Evropského parlamentu z korpusu [[http://www.statmt.org/europarl/|EuroParl]]
* slovensko-české konkordance ze [[http://korpus.juls.savba.sk/|Slovenského národního korpusu]]
* povídky ve více jazycích z projektu //Můj rok 1989// z [[http://www.goethe.de/ins/cz/pra/|Goethe Institutu]]
* za více textů v česko-litevské části korpusu a za práci Jiřího Levého Umění překladu ve více jazycích vděčíme Patricku Cornessovi
* román George Orwella //1984// ve více jazycích z korpusu [[http://nl.ijs.si/ME/|Multext-East]]
* ukrajinské a polské texty z korpusu [[http://www.domeczek.pl/~polukr/|PolUkr]]
* norské texty z nakladatelství [[http://www.aschehoug.no/|Forlaget Oktober]]
* filmové titulky z databáze [[http://www.opensubtitles.org|Open Subtitles]]
=== Předzpracování: ===
* editor paralelních textů [[http://wanthalf.saga.cz/intertext|InterText]] (autor Pavel Vondřička)
* zarovnávač [[http://mokk.bme.hu/resources/hunalign|Hunalign]]
* větný segmentátor pro češtinu (autor Pavel Květoň)
* větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
* větný segmentátor Punkt pro všechny ostatní jazyky ze sady [[http://www.nltk.org|Natural Language Toolkit]]
=== Značkovače / lemmatizátory: ===
* [[http://ufal.mff.cuni.cz/morfflex|MorfFlex]], [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] a [[https://is.cuni.cz/webapps/zzp/download/140018093/?back_id=10|LanGr]] pro češtinu
* [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu
* [[http://sgjp.pl/morfeusz/|Morfeusz]] a [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]] pro polštinu
* [[http://code.google.com/p/hunpos/|HunPOS]] pro maďarštinu a další jazyky
* [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi)
* tagger pro litevštinu (s poděkováním Vidasu Daudaravičiusovi a Haně Skoumalové)
* [[http://omilia.uio.no/obt/|tagger]] pro norštinu
* [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (s poděkováním Tomaži Erjavcovi)
* [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu
* [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] pro finštinu (s poděkováním Filipu Ginterovi)
* [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)
* [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi)
* [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi)
----
==== Související odkazy ====
[[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze8|Verze 8]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]]
Viz též [[http://ucnk.ff.cuni.cz/intercorp/|původní stránky projektu InterCorp]]. %%//%% See [[http://ucnk.ff.cuni.cz/intercorp/?lang=en|the original InterCorp site in English]].