Korpus InterCorp verze 7
Název | čeština jádro | čeština kolekce | cizí jazyky jádro | cizí jazyky kolekce | |
---|---|---|---|---|---|
Pozice | Počet tokenů | 95 814 527 | 116 374 744 | 208 845 922 | 1 546 493 833 |
Počet slovních tvarů | 77 121 760 | 88 303 155 | 173 224 560 | 1 216 880 655 | |
Struktury | Počet dokumentů | 1 184 | 5 | 2 294 | 87 |
Počet div | 1 184 | 107 388 | 2 294 | 1 817 043 | |
Počet vět | 6 595 174 | 13 497 188 | 12 796 035 | 142 788 867 | |
Další informace | referenční | ANO | |||
reprezentativní | NE (různé textové typy) | ||||
rok zveřejnění | 2014 | ||||
cizích jazyků | 38 | ||||
tagovaných jazyků | 20 | ||||
lemmat. jazyků | 17 |
Přístup k textům
InterCorp verze 7 je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní KonText pomocí speciálního dotazovacího formuláře pro paralelní korpusy.
Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.
Specifikem InterCorpu je jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů a případně i počet jazyků a rozsah anotace se postupně zvětšuje, a to vždy s vydáním nové verze. Starší verze InterCorpu jsou od roku 2014 zpětně dostupné.
Odkazy
Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu www.korpus.cz/intercorp a k odborným publikacím odkaz na článek ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics. Vol. 13, no. 3, p. 411–427 (bibtex, elektronické vydání na serveru ingentaConnect, verze před tiskem).
Seznam další literatury najdete zde, případně v repozitáři bibliografických informací založených na Českém národním korpusu. Vítáme všechny odkazy na práce s využitím korpusu InterCorp a prosíme o jejich zadání do repozitáře; podrobnější informace o něm najdete zde
Obsah korpusu
Jádrem korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. kolekce. Ve verzi 7 jsou k dispozici tyto kolekce:
- publistické články a zpravodajství z webových stránek Project Syndicate a Presseurop
- právní texty Evropské Unie z korpusu Acquis Communautaire
- zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu Europarl
- filmové titulky ze databáze Open Subtitles
Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. neobsahují texty, které nemají český protějšek. Některé texty z korpusů Acquis Communautaire a Europarl byly také částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze Open Subtitles, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Na druhé straně byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.
Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 7 z prosince 2014 je 173 milionů pozic v zarovnaných cizojazyčných textech v jádru a 1 217 milionů slov v zarovnaných cizojazyčných textech v kolekcích; historii verzí najdete zde. Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech.
Velikost korpusu v tisících slov
Zkratka | Jazyk | Jádro | Syndicate | Presseurop | Acquis | Europarl | Subtitles | Celkem |
---|---|---|---|---|---|---|---|---|
ar | arabština | 34 | 0 | 0 | 0 | 0 | 0 | 34 |
be | běloruština | 1 751 | 0 | 0 | 0 | 0 | 0 | 1 751 |
bg | bulharština | 4 923 | 0 | 0 | 13 816 | 9 083 | 0 | 27 823 |
ca | katalánština | 4 498 | 0 | 0 | 0 | 0 | 0 | 4 498 |
da | dánština | 1 311 | 0 | 0 | 21 680 | 13 916 | 14 430 | 51 336 |
de | němčina | 26 315 | 3 050 | 1 715 | 21 724 | 13 089 | 8 367 | 74 260 |
el | řečtina | 0 | 0 | 0 | 25 070 | 15 404 | 23 715 | 64 188 |
en | angličtina | 12 641 | 3 083 | 1 863 | 24 208 | 15 580 | 52 101 | 109 476 |
es | španělština | 16 907 | 3 479 | 1 948 | 27 001 | 15 885 | 36 379 | 101 599 |
et | estonština | 0 | 0 | 0 | 15 963 | 10 900 | 10 296 | 37 158 |
fi | finština | 3 054 | 0 | 0 | 16 455 | 10 175 | 15 098 | 44 782 |
fr | francouzština | 6 976 | 3 535 | 2 054 | 27 352 | 17 178 | 25 962 | 83 057 |
he | hebrejština | 0 | 0 | 0 | 0 | 0 | 16 221 | 16 221 |
hi | hindština | 206 | 0 | 0 | 0 | 0 | 0 | 206 |
hr | chorvatština | 14 210 | 0 | 0 | 0 | 0 | 19 093 | 33 303 |
hu | maďarština | 4 014 | 0 | 0 | 19 177 | 12 307 | 21 240 | 56 737 |
is | islandština | 0 | 0 | 0 | 0 | 0 | 1 585 | 1 585 |
it | italština | 6 313 | 247 | 1 893 | 24 849 | 15 489 | 14 654 | 63 446 |
ja | japonština | 0 | 0 | 0 | 0 | 0 | 113 | 113 |
lt | litevština | 358 | 0 | 0 | 18 393 | 11 213 | 558 | 30 522 |
lv | lotyština | 1 337 | 0 | 0 | 18 745 | 11 689 | 280 | 32 051 |
mk | makedonština | 3 221 | 0 | 0 | 0 | 0 | 1 877 | 5 098 |
ms | malajština | 0 | 0 | 0 | 0 | 0 | 3 521 | 3 521 |
mt | maltština | 0 | 0 | 0 | 14 133 | 0 | 0 | 14 133 |
nl | nizozemština | 9 370 | 0 | 2 082 | 24 746 | 15 563 | 29 363 | 81 125 |
no | norština | 4 103 | 0 | 0 | 0 | 0 | 0 | 4 103 |
pl | polština | 16 009 | 0 | 1 662 | 20 628 | 12 811 | 26 572 | 77 683 |
pt | portugalština | 2 393 | 0 | 2 103 | 28 603 | 16 485 | 43 392 | 92 976 |
ro | rumunština | 3 156 | 0 | 1 917 | 8 200 | 9 446 | 34 129 | 56 847 |
ru | ruština | 3 308 | 2 651 | 0 | 0 | 0 | 6 886 | 12 844 |
sk | slovenština | 7 402 | 0 | 0 | 19 223 | 12 734 | 5 134 | 44 493 |
sl | slovinština | 900 | 0 | 0 | 19 646 | 12 241 | 17 025 | 49 811 |
sq | albánština | 0 | 0 | 0 | 0 | 0 | 2 004 | 2 004 |
sr | srbština | 8 413 | 0 | 0 | 0 | 0 | 20 777 | 29 189 |
sv | švédština | 7 789 | 0 | 0 | 20 586 | 13 840 | 14 694 | 56 909 |
tr | turečtina | 0 | 0 | 0 | 0 | 0 | 21 191 | 21 191 |
uk | ukrajinština | 2 310 | 0 | 0 | 0 | 0 | 246 | 2 556 |
vi | vietnamština | 0 | 0 | 0 | 0 | 0 | 1 474 | 1 474 |
celkem | 173 225 | 16 044 | 17 239 | 430 195 | 265 029 | 488 373 | 1 390 105 | |
cs | čeština | 77 122 | 2 749 | 1 640 | 20 303 | 12 923 | 50 688 | 165 425 |
CELKEM | 250 346 | 18 793 | 18 880 | 450 498 | 277 952 | 539 061 | 1 555 530 |
Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.
Morfosyntaktická anotace
Texty v těchto jazycích jsou opatřeny morfologickou anotací.
Jazyk | Značky | Lemmata | Stručný popis | Podrobný popis | Nástroj |
---|---|---|---|---|---|
angličtina | ✔ | ✔ | anglicky | anglicky + dodatky | TreeTagger |
bulharština | ✔ | anglicky | TreeTagger | ||
čeština | ✔ | ✔ | česky anglicky | anglicky | Morče |
estonština | ✔ | ✔ | estonsky a anglicky | TreeTagger | |
finština | ✔ | ✔ | anglicky *) | OMorFi+HunPOS | |
francouzština | ✔ | ✔ | anglicky | TreeTagger | |
islandština | ✔ | ✔ | IceStagger | ||
italština | ✔ | ✔ | anglicky | TreeTagger | |
litevština | ✔ | ✔ | česky a anglicky | anglicky | Autor: Vidas Daudaravičius |
maďarština | ✔ | anglicky | HunPos | ||
němčina | ✔ | ✔ | anglicky **) | německy | RFTagger |
nizozemština | ✔ | nizozemsky | TreeTagger | ||
norština | ✔ | ✔ | anglicky norsky | Oslo Bergen Tagger | |
polština | ✔ | ✔ | anglicky polsky | anglicky | Morfeusz, TaKIPI |
portugalština | ✔ | ✔ | španělsky | TreeTagger | |
ruština | ✔ | ✔ | anglicky | anglicky ***) | TreeTagger |
slovenština | ✔ | ✔ | slovensky | slovensky | Radovan Garabík, Morče |
slovinština | ✔ | ✔ | anglicky | totale | |
španělština | ✔ | ✔ | anglicky | TreeTagger | |
švédština | ✔ | ✔ | Stagger |
*) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].
**) Uvnitř jedné morfologické značky používáme jako oddělovač jednotlivých kategorií dvojtečku místo tečky, tedy např. ADJA:Pos:Nom:Sg:Fem.
***) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.
Jak používat značky při hledání v korpusu se dozvíte v návodu k Parku.
Strukturní atributy
Struktura | Atribut | Popis | Možné hodnoty |
---|---|---|---|
doc | doc.id | unikátní identifikátor dokumentu | text |
doc.lang | jazyk textu | ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh | |
doc.version | verze textu | číslo | |
doc.wordcount | velikost dokumentu ve slovech | číslo | |
div | div.id | identifikace textu | příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP / _SUBTITLES / _SYNDICATE |
div.group | rozdělení na: | Core / Acquis / Europarl / PressEurop / Subtitles / Syndicate | |
div.wordcount | počet slov textu | číslo | |
div.author | autor textu | příjmení, jméno | |
div.title | úplný název textu | text | |
div.publisher | vydavatel | text | |
div.pubplace | místo vydání | text | |
div.pubyear | rok vydání | letopočet | |
div.txtype | typ textu | discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles | |
div.original | je text originálem? | Yes / No | |
div.srclang | jazyk originálu | ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / pt / rm / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh | |
div.translator | překladatel textu | příjmení, jméno | |
div.transsex | pohlaví překladatele | F / M | |
div.authsex | pohlaví autora: | F / M | |
p | p.id | unikátní identifikátor odstavce | text |
s | s.id | unikátní identifikátor věty | text |
Poděkování
Děkujeme za možnost využívat následující texty a software:
Texty:
- beletristické texty v řadě slovanských i jiných jazyků z korpusu ASPAC – Amsterdam Slavic Parallel Aligned Corpus – zvláštní poděkování patří Adrianu Barentsenovi
- publicistické texty ve více jazycích z webových stránek Project Syndicate
- publicistické texty ve více jazycích ze serveru Presseurop/VoxEurop
- právnické texty v jazycích EU z korpusu JRC-ACQUIS
- jednání Evropského parlamentu z korpusu EuroParl
- slovensko-české konkordance ze Slovenského národního korpusu
- povídky ve více jazycích z projektu Můj rok 1989 z Goethe Institutu
- za více textů v česko-litevské části korpusu a za práci Jiřího Levého Umění překladu ve více jazycích vděčíme Patricku Cornessovi
- román George Orwella 1984 ve více jazycích z korpusu Multext-East
- ukrajinské a polské texty z korpusu PolUkr
- norské texty z nakladatelství Aschehoug & co., Cappelen Forlag a Forlaget Oktober
- filmové titulky z databáze Open Subtitles
Předzpracování
- editor paralelních textů InterText (autor Pavel Vondřička)
- zarovnávač Hunalign
- větný segmentátor pro češtinu (autor Pavel Květoň)
- větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
- větný segmentátor Punkt pro všechny ostatní jazyky ze sady Natural Language Toolkit
Značkovače / lematizátory:
- MorfFlex, Morče a LanGr pro češtinu
- TreeTagger pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu
- Morfeusz a TaKIPI pro polštinu
- HunPOS pro maďarštinu a další jazyky
- tagger pro slovenštinu (s poděkováním Radovanu Garabíkovi)
- tagger pro litevštinu, s poděkováním Vidasovi Daudaravičiusovi a Haně Skoumalové
- tagger pro norštinu
- totale pro slovinštinu (s poděkováním Tomaži Erjavcovi)
- RFTagger pro němčinu
- OMorFi+HunPOS pro finštinu (s poděkováním Filipu Ginterovi)
- Stagger a IceStagger pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)