~~NOTOC~~
=====Korpus InterCorp verze 7=====
Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu www.korpus.cz/intercorp a k odborným publikacím odkaz na článek ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics. Vol. 13, no. 3, p. 411–427 (bibtex, elektronické vydání na serveru ingentaConnect, verze před tiskem).
Seznam další literatury najdete zde, případně v repozitáři bibliografických informací založených na Českém národním korpusu. Vítáme všechny odkazy na práce s využitím korpusu InterCorp a prosíme o jejich zadání do repozitáře; podrobnější informace o něm najdete zde
====Obsah korpusu====Jádrem korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. kolekce. Ve verzi 7 jsou k dispozici tyto kolekce:
Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. neobsahují texty, které nemají český protějšek. Některé texty z korpusů Acquis Communautaire a Europarl byly také částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze Open Subtitles, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Na druhé straně byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.
Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 7 z prosince 2014 je 173 milionů pozic v zarovnaných cizojazyčných textech v jádru a 1 217 milionů slov v zarovnaných cizojazyčných textech v kolekcích; historii verzí najdete zde. Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech.
Zkratka | Jazyk | Jádro | Syndicate | Presseurop | Acquis | Europarl | Subtitles | Celkem |
---|---|---|---|---|---|---|---|---|
ar | arabština | 34 | 0 | 0 | 0 | 0 | 0 | 34 |
be | běloruština | 1 751 | 0 | 0 | 0 | 0 | 0 | 1 751 |
bg | bulharština | 4 923 | 0 | 0 | 13 816 | 9 083 | 0 | 27 823 |
ca | katalánština | 4 498 | 0 | 0 | 0 | 0 | 0 | 4 498 |
da | dánština | 1 311 | 0 | 0 | 21 680 | 13 916 | 14 430 | 51 336 |
de | němčina | 26 315 | 3 050 | 1 715 | 21 724 | 13 089 | 8 367 | 74 260 |
el | řečtina | 0 | 0 | 0 | 25 070 | 15 404 | 23 715 | 64 188 |
en | angličtina | 12 641 | 3 083 | 1 863 | 24 208 | 15 580 | 52 101 | 109 476 |
es | španělština | 16 907 | 3 479 | 1 948 | 27 001 | 15 885 | 36 379 | 101 599 |
et | estonština | 0 | 0 | 0 | 15 963 | 10 900 | 10 296 | 37 158 |
fi | finština | 3 054 | 0 | 0 | 16 455 | 10 175 | 15 098 | 44 782 |
fr | francouzština | 6 976 | 3 535 | 2 054 | 27 352 | 17 178 | 25 962 | 83 057 |
he | hebrejština | 0 | 0 | 0 | 0 | 0 | 16 221 | 16 221 |
hi | hindština | 206 | 0 | 0 | 0 | 0 | 0 | 206 |
hr | chorvatština | 14 210 | 0 | 0 | 0 | 0 | 19 093 | 33 303 |
hu | maďarština | 4 014 | 0 | 0 | 19 177 | 12 307 | 21 240 | 56 737 |
is | islandština | 0 | 0 | 0 | 0 | 0 | 1 585 | 1 585 |
it | italština | 6 313 | 247 | 1 893 | 24 849 | 15 489 | 14 654 | 63 446 |
ja | japonština | 0 | 0 | 0 | 0 | 0 | 113 | 113 |
lt | litevština | 358 | 0 | 0 | 18 393 | 11 213 | 558 | 30 522 |
lv | lotyština | 1 337 | 0 | 0 | 18 745 | 11 689 | 280 | 32 051 |
mk | makedonština | 3 221 | 0 | 0 | 0 | 0 | 1 877 | 5 098 |
ms | malajština | 0 | 0 | 0 | 0 | 0 | 3 521 | 3 521 |
mt | maltština | 0 | 0 | 0 | 14 133 | 0 | 0 | 14 133 |
nl | nizozemština | 9 370 | 0 | 2 082 | 24 746 | 15 563 | 29 363 | 81 125 |
no | norština | 4 103 | 0 | 0 | 0 | 0 | 0 | 4 103 |
pl | polština | 16 009 | 0 | 1 662 | 20 628 | 12 811 | 26 572 | 77 683 |
pt | portugalština | 2 393 | 0 | 2 103 | 28 603 | 16 485 | 43 392 | 92 976 |
ro | rumunština | 3 156 | 0 | 1 917 | 8 200 | 9 446 | 34 129 | 56 847 |
ru | ruština | 3 308 | 2 651 | 0 | 0 | 0 | 6 886 | 12 844 |
sk | slovenština | 7 402 | 0 | 0 | 19 223 | 12 734 | 5 134 | 44 493 |
sl | slovinština | 900 | 0 | 0 | 19 646 | 12 241 | 17 025 | 49 811 |
sq | albánština | 0 | 0 | 0 | 0 | 0 | 2 004 | 2 004 |
sr | srbština | 8 413 | 0 | 0 | 0 | 0 | 20 777 | 29 189 |
sv | švédština | 7 789 | 0 | 0 | 20 586 | 13 840 | 14 694 | 56 909 |
tr | turečtina | 0 | 0 | 0 | 0 | 0 | 21 191 | 21 191 |
uk | ukrajinština | 2 310 | 0 | 0 | 0 | 0 | 246 | 2 556 |
vi | vietnamština | 0 | 0 | 0 | 0 | 0 | 1 474 | 1 474 |
celkem | 173 225 | 16 044 | 17 239 | 430 195 | 265 029 | 488 373 | 1 390 105 | |
cs | čeština | 77 122 | 2 749 | 1 640 | 20 303 | 12 923 | 50 688 | 165 425 |
CELKEM | 250 346 | 18 793 | 18 880 | 450 498 | 277 952 | 539 061 | 1 555 530 |
Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.
====Morfosyntaktická anotace====Texty v těchto jazycích jsou opatřeny morfologickou anotací.
Jazyk | Značky | Lemmata | Stručný popis | Podrobný popis | Nástroj |
---|---|---|---|---|---|
angličtina | ✔ | ✔ | anglicky | anglicky + dodatky | TreeTagger |
bulharština | ✔ | anglicky | TreeTagger | ||
čeština | ✔ | ✔ | česky anglicky | anglicky | Morče |
estonština | ✔ | ✔ | estonsky a anglicky | TreeTagger | |
finština | ✔ | ✔ | anglicky *) | OMorFi+HunPOS | |
francouzština | ✔ | ✔ | anglicky | TreeTagger | |
islandština | ✔ | ✔ | IceStagger | ||
italština | ✔ | ✔ | anglicky | TreeTagger | |
litevština | ✔ | ✔ | česky a anglicky | anglicky | Autor: Vidas Daudaravičius |
maďarština | ✔ | anglicky | HunPos | ||
němčina | ✔ | ✔ | anglicky **) | německy | RFTagger |
nizozemština | ✔ | nizozemsky | TreeTagger | ||
norština | ✔ | ✔ | anglicky norsky | Oslo Bergen Tagger | |
polština | ✔ | ✔ | anglicky polsky | anglicky | Morfeusz, TaKIPI |
portugalština | ✔ | ✔ | španělsky | TreeTagger | |
ruština | ✔ | ✔ | anglicky | anglicky ***) | TreeTagger |
slovenština | ✔ | ✔ | slovensky | slovensky | Radovan Garabík, Morče |
slovinština | ✔ | ✔ | anglicky | totale | |
španělština | ✔ | ✔ | anglicky | TreeTagger | |
švédština | ✔ | ✔ | Stagger |
*) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].
**) Uvnitř jedné morfologické značky používáme jako oddělovač jednotlivých kategorií dvojtečku místo tečky, tedy např. ADJA:Pos:Nom:Sg:Fem.
***) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.
Jak používat značky při hledání v korpusu se dozvíte v návodu k Parku.
====Strukturní atributy==== ^Struktura^Atribut^Popis^Možné hodnoty^ |doc|doc.id|unikátní identifikátor dokumentu|text| | |doc.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh| | |doc.version|verze textu|číslo| | |doc.wordcount|velikost dokumentu ve slovech|číslo| |div|div.id|identifikace textu|příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP / _SUBTITLES / _SYNDICATE| | |div.group|rozdělení na:|//Core// / Acquis / Europarl / PressEurop / Subtitles / Syndicate| | |div.wordcount|počet slov textu|číslo| | |div.author|autor textu|příjmení, jméno| | |div.title|úplný název textu|text| | |div.publisher|vydavatel|text| | |div.pubplace|místo vydání|text| | |div.pubyear|rok vydání|letopočet| | |div.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles| | |div.original|je text originálem?|Yes / No| | |div.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / pt / rm / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh| | |div.translator|překladatel textu|příjmení, jméno| | |div.transsex|pohlaví překladatele|F / M| | |div.authsex|pohlaví autora:|F / M| |p|p.id|unikátní identifikátor odstavce|text| |s|s.id|unikátní identifikátor věty|text| ====Poděkování====Děkujeme za možnost využívat následující texty a software: