Toto je starší verze dokumentu!
Obsah
Korpus InterCorp verze 7
Popis korpusu
Název | čeština jádro | čeština kolekce | cizí jazyky jádro | cizí jazyky kolekce | |
---|---|---|---|---|---|
Pozice | Počet tokenů | 95 814 527 | 116 374 744 | 192 859 914 | 1 555 749 463 |
Počet slovních tvarů | 77 121 760 | 88 303 155 | 160 009 304 | 1 223 656 608 | |
Struktury | Počet dokumentů | 1 184 | 5 | 2 131 | 89 |
Počet div | 1 184 | 107 388 | 2 131 | 1 818 380 | |
Počet vět | 6 595 174 | 13 497 188 | 11 869 813 | 144 365 895 | |
Další informace | referenční | ANO | |||
reprezentativní | NE (různé textové typy) | ||||
rok zveřejnění | 2008 | ||||
cizích jazyků | 38 | ||||
tagovaných jazyků | 20 | ||||
lemmat. jazyků | 17 |
Přístup k textům
InterCorp je přístupný přes běžný webový prohlížeč třemi způsoby:
- Z jednotného vyhledávacího rozhraní Českého národního korpusu KonText. Toto rozhraní nabízí podobné možnosti jako jeho starší podoba NoSketch Engine (viz níže), návod k použití najdete zde.
- Ze starší verze jednotného vyhledávacího rozhraní Českého národního korpusu NoSketch Engine. Stručný návod najdete zde.
- Z paralelní rozhraní Park. Stručný návod k použití Parku najdete zde.
Všechna tři rozhraní využívají korpusový manažer Manatee a zpřístupňují stejné texty. Protože však provozování všech těchto rozhraní vyžaduje nemalou režii, směřuje projekt ČNK už delší dobu k zavedení jediného, univerzálního rozhraní, a tím je KonText. Provoz Parku a NoSketch Engine v ČNK bude ukončen s největší pravděpodobností už na konci března 2015. Chtěli bychom tedy touto cestou vyzvat všechny uživatele InterCorpu k přechodu na nové rozhraní KonText. Jsme přesvědčeni, že tento krok se rozhodně vyplatí, a to nejenom vzhledem k novým, již implementovaným funkcím, ale také vzhledem k záměru toto rozhraní zdokonalovat, mimo jiné také na základě zpětné vazby od uživatelů ČNK. Protože si uvědomujeme, že pro řadu uživatelů může jít o nelehký krok, již delší dobu tuto změnu avizujeme a současně nabízíme možnost konzultací, zaškolení, seminářů apod. v podobě přizpůsobené potřebám konkrétních uživatelů – stačí se komukoli z ČNK ozvat a domluvit podrobnosti.
Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.
Přibližně jednou za rok vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Od verze 6 dál budou všechny původní verze zůstávat stále dostupné.
Odkazy
Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu www.korpus.cz/intercorp a k odborným publikacím odkaz na článek ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics. Vol. 13, no. 3, p. 411–427 (bibtex, elektronické vydání na serveru ingentaConnect, verze před tiskem).
Seznam další literatury najdete zde, případně v repozitáři bibliografických informací založených na Českém národním korpusu. Vítáme všechny odkazy na práce s využitím korpusu InterCorp a prosíme o jejich zadání do repozitáře; podrobnější informace o něm najdete zde
Obsah korpusu
Jádrem korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. kolekce. Ve verzi 7 jsou k dispozici tyto kolekce:
- publistické články a zpravodajství z webových stránek Project Syndicate a Presseurop
- právní texty Evropské Unie z korpusu Acquis Communautaire
- zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu Europarl
- filmové titulky ze databáze Open Subtitles
Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. neobsahují texty, které nemají český protějšek. Některé texty z korpusů Acquis Communautaire a Europarl byly také částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze Open Subtitles, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Na druhé straně byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.
Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 7 z prosince 2014 je 173 milionů pozic v zarovnaných cizojazyčných textech v jádru a 1 217 milionů slov v zarovnaných cizojazyčných textech v kolekcích; historii verzí najdete zde. Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech.
Velikost korpusu v tisících slov
Zkratka | Jazyk | Jádro | Syndicate | Presseurop | Acquis | Europarl | Subtitles | Celkem |
---|---|---|---|---|---|---|---|---|
ar | arabština | 34 | 0 | 0 | 0 | 0 | 0 | 34 |
be | běloruština | 1 751 | 0 | 0 | 0 | 0 | 0 | 1 751 |
bg | bulharština | 4 923 | 0 | 0 | 13 816 | 9 083 | 0 | 27 823 |
ca | katalánština | 4 498 | 0 | 0 | 0 | 0 | 0 | 4 498 |
da | dánština | 1 311 | 0 | 0 | 21 680 | 13 916 | 14 430 | 51 336 |
de | němčina | 26 315 | 3 050 | 1 715 | 21 724 | 13 089 | 8 367 | 74 260 |
el | řečtina | 0 | 0 | 0 | 25 070 | 15 404 | 23 715 | 64 188 |
en | angličtina | 12 641 | 3 083 | 1 863 | 24 208 | 15 580 | 52 101 | 109 476 |
es | španělština | 16 907 | 3 479 | 1 948 | 27 001 | 15 885 | 36 379 | 101 599 |
et | estonština | 0 | 0 | 0 | 15 963 | 10 900 | 10 296 | 37 158 |
fi | finština | 3 054 | 0 | 0 | 16 455 | 10 175 | 15 098 | 44 782 |
fr | francouzština | 6 976 | 3 535 | 2 054 | 27 352 | 17 178 | 25 962 | 83 057 |
he | hebrejština | 0 | 0 | 0 | 0 | 0 | 16 221 | 16 221 |
hi | hindština | 206 | 0 | 0 | 0 | 0 | 0 | 206 |
hr | chorvatština | 14 210 | 0 | 0 | 0 | 0 | 19 093 | 33 303 |
hu | maďarština | 4 014 | 0 | 0 | 19 177 | 12 307 | 21 240 | 56 737 |
is | islandština | 0 | 0 | 0 | 0 | 0 | 1 585 | 1 585 |
it | italština | 6 313 | 247 | 1 893 | 24 849 | 15 489 | 14 654 | 63 446 |
ja | japonština | 0 | 0 | 0 | 0 | 0 | 113 | 113 |
lt | litevština | 358 | 0 | 0 | 18 393 | 11 213 | 558 | 30 522 |
lv | lotyština | 1 337 | 0 | 0 | 18 745 | 11 689 | 280 | 32 051 |
mk | makedonština | 3 221 | 0 | 0 | 0 | 0 | 1 877 | 5 098 |
ms | malajština | 0 | 0 | 0 | 0 | 0 | 3 521 | 3 521 |
mt | maltština | 0 | 0 | 0 | 14 133 | 0 | 0 | 14 133 |
nl | nizozemština | 9 370 | 0 | 2 082 | 24 746 | 15 563 | 29 363 | 81 125 |
no | norština | 4 103 | 0 | 0 | 0 | 0 | 0 | 4 103 |
pl | polština | 16 009 | 0 | 1 662 | 20 628 | 12 811 | 26 572 | 77 683 |
pt | portugalština | 2 393 | 0 | 2 103 | 28 603 | 16 485 | 43 392 | 92 976 |
ro | rumunština | 3 156 | 0 | 1 917 | 8 200 | 9 446 | 34 129 | 56 847 |
ru | ruština | 3 308 | 2 651 | 0 | 0 | 0 | 6 886 | 12 844 |
sk | slovenština | 7 402 | 0 | 0 | 19 223 | 12 734 | 5 134 | 44 493 |
sl | slovinština | 900 | 0 | 0 | 19 646 | 12 241 | 17 025 | 49 811 |
sq | albánština | 0 | 0 | 0 | 0 | 0 | 2 004 | 2 004 |
sr | srbština | 8 413 | 0 | 0 | 0 | 0 | 20 777 | 29 189 |
sv | švédština | 7 789 | 0 | 0 | 20 586 | 13 840 | 14 694 | 56 909 |
tr | turečtina | 0 | 0 | 0 | 0 | 0 | 21 191 | 21 191 |
uk | ukrajinština | 2 310 | 0 | 0 | 0 | 0 | 246 | 2 556 |
vi | vietnamština | 0 | 0 | 0 | 0 | 0 | 1 474 | 1 474 |
celkem | 173 225 | 16 044 | 17 239 | 430 195 | 265 029 | 488 373 | 1 390 105 | |
cs | čeština | 77 122 | 2 749 | 1 640 | 20 303 | 12 923 | 50 688 | 165 425 |
CELKEM | 250 346 | 18 793 | 18 880 | 450 498 | 277 952 | 539 061 | 1 555 530 |
Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.
Morfosyntaktická anotace
Texty v těchto jazycích jsou opatřeny morfologickou anotací.
Jazyk | Značky | Lemmata | Stručný popis | Podrobný popis | Nástroj |
---|---|---|---|---|---|
angličtina | ✔ | ✔ | anglicky | anglicky + dodatky | TreeTagger |
bulharština | ✔ | anglicky | TreeTagger | ||
čeština | ✔ | ✔ | česky anglicky | anglicky | Morče |
estonština | ✔ | ✔ | estonsky a anglicky | TreeTagger | |
finština | ✔ | ✔ | anglicky *) | OMorFi+HunPOS | |
francouzština | ✔ | ✔ | anglicky | TreeTagger | |
islandština | ✔ | ✔ | IceStagger | ||
italština | ✔ | ✔ | anglicky | TreeTagger | |
litevština | ✔ | ✔ | česky a anglicky | anglicky | Autor: Vidas Daudaravičius |
maďarština | ✔ | anglicky | HunPos | ||
němčina | ✔ | ✔ | anglicky **) | německy | RFTagger |
nizozemština | ✔ | nizozemsky | TreeTagger | ||
norština | ✔ | ✔ | anglicky norsky | Oslo Bergen Tagger | |
polština | ✔ | ✔ | anglicky polsky | anglicky | Morfeusz, TaKIPI |
portugalština | ✔ | ✔ | španělsky | TreeTagger | |
ruština | ✔ | ✔ | anglicky | anglicky ***) | TreeTagger |
slovenština | ✔ | ✔ | slovensky | slovensky | Radovan Garabík, Morče |
slovinština | ✔ | ✔ | anglicky | totale | |
španělština | ✔ | ✔ | anglicky | TreeTagger | |
švédština | ✔ | ✔ | Stagger |
*) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].
**) Uvnitř jedné morfologické značky používáme jako oddělovač jednotlivých kategorií dvojtečku místo tečky, tedy např. ADJA:Pos:Nom:Sg:Fem.
***) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.
Jak používat značky při hledání v korpusu se dozvíte v návodu k Parku.
Dotazy, připomínky a podněty
... k obsahu korpusu a podobě vyhledávacích rozhraní můžete vznést v Poradně nebo na adrese
.
Poděkování
Děkujeme za možnost využívat následující texty a software:
Texty:
- beletristické texty v řadě slovanských i jiných jazyků z korpusu ASPAC – Amsterdam Slavic Parallel Aligned Corpus – zvláštní poděkování patří Adrianu Barentsenovi
- publicistické texty ve více jazycích z webových stránek Project Syndicate
- publicistické texty ve více jazycích ze serveru Presseurop/VoxEurop
- právnické texty v jazycích EU z korpusu JRC-ACQUIS
- jednání Evropského parlamentu z korpusu EuroParl
- slovensko-české konkordance ze Slovenského národního korpusu
- povídky ve více jazycích z projektu Můj rok 1989 z Goethe Institutu
- za více textů v česko-litevské části korpusu a za práci Jiřího Levého Umění překladu ve více jazycích vděčíme Patricku Cornessovi
- román George Orwella 1984 ve více jazycích z korpusu Multext-East
- ukrajinské a polské texty z korpusu PolUkr
- norské texty z nakladatelství Aschehoug & co., Cappelen Forlag a Forlaget Oktober
- filmové titulky z databáze Open Subtitles
Předzpracování
- editor paralelních textů InterText (autor Pavel Vondřička)
- zarovnávač Hunalign
- větný segmentátor pro češtinu (autor Pavel Květoň)
- větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
- větný segmentátor Punkt pro všechny ostatní jazyky ze sady Natural Language Toolkit
Značkovače / lematizátory:
- MorfFlex, Morče a LanGr pro češtinu
- TreeTagger pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu
- Morfeusz a TaKIPI pro polštinu
- HunPOS pro maďarštinu a další jazyky
- tagger pro slovenštinu (s poděkováním Radovanu Garabíkovi)
- tagger pro litevštinu, s poděkováním Vidasovi Daudaravičiusovi a Haně Skoumalové
- tagger pro norštinu
- totale pro slovinštinu (s poděkováním Tomaži Erjavcovi)
- RFTagger pro němčinu
- OMorFi+HunPOS pro finštinu (s poděkováním Filipu Ginterovi)
- Stagger a IceStagger pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)
Korpusový manažer a rozhraní:
Poslední aktualizace: 19. prosince 2014