Obsah
Korpus InterCorp verze 4
Přístup k textům
InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech:
- je přístupný přes rozhraní KonText pomocí speciálního dotazovacího formuláře
- specifikem InterCorpu je také jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se postupně zvyšuje (verze jsou ovšem od roku 2014 zpětně dostupné)
Obsah korpusu
InterCorp obsahuje převážně manuálně zarovnané beletristické texty v češtině a dalších jazycích a výběr publistických článků z webových stránek Project Syndicate a Presseurop. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají.
Každý cizojazyčný textu má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 4 (historii verzí najdete zde) ze září 2011 je 92 290 000 slov v zarovnaných cizojazyčných textech. V tomto celkovém počtu slov jsou již započteny zhruba 2,3 - 3 miliony slov z Project Syndicate (pro tyto jazyky: cs, de, en, es, fr, ru) a okolo 0,8 milionu slov z Presseurop (pro tyto jazyky: cs, de, en, es, fr, it, nl, pl, pt, ro), což je přehledně vidět na následujícím grafu. Pod souhrnným názvem "beletrie" jsou v něm zahrnuty všechny ručně zarovnané texty, které jsou z velké většiny tvořeny právě beletrii. Velikost je udávána v milionech slov.
Velikost korpusu v tisících slov
Následující tabulka ukazuje přehled velikostí jednotlivých paralelních korpusů různých jazyků. V řádku jsou uvedeny počty slov příslušného jazyka (v tisících), platné pro průnik s jazykem uvedeným ve sloupci. Např. virtuální bulharsko-chorvatský korpus (1. řádek - "bg") obsahuje celkem 187 tisíc slov v bulharštině (1. řádek - "bg", 9. sloupec – "hr") a 189 tisíc slov v chorvatštině (9. řádek – "hr", 1. sloupec – "bg"). Druhý, zvýrazněný sloupec ukazuje množství slov zarovnaných vůči češtině, a tedy i celkovou velikost jednojazyčného korpusu jazyka uvedeného na příslušném řádku.
bg | cs | da | de | en | es | fi | fr | hr | hu | it | lt | lv | nl | no | pl | pt | ro | ru | sl | sk | sr | sv | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
bg | 1135 | 1135 | 0 | 82 | 74 | 82 | 74 | 0 | 187 | 141 | 156 | 0 | 0 | 74 | 0 | 156 | 74 | 0 | 0 | 0 | 0 | 0 | 156 |
cs | 1139 | 46196 | 149 | 10544 | 6287 | 12177 | 1678 | 4075 | 6415 | 1162 | 3502 | 418 | 1128 | 4175 | 1815 | 6217 | 2109 | 1416 | 3563 | 893 | 7072 | 2521 | 4633 |
da | 0 | 190 | 190 | 87 | 130 | 0 | 0 | 0 | 87 | 0 | 0 | 87 | 0 | 0 | 130 | 136 | 0 | 0 | 130 | 87 | 0 | 87 | 87 |
de | 87 | 12167 | 83 | 12167 | 3802 | 4953 | 176 | 3717 | 1967 | 295 | 1654 | 259 | 22 | 1973 | 1020 | 1850 | 749 | 835 | 2934 | 428 | 431 | 552 | 989 |
en | 80 | 7297 | 135 | 3821 | 7297 | 3761 | 438 | 3448 | 519 | 104 | 1053 | 381 | 2 | 1092 | 397 | 1449 | 876 | 954 | 2836 | 286 | 0 | 383 | 343 |
es | 90 | 14237 | 0 | 5331 | 4141 | 14237 | 353 | 4072 | 2409 | 164 | 2924 | 169 | 0 | 2150 | 670 | 1834 | 1098 | 1128 | 2988 | 98 | 133 | 790 | 1375 |
fi | 62 | 1435 | 0 | 128 | 332 | 325 | 1435 | 107 | 234 | 73 | 62 | 73 | 0 | 109 | 107 | 242 | 62 | 73 | 81 | 73 | 0 | 98 | 164 |
fr | 0 | 5234 | 0 | 4228 | 3947 | 4207 | 155 | 5234 | 515 | 0 | 1181 | 0 | 0 | 948 | 155 | 1272 | 870 | 873 | 3003 | 68 | 0 | 78 | 414 |
hr | 189 | 6735 | 76 | 1736 | 461 | 2175 | 280 | 409 | 6735 | 83 | 1491 | 324 | 43 | 1084 | 870 | 1160 | 447 | 277 | 232 | 352 | 54 | 927 | 997 |
hu | 132 | 1123 | 0 | 256 | 81 | 135 | 81 | 0 | 79 | 1123 | 0 | 81 | 0 | 56 | 202 | 287 | 0 | 81 | 202 | 283 | 284 | 115 | 0 |
it | 174 | 4028 | 0 | 1678 | 1059 | 2815 | 84 | 1064 | 1607 | 0 | 4028 | 162 | 0 | 1308 | 844 | 1214 | 1384 | 798 | 62 | 72 | 0 | 732 | 849 |
lt | 0 | 358 | 58 | 185 | 259 | 115 | 71 | 0 | 253 | 71 | 113 | 358 | 16 | 196 | 173 | 297 | 43 | 71 | 101 | 129 | 13 | 171 | 58 |
lv | 0 | 1075 | 0 | 18 | 2 | 0 | 0 | 0 | 39 | 0 | 0 | 18 | 1075 | 2 | 2 | 36 | 0 | 0 | 0 | 19 | 233 | 0 | 0 |
nl | 80 | 5203 | 0 | 2202 | 1176 | 2273 | 149 | 968 | 1286 | 73 | 1433 | 281 | 3 | 5203 | 724 | 1632 | 1039 | 1047 | 64 | 78 | 0 | 482 | 574 |
no | 0 | 2158 | 135 | 965 | 394 | 693 | 144 | 144 | 990 | 164 | 891 | 259 | 3 | 706 | 2158 | 597 | 524 | 0 | 407 | 255 | 263 | 759 | 678 |
pl | 143 | 6173 | 111 | 1652 | 1256 | 1536 | 276 | 1052 | 1101 | 296 | 1063 | 346 | 37 | 1300 | 503 | 6173 | 829 | 900 | 237 | 283 | 178 | 220 | 553 |
pt | 82 | 2503 | 0 | 853 | 931 | 1105 | 82 | 854 | 486 | 0 | 1454 | 66 | 0 | 1003 | 519 | 1002 | 2503 | 855 | 66 | 0 | 0 | 519 | 263 |
ro | 0 | 1697 | 0 | 900 | 967 | 1107 | 106 | 817 | 327 | 106 | 814 | 106 | 0 | 968 | 0 | 1064 | 815 | 1697 | 0 | 106 | 0 | 578 | 85 |
ru | 0 | 3619 | 99 | 2636 | 2581 | 2444 | 92 | 2382 | 215 | 197 | 50 | 123 | 0 | 52 | 387 | 230 | 52 | 0 | 3619 | 268 | 197 | 71 | 163 |
sl | 0 | 992 | 81 | 407 | 257 | 106 | 91 | 60 | 377 | 308 | 78 | 172 | 21 | 78 | 297 | 317 | 0 | 91 | 297 | 992 | 237 | 243 | 189 |
sk | 0 | 6961 | 0 | 361 | 0 | 104 | 0 | 0 | 50 | 290 | 0 | 15 | 245 | 0 | 276 | 175 | 0 | 0 | 200 | 220 | 6961 | 84 | 117 |
sr | 0 | 2736 | 77 | 503 | 346 | 751 | 124 | 62 | 943 | 127 | 692 | 222 | 0 | 405 | 681 | 237 | 477 | 509 | 77 | 242 | 100 | 2736 | 271 |
sv | 178 | 5234 | 83 | 954 | 339 | 1366 | 214 | 371 | 1091 | 0 | 859 | 83 | 0 | 518 | 610 | 645 | 227 | 87 | 187 | 196 | 129 | 256 | 5234 |
Morfosyntaktická anotace
Texty v těchto jazycích jsou opatřeny morfologickou anotací.
jazyk | značky | lemmata | stručný popis | podrobný popis | nástroj |
---|---|---|---|---|---|
angličtina | ✔ | ✔ | anglicky | anglicky + dodatky | TreeTagger |
bulharština | ✔ | anglicky | TreeTagger | ||
čeština | ✔ | ✔ | česky anglicky *) | anglicky | Morče |
francouzština | ✔ | ✔ | anglicky | TreeTagger | |
italština | ✔ | ✔ | anglicky | TreeTagger | |
litevština | ✔ | ✔ | česky a anglicky | Vidas Daudaravičius | |
maďarština | ✔ | anglicky | HunPos | ||
němčina | ✔ | ✔ | německy | německy | TreeTagger |
nizozemština | ✔ | TreeTagger | |||
norština | ✔ | ✔ | analyzátor, tagger | ||
polština | ✔ | ✔ | anglicky polsky | anglicky | Morfeusz, TaKIPI |
ruština | ✔ | ✔ | anglicky | anglicky **) | TreeTagger |
slovenština | ✔ | ✔ | slovensky | slovensky | Radovan Garabík, Morče |
španělština | ✔ | ✔ | anglicky | TreeTagger |
*) Formulaci dotazu, který obsahuje české morfologické značky, usnadní klikátko.
**) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.
Jak používat značky při hledání v korpusu se dozvíte v návodu k Parku.
Poděkování
Děkujeme za možnost využívat následující software a data:
Předzpracování
- větný segmentátor pro češtinu (autor Pavel Květoň)
- větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
- větný segmentátor Punkt pro všechny ostatní jazyky ze sady Natural Language Toolkit
- zarovnávač Hunalign
Značkovače / lematizátory:
- Morče pro češtinu
- TreeTagger pro angličtinu, bulharštinu, francouzštinu, italštinu, němčinu, nizozemštinu, ruštinu a španělštinu
- Morfeusz a TaKIPI pro polštinu
- HunPOS pro maďarštinu
- tagger pro slovenštinu
- tagger pro litevštinu
- analyzátor a tagger pro norštinu
Korpusový manažer:
Data:
- publicistické texty ve více jazycích z webových stránek Project Syndicate
- slovensko-české konkordance ze Slovenského národního korpusu
- povídky ve více jazycích z projektu Můj rok 1989 z Goethe Institutu
- více textů v česko-litevské části korpusu od Patricka Cornesse
- román George Orwella 1984 ve více jazycích z korpusu Multext-East
- ukrajinské a polské texty z korpusu PolUkr (připravuje se)
- texty ve více jazycích z korpusu ParaSol (připravuje se)
- publicistické texty ve více jazycích ze serveru Presseurop
- právnické texty v jazycích EU z korpusu JRC-ACQUIS (připravuje se)
- norské texty z nakladatelství Aschehoug & co., Cappelen Forlag a Forlaget Oktober
Poslední aktualizace: 5. října 2011