Toto je starší verze dokumentu!
Obsah
Korpus InterCorp verze 3
Přístup k textům
InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech:
- je přístupný přes rozhraní KonText pomocí speciálního dotazovacího formuláře
- specifikem InterCorpu je také jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se postupně zvyšuje (verze jsou ovšem od roku 2014 zpětně dostupné)
Obsah korpusu
InterCorp obsahuje převážně manuálně zarovnané beletristické texty v češtině a dalších jazycích a výběr publistických článků z webových stránek Project Syndicate, zatím jde o české, anglické, francouzské, německé, ruské a španělské texty z let 2000 až 2008. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají.
Každý cizojazyčný textu má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. V níže uvedené tabulce jsou data popisující rozsah zpřístupněné části korpusu, Project Syndicate představuje zhruba 1,5 až 2 milióny slov, která jsou již započtena v celkovém počtu slov pro daný jazyk (stav z února 2011 ve verzi 3, historii verzí najdete zde).
Velikost korpusu v tisících slov
| jazyk | počet slov (v tisících) | počet textů |
|---|---|---|
| angličtina | 5 695 | Syndicate + 49 |
| bulharština | 1 135 | 15 |
| dánština | 190 | 5 |
| finština | 1 247 | 19 |
| francouzština | 3 141 | Syndicate+ 21 |
| chorvatština | 6 735 | 96 |
| italština | 2 817 | 28 |
| litevština | 353 | 17 |
| lotyština | 1 085 | 33 |
| maďarština | 1 123 | 17 |
| němčina | 8 846 | Syndicate + 100 |
| nizozemština | 3 914 | 58 |
| norština | 2 158 | 21 |
| polština | 4 716 | 80 |
| portugalština | 1 312 | 18 |
| rumunština | 671 | 5 |
| ruština | 2 951 | Syndicate + 25 |
| slovenština | 6 899 | 138 |
| slovinština | 992 | 16 |
| srbština | 1 724 | 27 |
| španělština | 10 905 | Syndicate + 108 |
| švédština | 3 673 | 47 |
| CELKEM | 72 280 | 943 |
| čeština*) | 41 340 | Syndicate + 652 |
*) U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.
Morfosyntaktická anotace
Texty v těchto jazycích jsou opatřeny morfologickou anotací.
| jazyk | značky | lemmata | stručný popis | podrobný popis | nástroj |
|---|---|---|---|---|---|
| angličtina | ✔ | ✔ | anglicky | anglicky + dodatky | TreeTagger |
| bulharština | ✔ | anglicky | TreeTagger | ||
| čeština | ✔ | ✔ | česky anglicky *) | anglicky | Morče |
| francouzština | ✔ | ✔ | anglicky | TreeTagger | |
| italština | ✔ | ✔ | anglicky | TreeTagger | |
| litevština | ✔ | ✔ | česky a anglicky | Vidas Daudaravičius | |
| maďarština | ✔ | anglicky | HunPos | ||
| němčina | ✔ | ✔ | německy | německy | TreeTagger |
| nizozemština | ✔ | TreeTagger | |||
| norština | ✔ | ✔ | analyzátor, tagger | ||
| polština | ✔ | ✔ | anglicky polsky | anglicky | Morfeusz, TaKIPI |
| ruština | ✔ | ✔ | anglicky | anglicky **) | TreeTagger |
| slovenština | ✔ | ✔ | slovensky | slovensky | Radovan Garabík, Morče |
| španělština | ✔ | ✔ | anglicky | TreeTagger |
*) Formulaci dotazu, který obsahuje české morfologické značky, usnadní klikátko.
**) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.
Jak používat značky při hledání v korpusu se dozvíte v návodu k Parku.
Upozornění
Vyhledávací rozhraní Park se stále vyvíjí, je proto možné, že při hledání v korpusu narazíte na problémy nebo budete postrádat některé funkce, které znáte z vyhledávače v českém (jednojazykovém) korpusu. Popis problémů, připomínky a podněty k dalšímu vývoji rozhraní uvítáme na adrese

Poděkování
Děkujeme za možnost využívat následující software a data:
Předzpracování
- větný segmentátor pro češtinu (autor Pavel Květoň)
- větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
- větný segmentátor Punkt pro všechny ostatní jazyky ze sady Natural Language Toolkit
- zarovnávač Hunalign
Značkovače / lematizátory:
- Morče pro češtinu
- TreeTagger pro angličtinu, bulharštinu, francouzštinu, italštinu, němčinu, nizozemštinu, ruštinu a španělštinu
- Morfeusz a TaKIPI pro polštinu
- HunPOS pro maďarštinu
- tagger pro slovenštinu
- tagger pro litevštinu
- analyzátor a tagger pro norštinu
Korpusový manažer:
Data:
- publicistické texty ve více jazycích z webových stránek Project Syndicate

- slovensko-české konkordance ze Slovenského národního korpusu
- povídky ve více jazycích z projektu Můj rok 1989 z Goethe Institutu
- více textů v česko-litevské části korpusu od Patricka Cornesse
- román George Orwella 1984 ve více jazycích z korpusu Multext-East
- ukrajinské a polské texty z korpusu PolUkr (připravuje se)
- texty ve více jazycích z korpusu ParaSol (připravuje se)
- publicistické texty ve více jazycích ze serveru PressEurope (připravuje se)
- právnické texty v jazycích EU z korpusu JRC-ACQUIS (připravuje se)
- norské texty z nakladatelství Aschehoug & co., Cappelen Forlag a Forlaget Oktober
Poslední aktualizace: 24. února 2011