Skrýt
Nastavení

Toto je starší verze dokumentu!


Korpus InterCorp verze 4

Přístup k textům

InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech:

  • je přístupný přes rozhraní KonText pomocí speciálního dotazovacího formuláře
  • specifikem InterCorpu je také jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se postupně zvyšuje (verze jsou ovšem od roku 2014 zpětně dostupné)

Obsah korpusu

InterCorp obsahuje převážně manuálně zarovnané beletristické texty v češtině a dalších jazycích a výběr publistických článků z webových stránek Project Syndicate a Presseurop. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají.

Každý cizojazyčný textu má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 4 (historii verzí najdete zde) ze září 2011 je 92 290 000 slov v zarovnaných cizojazyčných textech. V tomto celkovém počtu slov jsou již započteny zhruba 2,3 - 3 miliony slov z Project Syndicate (pro tyto jazyky: cs, de, en, es, fr, ru) a okolo 0,8 milionu slov z Presseurop (pro tyto jazyky: cs, de, en, es, fr, it, nl, pl, pt, ro), což je přehledně vidět na následujícím grafu. Pod souhrnným názvem "beletrie" jsou v něm zahrnuty všechny ručně zarovnané texty, které jsou z velké většiny tvořeny právě beletrii. Velikost je udávána v milionech slov.

Graf složení korpusů jednotlivých jazyků

Velikost korpusu v tisících slov

Následující tabulka ukazuje přehled velikostí jednotlivých paralelních korpusů různých jazyků. V řádku jsou uvedeny počty slov příslušného jazyka (v tisících), platné pro průnik s jazykem uvedeným ve sloupci. Např. virtuální bulharsko-chorvatský korpus (1. řádek - "bg") obsahuje celkem 187 tisíc slov v bulharštině (1. řádek - "bg", 9. sloupec – "hr") a 189 tisíc slov v chorvatštině (9. řádek – "hr", 1. sloupec – "bg"). Druhý, zvýrazněný sloupec ukazuje množství slov zarovnaných vůči češtině, a tedy i celkovou velikost jednojazyčného korpusu jazyka uvedeného na příslušném řádku.

bgcsdadeenesfifrhrhuitltlvnlnoplptroruslsksrsv
bg113511350827482740187141156007401567400000156
cs11394619614910544628712177167840756415116235024181128417518156217210914163563893707225214633
da01901908713000087008700130136001308708787
de8712167831216738024953176371719672951654259221973102018507498352934428431552989
en8072971353821729737614383448519104105338121092397144987695428362860383343
es901423705331414114237353407224091642924169021506701834109811282988981337901375
fi62143501283323251435107234736273010910724262738173098164
fr052340422839474207155523451501181009481551272870873300368078414
hr189673576173646121752804096735831491324431084870116044727723235254927997
hu13211230256811358107911230810562022870812022832841150
it17440280167810592815841064160704028162013088441214138479862720732849
lt035858185259115710253711133581619617329743711011291317158
lv010750182000390018107522360001923300
nl805203022021176227314996812867314332813520372416321039104764780482574
no02158135965394693144144990164891259370621585975240407255263759678
pl14361731111652125615362761052110129610633463713005036173829900237283178220553
pt8225030853931110582854486014546601003519100225038556600519263
ro016970900967110710681732710681410609680106481516970106057885
ru036199926362581244492238221519750123052387230520361926819771163
sl0992814072571069160377308781722178297317091297992237243189
sk06961036101040050290015245027617500200220696184117
sr0273677503346751124629431276922220405681237477509772421002736271
sv178523483954339136621437110910859830518610645227871871961292565234

Morfosyntaktická anotace

Texty v těchto jazycích jsou opatřeny morfologickou anotací.

jazyk značky lemmata stručný popis podrobný popis nástroj
angličtina anglicky anglicky + dodatky TreeTagger
bulharština     anglicky TreeTagger
čeština česky anglicky *) anglicky Morče
francouzština anglicky   TreeTagger
italština anglicky   TreeTagger
litevština česky a anglicky   Vidas Daudaravičius
maďarština     anglicky HunPos
němčina německy německy TreeTagger
nizozemština       TreeTagger
norština     analyzátor, tagger
polština anglicky polsky anglicky Morfeusz, TaKIPI
ruština anglicky anglicky **) TreeTagger
slovenština slovensky slovensky Radovan Garabík, Morče
španělština anglicky   TreeTagger

*) Formulaci dotazu, který obsahuje české morfologické značky, usnadní klikátko.

**) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.

Jak používat značky při hledání v korpusu se dozvíte v návodu k Parku.

Poděkování

Děkujeme za možnost využívat následující software a data:

Předzpracování

  • větný segmentátor pro češtinu (autor Pavel Květoň)
  • větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
  • větný segmentátor Punkt pro všechny ostatní jazyky ze sady Natural Language Toolkit
  • zarovnávač Hunalign

Značkovače / lematizátory:

Korpusový manažer:

Data:

Poslední aktualizace: 5. října 2011

Související odkazy