Obsah

Korpus InterCorp verze 3

Přístup k textům

InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech:

Obsah korpusu

InterCorp obsahuje převážně manuálně zarovnané beletristické texty v češtině a dalších jazycích a výběr publistických článků z webových stránek Project Syndicate, zatím jde o české, anglické, francouzské, německé, ruské a španělské texty z let 2000 až 2008. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají.

Každý cizojazyčný textu má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. V níže uvedené tabulce jsou data popisující rozsah zpřístupněné části korpusu, Project Syndicate představuje zhruba 1,5 až 2 milióny slov, která jsou již započtena v celkovém počtu slov pro daný jazyk (stav z února 2011 ve verzi 3, historii verzí najdete zde).

Velikost korpusu v tisících slov

jazyk počet slov
(v tisících)
počet textů
angličtina 5 695 Syndicate + 49
bulharština 1 135 15
dánština 190 5
finština 1 247 19
francouzština 3 141 Syndicate+ 21
chorvatština 6 735 96
italština 2 817 28
litevština 353 17
lotyština 1 085 33
maďarština 1 123 17
němčina 8 846 Syndicate + 100
nizozemština 3 914 58
norština 2 158 21
polština 4 716 80
portugalština 1 312 18
rumunština 671 5
ruština 2 951 Syndicate + 25
slovenština 6 899 138
slovinština 992 16
srbština 1 724 27
španělština 10 905 Syndicate + 108
švédština 3 673 47
CELKEM 72 280 943
čeština*) 41 340 Syndicate + 652

*) U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.

Morfosyntaktická anotace

Texty v těchto jazycích jsou opatřeny morfologickou anotací.

jazyk značky lemmata stručný popis podrobný popis nástroj
angličtina anglicky anglicky + dodatky TreeTagger
bulharština     anglicky TreeTagger
čeština česky anglicky *) anglicky Morče
francouzština anglicky   TreeTagger
italština anglicky   TreeTagger
litevština česky a anglicky   Vidas Daudaravičius
maďarština     anglicky HunPos
němčina německy německy TreeTagger
nizozemština       TreeTagger
norština     analyzátor, tagger
polština anglicky polsky anglicky Morfeusz, TaKIPI
ruština anglicky anglicky **) TreeTagger
slovenština slovensky slovensky Radovan Garabík, Morče
španělština anglicky   TreeTagger

*) Formulaci dotazu, který obsahuje české morfologické značky, usnadní klikátko.

**) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.

Jak používat značky při hledání v korpusu se dozvíte v návodu k Parku.

Poděkování

Děkujeme za možnost využívat následující software a data:

Předzpracování

  • větný segmentátor pro češtinu (autor Pavel Květoň)
  • větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
  • větný segmentátor Punkt pro všechny ostatní jazyky ze sady Natural Language Toolkit
  • zarovnávač Hunalign

Značkovače / lematizátory:

Korpusový manažer:

Data:

Poslední aktualizace: 24. února 2011

Související odkazy