cnk:intercorp:verze3 - Příručka ČNK

Obsah

Korpus InterCorp verze 3

Korpus InterCorp verze 3

Přístup k textům

InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech:

je přístupný přes rozhraní KonText pomocí speciálního dotazovacího formuláře
specifikem InterCorpu je také jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se postupně zvyšuje (verze jsou ovšem od roku 2014 zpětně dostupné)

Obsah korpusu

InterCorp obsahuje převážně manuálně zarovnané beletristické texty v češtině a dalších jazycích a výběr publistických článků z webových stránek Project Syndicate, zatím jde o české, anglické, francouzské, německé, ruské a španělské texty z let 2000 až 2008. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají.

Každý cizojazyčný textu má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. V níže uvedené tabulce jsou data popisující rozsah zpřístupněné části korpusu, Project Syndicate představuje zhruba 1,5 až 2 milióny slov, která jsou již započtena v celkovém počtu slov pro daný jazyk (stav z února 2011 ve verzi 3, historii verzí najdete zde).

Velikost korpusu v tisících slov

jazyk	počet slov (v tisících)	počet textů
angličtina	5 695	Syndicate + 49
bulharština	1 135	15
dánština	190	5
finština	1 247	19
francouzština	3 141	Syndicate+ 21
chorvatština	6 735	96
italština	2 817	28
litevština	353	17
lotyština	1 085	33
maďarština	1 123	17
němčina	8 846	Syndicate + 100
nizozemština	3 914	58
norština	2 158	21
polština	4 716	80
portugalština	1 312	18
rumunština	671	5
ruština	2 951	Syndicate + 25
slovenština	6 899	138
slovinština	992	16
srbština	1 724	27
španělština	10 905	Syndicate + 108
švédština	3 673	47
CELKEM	72 280	943
čeština^*)	41 340	Syndicate + 652

*) U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.

Morfosyntaktická anotace

Texty v těchto jazycích jsou opatřeny morfologickou anotací.

jazyk	značky	lemmata	stručný popis	podrobný popis	nástroj
angličtina	✔	✔	anglicky	anglicky + dodatky	TreeTagger
bulharština	✔			anglicky	TreeTagger
čeština	✔	✔	česky anglicky *)	anglicky	Morče
francouzština	✔	✔	anglicky		TreeTagger
italština	✔	✔	anglicky		TreeTagger
litevština	✔	✔	česky a anglicky		Vidas Daudaravičius
maďarština	✔			anglicky	HunPos
němčina	✔	✔	německy	německy	TreeTagger
nizozemština	✔				TreeTagger
norština	✔	✔			analyzátor, tagger
polština	✔	✔	anglicky polsky	anglicky	Morfeusz, TaKIPI
ruština	✔	✔	anglicky	anglicky **)	TreeTagger
slovenština	✔	✔	slovensky	slovensky	Radovan Garabík, Morče
španělština	✔	✔	anglicky		TreeTagger

*) Formulaci dotazu, který obsahuje české morfologické značky, usnadní klikátko.

**) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.

Jak používat značky při hledání v korpusu se dozvíte v návodu k Parku.

Poděkování

Děkujeme za možnost využívat následující software a data:

Předzpracování

větný segmentátor pro češtinu (autor Pavel Květoň)
větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
větný segmentátor Punkt pro všechny ostatní jazyky ze sady Natural Language Toolkit
zarovnávač Hunalign

Značkovače / lematizátory:

Morče pro češtinu
TreeTagger pro angličtinu, bulharštinu, francouzštinu, italštinu, němčinu, nizozemštinu, ruštinu a španělštinu
Morfeusz a TaKIPI pro polštinu
HunPOS pro maďarštinu
tagger pro slovenštinu
tagger pro litevštinu
analyzátor a tagger pro norštinu

Korpusový manažer:

Manatee

Data:

publicistické texty ve více jazycích z webových stránek Project Syndicate
slovensko-české konkordance ze Slovenského národního korpusu
povídky ve více jazycích z projektu Můj rok 1989 z Goethe Institutu
více textů v česko-litevské části korpusu od Patricka Cornesse
román George Orwella 1984 ve více jazycích z korpusu Multext-East
ukrajinské a polské texty z korpusu PolUkr (připravuje se)
texty ve více jazycích z korpusu ParaSol (připravuje se)
publicistické texty ve více jazycích ze serveru PressEurope (připravuje se)
právnické texty v jazycích EU z korpusu JRC-ACQUIS (připravuje se)
norské texty z nakladatelství Aschehoug & co., Cappelen Forlag a Forlaget Oktober