cnk:intercorp:verze4 - Příručka ČNK

Toto je starší verze dokumentu!

Obsah

Korpus InterCorp verze 4

Korpus InterCorp verze 4

Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus pokrývající co největší množství jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK.

Po registraci na stránce Prohlášení uživatele korpusů ÚČNK lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.

InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech:

je přístupný přes speciální rozhraní Park, které je naší nadstavbou nad systémem Manatee Pavla Rychlého; stručný návod k použití Parku najdete zde; autorem Parku je Michal Štourač

jednojazyčné verze všech paralelních korpusů jsou zpřístupněné pomocí webové verze rozhraní Bonito, takže je možné na korpusy jednotlivých jazyků používat standardní nástroje, jako jsou filtry, třídění, kolokace, frekvenční distribuce, náhodné vzorky atd.; stejně jako se všemi cizojazyčnými korpusy je navíc možné pracovat i s odpovídajícími verzemi češtiny

specifikem InterCorpu je také jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se postupně zvyšuje

Obsah korpusu

InterCorp obsahuje převážně manuálně zarovnané beletristické texty v češtině a dalších jazycích a výběr publistických článků z webových stránek Project Syndicate a Presseurop. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají.

Každý cizojazyčný textu má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi InterCorp č. 4 (historii verzí najdete zde) ze září 2011 je 92 290 000 slov v zarovnaných cizojazyčných textech. V tomto celkovém počtu slov jsou již započteny zhruba 2,3 - 3 miliony slov z Project Syndicate (pro tyto jazyky: cs, de, en, es, fr, ru) a okolo 0,8 milionu slov z Presseurop (pro tyto jazyky: cs, de, en, es, fr, it, nl, pl, pt, ro), což je přehledně vidět na následujícím grafu. Pod souhrnným názvem "beletrie" jsou v něm zahrnuty všechny ručně zarovnané texty, které jsou z velké většiny tvořeny právě beletrii. Velikost je udávána v milionech slov.

Graf složení korpusů jednotlivých jazyků

Následující tabulka ukazuje přehled velikostí jednotlivých paralelních korpusů různých jazyků. V řádku jsou uvedeny počty slov příslušného jazyka (v tisících), platné pro průnik s jazykem uvedeným ve sloupci. Např. virtuální bulharsko-chorvatský korpus (1. řádek - "bg") obsahuje celkem 187 tisíc slov v bulharštině (1. řádek - "bg", 9. sloupec – "hr") a 189 tisíc slov v chorvatštině (9. řádek – "hr", 1. sloupec – "bg"). Druhý, zvýrazněný sloupec ukazuje množství slov zarovnaných vůči češtině, a tedy i celkovou velikost jednojazyčného korpusu jazyka uvedeného na příslušném řádku.

	bg	cs	da	de	en	es	fi	fr	hr	hu	it	lt	lv	nl	no	pl	pt	ro	ru	sl	sk	sr	sv
bg	1135	1135	0	82	74	82	74	0	187	141	156	0	0	74	0	156	74	0	0	0	0	0	156
cs	1139	46196	149	10544	6287	12177	1678	4075	6415	1162	3502	418	1128	4175	1815	6217	2109	1416	3563	893	7072	2521	4633
da	0	190	190	87	130	0	0	0	87	0	0	87	0	0	130	136	0	0	130	87	0	87	87
de	87	12167	83	12167	3802	4953	176	3717	1967	295	1654	259	22	1973	1020	1850	749	835	2934	428	431	552	989
en	80	7297	135	3821	7297	3761	438	3448	519	104	1053	381	2	1092	397	1449	876	954	2836	286	0	383	343
es	90	14237	0	5331	4141	14237	353	4072	2409	164	2924	169	0	2150	670	1834	1098	1128	2988	98	133	790	1375
fi	62	1435	0	128	332	325	1435	107	234	73	62	73	0	109	107	242	62	73	81	73	0	98	164
fr	0	5234	0	4228	3947	4207	155	5234	515	0	1181	0	0	948	155	1272	870	873	3003	68	0	78	414
hr	189	6735	76	1736	461	2175	280	409	6735	83	1491	324	43	1084	870	1160	447	277	232	352	54	927	997
hu	132	1123	0	256	81	135	81	0	79	1123	0	81	0	56	202	287	0	81	202	283	284	115	0
it	174	4028	0	1678	1059	2815	84	1064	1607	0	4028	162	0	1308	844	1214	1384	798	62	72	0	732	849
lt	0	358	58	185	259	115	71	0	253	71	113	358	16	196	173	297	43	71	101	129	13	171	58
lv	0	1075	0	18	2	0	0	0	39	0	0	18	1075	2	2	36	0	0	0	19	233	0	0
nl	80	5203	0	2202	1176	2273	149	968	1286	73	1433	281	3	5203	724	1632	1039	1047	64	78	0	482	574
no	0	2158	135	965	394	693	144	144	990	164	891	259	3	706	2158	597	524	0	407	255	263	759	678
pl	143	6173	111	1652	1256	1536	276	1052	1101	296	1063	346	37	1300	503	6173	829	900	237	283	178	220	553
pt	82	2503	0	853	931	1105	82	854	486	0	1454	66	0	1003	519	1002	2503	855	66	0	0	519	263
ro	0	1697	0	900	967	1107	106	817	327	106	814	106	0	968	0	1064	815	1697	0	106	0	578	85
ru	0	3619	99	2636	2581	2444	92	2382	215	197	50	123	0	52	387	230	52	0	3619	268	197	71	163
sl	0	992	81	407	257	106	91	60	377	308	78	172	21	78	297	317	0	91	297	992	237	243	189
sk	0	6961	0	361	0	104	0	0	50	290	0	15	245	0	276	175	0	0	200	220	6961	84	117
sr	0	2736	77	503	346	751	124	62	943	127	692	222	0	405	681	237	477	509	77	242	100	2736	271
sv	178	5234	83	954	339	1366	214	371	1091	0	859	83	0	518	610	645	227	87	187	196	129	256	5234

Morfosyntaktická anotace

Texty v těchto jazycích jsou opatřeny morfologickou anotací.

jazyk	značky	lemmata	stručný popis	podrobný popis	nástroj
angličtina	✔	✔	anglicky	anglicky + dodatky	TreeTagger
bulharština	✔			anglicky	TreeTagger
čeština	✔	✔	česky anglicky *)	anglicky	Morče
francouzština	✔	✔	anglicky		TreeTagger
italština	✔	✔	anglicky		TreeTagger
litevština	✔	✔	česky a anglicky		Vidas Daudaravičius
maďarština	✔			anglicky	HunPos
němčina	✔	✔	německy	německy	TreeTagger
nizozemština	✔				TreeTagger
norština	✔	✔			analyzátor, tagger
polština	✔	✔	anglicky polsky	anglicky	Morfeusz, TaKIPI
ruština	✔	✔	anglicky	anglicky **)	TreeTagger
slovenština	✔	✔	slovensky	slovensky	Radovan Garabík, Morče
španělština	✔	✔	anglicky		TreeTagger

*) Formulaci dotazu, který obsahuje české morfologické značky, usnadní klikátko.

**) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.

Jak používat značky při hledání v korpusu se dozvíte v návodu k Parku.

Upozornění

Vyhledávací rozhraní Park se stále vyvíjí, je proto možné, že při hledání v korpusu narazíte na problémy nebo budete postrádat některé funkce, které znáte z vyhledávače v českém (jednojazykovém) korpusu. Popis problémů, připomínky a podněty k dalšímu vývoji rozhraní uvítáme na adrese

Poděkování

Děkujeme za možnost využívat následující software a data:

Předzpracování

větný segmentátor pro češtinu (autor Pavel Květoň)
větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
větný segmentátor Punkt pro všechny ostatní jazyky ze sady Natural Language Toolkit
zarovnávač Hunalign

Značkovače / lematizátory:

Morče pro češtinu
TreeTagger pro angličtinu, bulharštinu, francouzštinu, italštinu, němčinu, nizozemštinu, ruštinu a španělštinu
Morfeusz a TaKIPI pro polštinu
HunPOS pro maďarštinu
tagger pro slovenštinu
tagger pro litevštinu
analyzátor a tagger pro norštinu

Korpusový manažer:

Manatee

Data:

publicistické texty ve více jazycích z webových stránek Project Syndicate
slovensko-české konkordance ze Slovenského národního korpusu
povídky ve více jazycích z projektu Můj rok 1989 z Goethe Institutu
více textů v česko-litevské části korpusu od Patricka Cornesse
román George Orwella 1984 ve více jazycích z korpusu Multext-East
ukrajinské a polské texty z korpusu PolUkr (připravuje se)
texty ve více jazycích z korpusu ParaSol (připravuje se)
publicistické texty ve více jazycích ze serveru Presseurop
právnické texty v jazycích EU z korpusu JRC-ACQUIS (připravuje se)
norské texty z nakladatelství Aschehoug & co., Cappelen Forlag a Forlaget Oktober