Toto je starší verze dokumentu!

Korpus InterCorp verze 13ud – Universal Dependencies

Název		čeština jádro	čeština kolekce	cizí jazyky jádro	cizí jazyky kolekce
Pozice	Počet tokenů	141 032 521	116 673 043	394 042 551	1 550 071 364
Pozice	Počet slovních tvarů	113 934 806	89 973 959	327 497 843	1 219 622 437
Struktury	Počet dokumentů	1 657	30	3 993	282
	Počet textů	1 657	111 951	3 993	1 843 528
	Počet vět	9 782 001	13 606 183	24 305 621	143 195 566
Další informace	referenční	ANO
	reprezentativní	NE (různé textové typy)
	rok zveřejnění	2021
	cizích jazyků	40
	tagovaných jazyků	35
	jazyky s lemmaty	35
	jazyky se syntaktickou anotací	35

Přístup k textům

Po registraci na stránce Prohlášení uživatele korpusů ÚČNK lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.

InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní KonText pomocí speciálního dotazovacího formuláře pro paralelní korpusy.

Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na Martina Vavřína.

Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Od verze 6 dál jsou všechny předchozí verze stále dostupné. Verzi 13, označenou 13ud, zveřejňujeme také s lingvistickým značkováním podle standardu Universal Dependencies.

Hlavní rozdíly mezi verzemi 13 a 13ud

Z celkového počtu 41 jazyků (včetně češtiny) je ve verzi 13ud lingvisticky anotovaných 36; všechny takové jazyky jsou navíc vybaveny i syntaktickou anotací.
Texty jsou ve všech jazycích anotované stejně, a to podle standardu UD (Universal Dependencies).
Obecné zásady anotace jsou uvedeny na stránkách projektu UD (UD Guidelines), včetně podrobného popisu:
- slovních druhů (Universal POS tags)
- morfologických kategorií (Universal features)
- syntaktických funkcí (Universal Dependency Relations)
Anotaci provedl u všech jazyků nástroj UDPipe na základě dat vytvořených v projektu UD.¹⁾
Pro využití v KonTextu byly agregáty, tj. slovní tvary složené ze dvou nebo i tří syntaktických slov, upraveny do podoby dělených tokenů. V češtině se to týká např. tvarů ses (se+jsi) nebo oč (o+co), v angličtině isn't nebo cannot, v němčině zur (zu+der) nebo am (an+dem), v polštině miałam (miała+m), żebyś (że+by+ś) nebo chciałbym (chciał+by+m), ve francouzštině des (de+les), aux (à+les) nebo auquel (à+lequel).²⁾
Také byly přidány údaje usnadňující orientaci v syntaktické struktuře. Mezi tyto údaje patří odkazy na důležité vlastnosti řídícího členu (lemma, slovní druh a morfologické kategorie). Pokud k významovému slovu patří nějaké slovo pomocné (např. předložka, pomocné sloveso, podřadicí spojka), uvádí se u významového slova také některé vlastnosti pomocného slova.
Často využívaným morfologickým kategoriím ze seznamu features (v KonTextu feats) se dostalo privilegovaného postavení samostatných atributů. To se týká např. morfologického pádu a čísla (case, number), jmenného rodu (gender) nebo osoby (person).
Anotace mezi jazyky se liší jen počtem atributů, viz Seznam atributů podle jazyků, popsaný níže v Legendě k seznamu atributů.
KonText usnadňuje hledání podle slovního druhu a dalších morfologických kategorií pomocí funkce Vložit tag, která do dotazu vkládá slovní druh podle UD (upos) a libovolné kategorie ze seznamu feats. Funkce Vložit tag je dostupná u všech lingvisticky anotovaných jazyků.

Obsah korpusu

InterCorp verze 13ud obsahuje stejné texty jako InterCorp verze 13, obě verze se liší jen v lingvistické anotaci. Údaje o počtu tokenů a slov ve verzi 13ud se však můžou mírně lišit kvůli jinému způsobu tokenizace.

Jádrem korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. kolekce. Ve verzi 13ud jsou k dispozici tyto kolekce:

publistické články a zpravodajství z webových stránek Project Syndicate a VoxEurop (dříve PressEurop)
právní texty Evropské unie z korpusu Acquis Communautaire
zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu Europarl
filmové titulky z databáze OpenSubtitles
překlady Bible

Tyto texty jsou zarovnány jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. ty, které nemají český protějšek. Některé texty z korpusů Acquis Communautaire a Europarl byly rovněž částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze OpenSubtitles, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Zato byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů. Došlo rovněž k rozdělení Syndicate a PressEurop na jednotlivé ročníky, čímž se navýšil počet dokumentů v kolekcích.

Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 13ud z prosince 2021 činí v zarovnaných cizojazyčných textech 327 milionů slov v jádru a 1 220 milionů slov v kolekcích. V českých textech je v jádru 114 a v kolekcích 90 milionů slov (viz historie verzí). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.

Skladba korpusu podle jednotlivých jazyků – jádro i kolekce

Skladba korpusu podle jednotlivých jazyků – jádro

Skladba korpusu podle jednotlivých jazyků – kolekce

Zkratka	Jazyk	Jádro	Syndicate	Presseurop	Acquis	Europarl	Subtitles	Bible	Celkem
ar	arabština	34	0	0	0	0	0	0	34
be	běloruština	5 713	0	0	0	0	0	0	5 713
bg	bulharština	7 067	0	0	13 582	9 082	0	0	29 732
ca	katalánština	8 006	0	0	0	0	0	728	8 735
da	dánština	7 122	0	0	20 012	13 800	14 372	656	55 962
de	němčina	37 680	4 735	2 506	20 710	13 153	8 388	725	87 897
el	řečtina	0	0	0	23 684	15 382	23 562	0	62 628
en	angličtina	33 585	4 901	2 685	23 138	15 643	51 589	730	132 270
es	španělština	26 553	5 609	2 858	26 270	16 249	36 625	0	114 164
et	estonština	0	0	0	14 885	10 899	10 290	0	36 073
fi	finština	5 655	0	0	15 260	10 108	15 047	542	46 613
fr	francouzština	19 734	5 594	3 041	26 294	17 196	25 996	764	98 619
he	hebrejština	0	0	0	0	0	16 050	0	16 050
hi	hindština	403	0	0	0	0	0	0	403
hr	chorvatština	21 924	0	0	0	0	19 022	570	41 515
hu	maďarština	6 441	0	0	17 851	12 188	21 091	0	57 572
is	islandština	0	0	0	0	0	1 581	0	1 581
it	italština	14 416	1 225	2 709	23 648	15 502	14 765	685	72 949
ja	japonština	2 279	0	0	0	0	452	0	2 731
lt	litevština	419	0	0	17 175	11 198	555	471	29 819
lv	lotyština	2 646	0	0	17 518	11 682	280	537	32 662
mk	makedonština	8 881	0	0	0	0	1 877	0	10 758
ms	malajština	0	0	0	0	0	3 521	0	3 521
mt	maltština	0	0	0	13 805	0	0	0	13 805
nl	nizozemština	16 214	812	2 953	23 401	15 556	29 355	717	89 008
no	norština	7 753	0	0	0	0	0	724	8 477
pl	polština	25 738	0	2 367	19 483	12 663	25 801	576	86 628
pt	portugalština	4 981	554	2 782	24 260	15 186	41 452	712	89 927
rn	romština	14	0	0	0	0	0	0	14
ro	rumunština	4 198	0	2 726	8 044	9 428	33 955	0	58 352
ru	ruština	8 662	3 993	0	0	0	6 898	566	20 119
sk	slovenština	8 543	0	0	18 397	12 727	5 132	561	45 361
sl	slovinština	3 871	0	0	18 513	12 249	17 054	0	51 688
sq	albánština	0	0	0	0	0	2 003	0	2 003
sr	srbština	11 580	0	0	0	0	20 679	0	32 259
sv	švédština	15 790	0	0	19 459	13 778	14 652	638	64 316
tr	turečtina	0	0	0	0	0	20 895	0	20 895
uk	ukrajinština	11 461	0	0	0	0	244	596	12 301
vi	vietnamština	0	0	0	0	0	1 269	0	1 269
zh	čínština	135	269	0	0	0	2 292	0	2 696
celkem		327 498	27 692	24 627	405 390	263 669	486 747	11 498	1 547 120
cs	čeština	113 935	4 356	2 313	19 189	12 919	50 634	562	203 909
CELKEM		441 433	32 048	26 941	424 579	276 587	537 382	12 060	1 751 029

Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.

Morfologická anotace

Slovní druh

V UD se slovní druh uvádí odděleně od dalších kategorií.
Slovní druhy jsou pro všechny jazyky stejné.
Slovní druh se uvádí jako hodnota atributu upos.
U většiny jazyků je v atributu xpos i jazykově specifická morfologická značka.

upos	glosa
ADJ	přídavné jméno
ADP	adpozice – např. předložka
ADV	příslovce
AUX	pomocné sloveso
CCONJ	souřadicí spojka
DET	determinátor – např. přivl. zájmeno
INTJ	citoslovce
NOUN	podstatné jméno
NUM	číslovka
PART	částice
PRON	zájmeno
PROPN	vlastní jméno
PUNCT	interpunkce
SCONJ	podřadicí spojka
SYM	symbol
VERB	sloveso
X	ostatní

Další kategorie

Další kategorie se řídí podle slovního druhu a jazyka.
Každá kategorie je uvedena jako dvojice „název kategorie = hodnota kategorie“, tedy např. Number=Sg.
Seznam takových dvojic tvoří hodnotu atributu feats.
Kategorie v atributu feats jsou odděleny znakem „|“, např. tvar школы v genitivu singuláru je značkován takto: Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing.
Dotaz pomocí CQL lze specifikovat jednotlivé části značky zvlášť, tedy např. [upos="NOUN" & feats="Gender=Fem" & feats="Case=Gen"] (na pořadí kategorií nezáleží).
Dotaz lze formulovat také na řetězec znaků, např. [upos="NOUN" & feats=".*Case=Gen.*Gender=Fem.*"]. Výsledek je v obou případech stejný.
Některé z kategorií ve feats jsou uvedeny zároveň jako další atributy. Tyto atributy lze využít při hledání nebo pro generování frekvenčních seznamů.

název kategorie	glosa	příklady hodnot
Abbr	zkratka	Yes
Animacy	životnost	Anim, Inan, Hum, Nhum
Aspect	vid	Imp, Perf, Hab, Iter, Prog, Prosp
Case	pád	Nom, Gen, Dat, Acc, Voc, Loc, Ins, …
Definite	určitost	Ind, Def, …
Degree	stupeň	Pos, Cmp, Sup, Equ, Abs
Foreign	cizí slovo	Yes
Gender	jmenný rod	Fem, Masc, Neut, Com
Mood	slovesný způsob	Ind, Imp, Cnd, …
NumType	typ číslovky	Card, Ord, Mult, Frac, Sets, …
Number	morfologické číslo	Sing, Plur, Dual, Ptan, Coll, …
Person	osoba	1, 2, 3, …
Polarity	polarita	Neg, Pos
Polite	zdvořilost	Infm, Form, Elev, Humb
Poss	přivlastňovací tvar	Yes
PronType	druh zájmena apod.	Prs, Rcp, Art, Int, Rel, Exc, Dem, Emp, Tot, Ind
Reflex	zvratný tvar	Yes
Tense	slovesný čas	Pres, Past, Fut, Pqp, Imp
Typo	chyba	Yes
VerbForm	slovesný tvar	Fin, Inf, Part, Conv, Ger, Vnoun, Sup
Voice	slovesný rod	Act, Pass, Mid, Cau, …

Vícedílné tokeny

Některé tokeny, tzv. agregáty, se skládají z více částí.
Tyto části odpovídají v syntaktické struktuře různým uzlům.
V češtině jde např. o tvary abychom, ses, bylas nebo oč.
Části takových tokenů dělí znak „|“.
Části jsou uvedeny v podobě odpovídající původnímu tvaru (tedy např. se |s) i v podobě, která by odpovídala jeho nezkrácené verzi (tedy např. se |jsi).
Vícedílné tokeny se ve všech jazycích hledají jako celé tvary. To se týká např. anglických spřežek (can't) nebo polských aglutinovaných tvarů (byłbym).

Syntaktická anotace

U každého tokenu je uvedena závislostní syntaktická funkce (deprel) a odkaz na syntakticky řídící slovo, tj. na hlavu (head).
V níže uvedené tabulce se pro lepší orientaci rozlišují typem písma syntaktické funkce čtyř typů:
- Obvyklé syntaktické funkce jsou uvedeny tučně.
- Funkce určené pro pomocná slova jsou uvedeny tučnou kurzívou.
- Funkce umožňující zachytit v závislostní syntaktické struktuře koordinaci a podobné jevy nebo mají čistě technickou povahu jsou uvedeny kurzívou.
- Funkce, které se v češtině nevyužívají, jsou uvedeny šedě.
V některých jazycích mohou mít některé funkce podtypy. Název podtypu je uveden po dvojtečce za názvem typu. Níže uvedený seznam obsahuje pouze podtypy relevantní pro češtinu a zastoupené v korpusu.
Pro jiné jazyky než češtinu nebo angličtinu lze seznam všech funkcí a jejich podtypů zobrazit v prohlížeči KonText. Vyberte konkrétní jazykový subkorpus, klikněte na Dotaz v horní liště a v nabídce zvolte Seznam slov. V rámečku za Hledat podle atributu nastavte možnost deprel. Pak klikněte dole na Vytvořit seznam slov. Funkce jsou seřazeny podle frekvence. Chcete-li je seřadit podle abecedy, klikněte na záhlaví sloupce deprel. Seznam obsahuje samostatné položky pro vícedílné tokeny s oddělovačem „|“.

deprel	glosa	příklad³⁾
acl	přívlastková věta	Mám dojem, že bych nepřepral* ani hraboše*.
acl:relcl	vztažná věta	Nevěří tomu, co vidí.
advcl	vedlejší věta příslovečná	Spěchal, aby přišel* včas*.
advmod	adverbiální příslovečné určení	geneticky upravené potraviny
advmod:emph	zdůrazňovací slovo, intensifikátor	Trvalo to sotva* pár vteřin.*
amod	adjektivní (shodný) přívlastek	Václav si vzal třímilionovou* půjčku.*
appos	apozice (přístavek)	Přijel Michal, můj bratr* a Davidův bratranec*.
aux	pomocné sloveso	Mohli byste* přijet už příští týden?*
aux:pass	pomocné sloveso trpného rodu	Výstrahy byly* bohužel oslyšeny.*
case	předložka	Bydlím na samotě.
cc	souřadicí spojka	Je to mladý a nadějný chlapík.
ccomp	obligatorní větné doplnění	Ještě včera hlásili, že pršet* nebude*.
clf	klasifikátor	三个学生 sān gè xuéshēng
compound	nefinální části složené číslovky	Bude to stát padesát pět* tisíc korun.*
conj	další člen koordinace	Teta včera večer přijela, přespala* a ráno zase odjela.*
cop	spona	Lenka je v kondici.
csubj	větný podmět	Obžalovanému přitížilo, že neměl* alibi*.
csubj:pass	větný podmět pasiva	Jak se pozná, že je to správně?
dep	nespecifikovaná závislost	Rozhlédl se na druhou.
det	determinace	Která kniha se vám líbí nejvíc?
det:numgov	zájmenná číslovka v neshodném pádu ⁴⁾	Mimoto bylo nablízku několik* dalších králíků.*
det:nummod	zájmenná číslovka ve shodném pádu ⁵⁾	V městě se na mnoha* místech objevily plameny.*
discourse	diskursní výraz	čemu že se to zpronevěřily
dislocated	extrapozice	Dumplings I like.
expl:pass	zvratné zájmeno ve zvratném pasivu	S tím se nedalo nic dělat.
expl:pv	zvratná částice u reflexiva tantum	Ona se občas tak legračně dívá.
fixed	další části víceslovného výrazu	ve srovnání* například s úvěry*
flat	další části označení osoby	Nejlépe to vyjádřil papež Jan* Pavel II.*
flat:foreign	další části cizího víceslovného výrazu	Summum ius, summa iniuria* je estetická maxima.*
goeswith	další část chybně rozděleného tvaru	Zastavil se a z těžka* oddychoval.*
iobj	nepřímý předmět	Vysvětlila studentům* svůj plán.*
list	další části seznamu	Steve Jones tel.: 555-9814 e-mail: jones@abc.edf
mark	podřadicí spojka	Nevěděli jsme, že babička není doma.
nmod	jmenný (neshodný) přívlastek	kancelář ředitele
nsubj	jmenný podmět	Auto je červené.
nsubj:pass	podmět věty se slovesem v trpném rodě	Vypnutí vysílačky se trestá.
nummod	číslovka	Jedno kotě spalo.
nummod:gov	číslovka v pádu neshodném se jménem	Pět mužů hrálo karty.
obj	přímý předmět	Cením si vaší pomoci.
obl	jmenné příslovečné určení	Vzduch se tetelil očekáváním* blaha.*
obl:arg	jmenné příslovečné určení ve funkci argumentu	Otec určitě myslel jen na matku* a na seno*.
orphan	závislost na vypuštěném větném členu	Pavel si objednal špenát a Markéta brokolici.
parataxis	vsuvka, nepřímá řeč	„Ten člověk,“ řekl* Honza, „odjel brzy ráno.“*
punct	interpunkce	Máte všecko?
reparandum	oprava chyby v plynulosti řeči	Jděte dopra- doleva.
root	řídící člen věty	Miluju anglickou kuchyni.
vocative	oslovení	Honzo, pojď mi pomoct!
xcomp	obligatorní otevřené doplnění	Doktorka mi doporučila denně cvičit.

Reprezentace syntaktické struktury pomocí odkazů

Kromě odkazu na hlavu jsou u každého tokenu uvedeny i některé další atributy jeho hlavy: lemma, slovní druh, morfologické kategorie, syntaktická funkce.
Token může být vybaven i atributy, které specifikují vlastnosti pomocného slova, které na tokenu závisí.
Podobné prostředky reprezentace syntaktické struktury používají i jiné syntakticky anotované korpusy zpřístupněné v prohlížeči KonText (např. syn2020).

Pomocná slova

Mezi pomocná slova patří podle UD pomocná slovesa, předložky, podřadicí spojky, spona, determinátory a kvantifikátory.
Pomocná slova závisejí na příslušném slově významovém.
Druhy pomocných slov jsou určeny zejména svou syntaktickou funkcí.
Za každé pomocné slovo může být u jeho řídícího slova významového uvedeno lemma, upos, feats a podrobnější specifikace typu type.
Názvy příslušných atributů významového slova se skládají z funkce a atributu pomocného slova.
Např. case_lemma specifikuje u substantiva nebo zájmena lemma předložky.

Koordinace

První člen koordinace závisí na hlavě celé koordinace. Jeho syntaktická funkce určuje syntaktickou funkci celé koordinace.
Druhý a další člen koordinace závisí vždy na prvním členu koordinace. Jejich syntaktická funkce je určena jako conj.
Spojka závisí na následujícím členu koordinace. Její syntaktická funkce je cc.
K identifikaci hlavy bez ohledu na to, zda je token členem koordinace nebo zda je v ní na prvním nebo některém dalším místě, slouží odkaz na tzv. efektivní hlavu.

UD a KonText

Hledání v korpusu

Jednoduchý dotaz

Jednoduchý dotaz na slovní tvar nebo slovní spojení se zadává stejně jako v předchozích verzích InterCorpu.⁶⁾

Dotaz na lemma a morfologickou značku (tag)

Stejně jako v předchozích verzích InterCorpu lze v pokročilém dotazu zadat lemma a morfologickou značku (tag). U většiny lingvisticky anotovaných jazyků (výjimkou jsou be, da, en, fr, hu, no a ru) je možné zadat značku z jazykově specifické sady (národního tagsetu), obvykle totožné se sadou z předchozích verzí InterCorpu pro daný jazyk. Jen je třeba místo atributu tag použít atribut xpos. Např. dotaz na substantiva ženského rodu ve vokativu singuláru v češtině lze tímto způsobem zadat takto: [xpos="NNFS5.*"].
Slovní druh a morfologické kategorie se podle UD uvádějí zvlášť jako hodnoty atributů upos a feats. Jejich hodnoty lze zadat pomocí funkce Vložit tag.
Slovní druhy (upos) jsou stejné pro všechny jazyky. Např. dotaz na vlastní jména lze i bez využití funkce Vložit tag zadat takto: [upos="PROPN"].
Morfologické kategorie se uvádějí jako dvojice <název kategorie>=<hodnota kategorie>. Tyto dvojice jsou uvedeny jako položky seznamu pod atributem feats a jsou oddělené znakem |. Např. u substantiva moře v nominativu jsou morfologické kategorie jako hodnota atributu feats uvedeny takto: Case=Nom|Gender=Neut|Number=Sing|Polarity=Pos. Tvar moře anotovaný tímto způsobem se najde např. na dotaz [upos="NOUN" & feats="Number=Sing"].
Některé kategorie jsou zpřístupněny zároveň i mimo seznam feats, takže stejný dotaz je možné zadat i jednodušeji: [upos="NOUN" & number="Sing"]. Názvy kategorií jsou zde z technických důvodů uvedeny s malým písmenem, včetně např. verb_form místo VerbForm.
Stejné nebo srovnatelné morfologické kategorie i jejich hodnoty se nazývají ve všech jazycích stejně.

Zadávání dotazu na slovní druh a morfologické kategorie pomocí nabídky

Při zadávání pokročilého dotazu lze využít funkci Vložit tag, která umožňuje ve všech lingvisticky anotovaných jazycích vybrat podle nabídky slovní druh a/nebo hodnoty příslušných kategorií (vlastností) ze seznamu feats. Nabídka vlastností se u daného slovního druhu řídí jejich reálným výskytem v korpusu, takže může odrážet i chybné kombinace.

Dotaz na syntaktickou funkci

Syntaktická funkce se u každého tokenu uvádí jako hodnota atributu deprel.
Např. dotaz, který má ukázat výskyty slovesa běhat ve funkci řídícího členu přívlastkové věty, se zadává jako [lemma="běhat" & deprel="acl"].

Výsledky dotazu

Formátovaný text

Po kliknutí na klíčové slovo a Formátovaný text v záhlaví kontextového rámečku se objeví konkordance spolu s nejbližším kontextem v podobě, která se blíží původní typografii textu. Nejsou v ní např. mezery mezi koncem slova a interpunkcí a odstavce jsou odděleny prázdným řádkem.

Zobrazení syntaktické struktury

Po kliknutí na ikonku syntaktické struktury na začátku řádky každé konkordance se zobrazí syntaktická struktura věty. U každého uzlu je uveden slovní tvar, slovní druh a syntaktická funkce slova, které k danému tokenu patří. Po kliknutí na daný uzel se objeví další anotace, zejména lemma daného tvaru.
Vícedílné tokeny jsou rozděleny do více uzlů a slovní tvar pak odpovídá příslušné části tokenu (atributu iword). Po kliknutí na takový uzel se kromě lemmatu dané části vícedětného tokenu objeví i její plná podoba (jako samostatné slovo, atribut sword) a slovní tvar celého tokenu (word).
V textové řádce nad strukturou i ve struktuře se pod kurzorem paralelně zvýrazňují relevantní řetězce a uzly.

Příklady dotazů

[case_lemma="o" & case="Acc"]

– najde jména v akuzativu s předložkou o; lexémy řídícího slovesa zjistíme nejlépe z frekvenční distribuce podle atributu p_lemma

[deprel="obj" & case="Dat" | deprel="conj" & p_deprel="obj" & case="Dat"]

– najde předměty v dativu, i když jsou součástí koordinace

[deprel="nsubj" & upos="PROPN" | deprel="conj" & p_deprel="nsubj" & upos="PROPN"]

– najde vlastní jména ve funkci podmětu, i když jsou součástí koordinace

[upos="NOUN" & case="Ins" & deprel="obj" & p_feats="VerbForm=Inf"]

– najde substantiva v instrumentálu ve funkci předmětu infinitivu; lexémy infinitivu zjistíme nejlépe z frekvenční distribuce podle atributu p_lemma

[feats="Gender=Neut" & feats="Number=Sing" & feats="Tense=Past" & feats="VerbForm=Part" & upos="VERB" & aux_feats="Person=1"]

– najde l-ová příčestí ve tvaru neutra singuláru s pomocným slovesem v první osobě; dotaz na příčestí byl zadán pomocí funkce Vložit tag, stejný výsledek dostaneme následujícím dotazem, který využívá kategoriální atributy mimo feats:

[gender="Neut" & number="Sing" & tense="Past" & verb_form="Part" & upos="VERB" & aux_feats="Person=1"]

1:[lemma="vidět|slyšet"] []* 2:[case="Acc" & deprel="obj"] []* 3:[verb_form="Inf" & deprel="xcomp"] & 2.head=1.id & 3.head=1.id within <s/>

– najde věty se slovesy vidět nebo slyšet, na nichž závisí předmět v akuzativu a infinitiv ve funkci xcomp; mezi těmito tokeny může být libovolný počet jiných slov, ale jen v rámci jedné věty

Legenda k seznamu atributů

V Seznamu atributů podle jazyků jsou pod sebou všechny atributy v korpusu.
Ve sloupcích je uvedeno, zda je atribut využit pro jazyk určený zkratkou v záhlaví.
Atributy jsou rozděleny do čtyř kategorií, odlišených barvou pozadí.

Základní atributy

Těchto 12 atributů je na světle fialovém pozadí.
Obsahují tyto údaje: slovní tvar, lemma, slovní druh, morfologické kategorie, pořadí tokenu ve větě, odkaz na hlavu a syntaktická funkce.
Většinou jsou převzaty přímo z výstupu nástroje UDPipe, který je ve formátu CoNLL-U.
Přidané jsou atributy lc a lc_lemma, které opakují slovní tvar a lemma, ale bez případných velkých písmen.
U jazyků s vícedílnými tokeny (agregáty) jsou navíc také atributy sword a iword.
Atribut sword uvádí slovní tvar agregátu rozdělený znakem „|“ na části, které odpovídají syntaktickým slovům v podobě samostatného slova, tedy např. u tokenu nač nebo abychom je hodnota sword rovna na|co nebo aby|bychom.
Atribut iword dělí agregát na části bez dalších úprav, u tokenu nač nebo abychom je hodnota iword rovna na|č nebo a|bychom.

Strukturní atributy

Těchto 7 atributů je na světle modrém pozadí.
Rozšiřují odkaz na syntaktickou hlavu tokenu (head) o další atributy, usnadňující identifikaci hlavy a orientaci v jejích vlastnostech.
Atributy tohoto typu jsou v plném počtu u všech jazyků.

Atributy pomocných slov

Tyto atributy jsou na světle zeleném pozadí.
Uvádějí se u významového slova s cílem specifikovat podstatné vlastnosti závislého slova pomocného.
Je jejich celkem 20, ale žádný jazyk nevyužívá všechny.
Atributy se týkají 6 druhů pomocných slov, určených jejich syntaktickou funkcí ve vztahu ke slovu významovému.
U každého pomocného slova lze uvést lemma, slovní druh, morfologické kategorie a podtyp pomocného slova.
Název atributu se skládá z názvu syntaktické funkce pomocného slova a názvu jeho vlastnosti (atributu).
Nevyužité nebo málo informativní atributy, vytvořené kombinací funkce a vlastnosti pomocného slova, v daném jazyce nejsou. V žádném jazyce se nevyskytují čtyři z možných kombinací.
Nejvíc jazyků (35) využívá atribut case_lemma (lemma adpozice, nejčastěji předložky), následuje mark_lemma (lemma podřadicí spojky, v 33 jazycích).
Atribut clf_lemma (lemma klasifikátoru) se objevuje jen v čínštině.
Je-li u významového slova více pomocných stejného druhu, jsou jejich hodnoty odděleny znakem „|“.

Atributy vybraných kategorií

Na světle hnědém pozadí je výběr 18 atributů z morfologických kategorií (feats).
Jen lotyština využívá všechny, naopak maltština žádný. Kromě typu jazyka záleží i na dostupnosti kategorie v datech UD.

Chyby a nedostatky lingvistické anotace podle UD

Slovní druh a morfologické kategorie někdy nejsou v souladu
Zásady jednotné klasifikace jevů se neuplatňují ve všech jazycích stejně důsledně
Chyby a nedůslednosti v daném jazyce (např. udělals jako jednodílný token)

Kvalita anotace v různých jazycích se liší zejména objemem a kvalitou trénovacích dat. Má na ni vliv i metoda a nástroj použitý k anotaci.

Uživatelům budeme vděční za každou nahlášenou chybu, nesrovnalost, nedostatek, připomínku a námět na adrese Uživatelské podpory ČNK. V tématu zprávy uveďte prosím na začátku zkratku „UD“.

Poděkování

Děkujeme za možnost využívat následující texty a software:

Texty:

za možnost zařadit do korpusu nejnovější (13. opravené) vydání Českého ekumenického překladu Bible z roku 2016 děkujeme České biblické společnosti, zvláště Petru Fryšovi
beletristické texty v řadě slovanských i jiných jazyků z korpusu ASPAC – Amsterdam Slavic Parallel Aligned Corpus – zvláštní poděkování patří Adrianu Barentsenovi
publicistické texty ve více jazycích z webových stránek Project Syndicate
publicistické texty ve více jazycích ze serveru VoxEurop
právnické texty v jazycích EU z korpusu JRC-ACQUIS
jednání Evropského parlamentu z korpusu EuroParl
slovensko-české konkordance ze Slovenského národního korpusu
povídky ve více jazycích z projektu Můj rok 1989 z Goethe Institutu
za více textů v česko-litevské části korpusu a za práci Jiřího Levého Umění překladu ve více jazycích vděčíme Patricku Cornessovi
román George Orwella 1984 ve více jazycích z korpusu Multext-East
ukrajinské a polské texty z korpusu PolUkr
norské texty z nakladatelství Forlaget Oktober
filmové titulky z databáze Open Subtitles

Předzpracování:

editor paralelních textů InterText (autor Pavel Vondřička)
zarovnávač Hunalign
větný segmentátor pro češtinu (autor Pavel Květoň)
větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
větný segmentátor Punkt pro všechny ostatní jazyky ze sady Natural Language Toolkit

Nástroj na lingvistické značkování:

UDPipe (s poděkováním Janě a Milanovi Strakovým, Danu Zemanovi a Martinu Popelovi)

Jak citovat

Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu www.intercorp.korpus.cz a k odborným publikacím odkaz na tento článek:

ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics. Vol. 13, no. 3, p. 411–427 (bibtex, elektronické vydání na serveru ingentaConnect, verze před tiskem).

Seznam další literatury najdete v Repozitáři bibliografických informací založených na ČNK. Každý odkaz na práci využívající InterCorp je vítán, viz podrobnosti.

Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.:

ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. Korpus InterCorp – čeština ⁷⁾, verze 13ud z 22. 12. 2021. Ústav Českého národního korpusu, FF UK, Praha 2021. Dostupné z WWW: https://kontext.korpus.cz/

Odkazy

Výběr literatury k UD

Marie-Catherine de Marneffe, Christopher Manning, Joakim Nivre, Daniel Zeman (2021): Universal Dependencies. In: Computational Linguistics, ISSN 1530-9312, vol. 47, no. 2, pp. 255-308.

Timothy Baldwin, William Croft, Joakim Nivre, Agata Savary (2021): Universals of Linguistic Idiosyncrasy in Multilingual Computational Linguistics. Report from Dagstuhl Seminar 21351. DOI: 10.4230/DagRep.11.7.89

Daniel Zeman (2018): The World of Tokens, Tags and Trees. ISBN 978-80-88132-09-7.

Úplný seznam najdete zde.

Tutoriály a přednášky o UD

Daniel Zeman: Universal Dependencies and the Slavic Languages. Warszawa, 19.11.2018.

Joakim Nivre, Daniel Zeman, Filip Ginter, Francis M. Tyers: Tutorial on Universal Dependencies: Adding a new language to UD

Anna Nedoluzhko, Michal Novák, Martin Popel, Zdeněk Žabokrtský, Daniel Zeman: Coreference meets Universal Dependencies. Praha, 19/04/2021.

Daniel Zeman: Reflexives in Universal Dependencies. Praha, 04/03/2019.

O korpusu InterCorp s anotací podle UD

Olga Nádvorníková, Alexandr Rosen, Martin Vavřín: InterCorp s jednotnou morfologickou a syntaktickou anotací podle Universal Dependencies: zážitky tvůrců a uživatelů. Praha, 16/11/2021. Video, pdf: zážitky tvůrců, zážitky uživatelů.

Viz též

InterCorp • Verze 13 • Verze 12 • Verze 11 • Verze 10 • Verze 9 • Verze 8 • Verze 7 • Verze 6 • Verze 5 • Verze 4 • Verze 3 • Historie verzí

Původní stránky projektu InterCorp jsou stále zde.

¹⁾

Nástroj využívá všechna data pro daný jazyk, tj. všechny treebanky uvedené na stránce https://lindat.mff.cuni.cz/services/udpipe/IUDPipe. Při zpracování lze i tak zadat parametr, který pro některá rozhodnutí, např. pro tokenizaci, preferuje určitý model. Při anotaci toho korpusu byly zadány tyto modely: arabic-padt-ud-2.6-200830, belarusian-hse-ud-2.6-200830, bulgarian-btb-ud-2.6-200830, catalan-ancora-ud-2.6-200830, chinese-gsdsimp-ud-2.6-200830, croatian-set-ud-2.6-200830, czech-fictree-ud-2.6-200830, danish-ddt-ud-2.6-200830, dutch-alpino-ud-2.6-200830, english-partut-ud-2.6-200830, estonian-edt-ud-2.6-200830, finnish-tdt-ud-2.6-200830, french-gsd-ud-2.6-200830, german-gsd-ud-2.6-200830, greek-gdt-ud-2.6-200830, hebrew-htb-ud-2.6-200830, hindi-hdtb-ud-2.6-200830, hungarian-szeged-ud-2.6-200830, italian-postwita-ud-2.6-200830, japanese-gsd-ud-2.6-200830, latvian-lvtb-ud-2.6-200830, lithuanian-alksnis-ud-2.6-200830, maltese-mudt-ud-2.6-200830, norwegian-nynorsk-ud-2.6-200830, polish-pdb-ud-2.6-200830, portuguese-gsd-ud-2.6-200830, romanian-rrt-ud-2.6-200830, russian-syntagrus-ud-2.6-200830, serbian-set-ud-2.6-200830, slovak-snk-ud-2.6-200830, slovenian-ssj-ud-2.6-200830, spanish-ancora-ud-2.6-200830, swedish-talbanken-ud-2.6-200830, turkish-imst-ud-2.6-200830, ukrainian-iu-ud-2.6-200830, vietnamese-vtb-ud-2.6-200830.

²⁾

Agregáty jsou v těchto jazycích: ar, ca, cs, de, el, en, es, fi, fr, he, it, pl, pt, tr a uk. Seznam všech agregátů pro daný jazyk ukáže frekvenční distribuce slovních tvarů na dotaz [sword=".+\|.+"].

³⁾

Tučně je vyznačen větný člen s danou funkcí. Pokud se tento větný člen skládá z více slov, je podtržené jeho řídící slovo. Právě u takového slova je daná funkce uvedena.

⁴⁾

Rozumí se v pádu neshodném s počítaným jménem.

⁵⁾

Rozumí se v pádu shodném s počítaným jménem.

⁶⁾

V jednoduchém dotazu už není třeba v některých jazycích oddělovat mezerou části agregátu, např. části był, by a m polského aglutinovaného tvaru byłbym nebo is a n't anglické spřežky isn't, a to ani při zadání delšího výrazu (aren't I). Při jednoduchém dotazu na is nebo n't se ale konkordance se spřežkou isn't neukážou.

⁷⁾

Vložte konkrétní jazyky.

Historie: • verze13ud

Obsah