Nastavení

Toto je starší verze dokumentu!


Korpus InterCorp verze 13ud – Universal Dependencies

Název čeština jádro čeština kolekce cizí jazyky jádro cizí jazyky kolekce
Pozice Počet tokenů 141 124 127 117 877 960 391 209 482 1 518 645 852
Počet slovních tvarů 113 934 806 89 973 959 327 497 843 1 219 622 437
Struktury Počet dokumentů 1 657 30 3 994 282
Počet textů 1 657 111 951 3 994 1 843 528
Počet vět 9 782 002 13 606 198 24 318 736 143 196 252
Další informace referenční ANO
reprezentativní NE (různé textové typy)
rok zveřejnění 2021
cizích jazyků 40
tagovaných jazyků 35
jazyky s lemmaty 35
jazyky se syntaktickou anotací 35

Přístup k textům

Po registraci na stránce Prohlášení uživatele korpusů ÚČNK lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.

InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní KonText pomocí speciálního dotazovacího formuláře pro paralelní korpusy.

Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na Martina Vavřína.

Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Od verze 6 dál jsou všechny předchozí verze stále dostupné. Verzi 13, označenou 13ud, zveřejňujeme s lingvistickým značkováním podle standardu Universal Dependencies.

Hlavní rozdíly mezi verzemi 13 a 13ud

  • Z celkového počtu 41 jazyků (včetně češtiny) je ve verzi 13ud lingvisticky anotovaných 36; všechny takové jazyky jsou navíc vybaveny i syntaktickou anotací.
  • Texty jsou ve všech jazycích anotované stejně, a to podle standardu UD (Universal Dependencies).
  • Obecné zásady anotace jsou uvedeny na stránkách projektu UD (UD Guidelines), včetně podrobného popisu:
  • Anotaci provedl u všech jazyků nástroj UDPipe na základě dat vytvořených v projektu UD.1)
  • Údaje o slovním druhu a morfologických kategoriích se v jiných verzích InterCorpu uvádějí jako morfologická značka v atributu tag. U většiny jazyků jsou jazykově specifické morfologické značky zachovány i ve verzi 13ud, a to v atributu xpos. Slovní druh a morfologické kategorie podle UD, označované jednotně u všech jazyků, se ale uvádějí zvlášť jako hodnoty atributu upos (viz níže část Slovní druh) a feats (viz Další kategorie). Často využívané morfologické kategorie ze seznamu feats byly povýšeny na samostatné, tzv. kategoriální atributy na úrovni upos. To se týká např. morfologického pádu a čísla (case, number), jmenného rodu (gender) nebo osoby (person).
  • Pro využití v KonTextu byly agregáty, tj. slovní tvary složené ze dvou nebo i tří syntaktických slov, upraveny do podoby dělených tokenů. V češtině se to týká např. tvarů ses (se+jsi) nebo (o+co). Podrobněji viz níže část Vícedílné tokeny.
  • U každého slova je určena jeho syntaktická funkce (deprel – viz Syntaktické funkce a řídící člen v závislostní syntaktické struktuře, tzv. hlava (head). K usnadnění orientace v této struktuře se uvádějí také odkazy na důležité vlastnosti hlavy (lemma, slovní druh a morfologické kategorie, viz Odkazy na řídící člen). Pokud k významovému slovu patří nějaké slovo pomocné (např. předložka, pomocné sloveso, podřadicí spojka), uvádějí se u významového slova také některé vlastnosti pomocného slova (viz Odkazy na pomocná slova).
  • Jazyky se liší v repertoáru kategoriálních atributů i v odkazech na pomocná slova. Podrobnosti jsou uvedeny v Seznamu atributů podle jazyků, který je popsán níže v Legendě k seznamu atributů.
  • KonText usnadňuje hledání podle slovního druhu a dalších morfologických kategorií pomocí funkce Vložit tag, která do dotazu vkládá slovní druh podle UD (upos) a libovolné kategorie ze seznamu feats. Funkce Vložit tag je dostupná u všech lingvisticky anotovaných jazyků.

Obsah korpusu

InterCorp verze 13ud obsahuje stejné texty jako InterCorp verze 13, obě verze se liší jen v lingvistické anotaci. Údaje o počtu tokenů a slov ve verzi 13ud se však můžou mírně lišit kvůli jinému způsobu tokenizace.

Jádrem korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. kolekce. Ve verzi 13ud jsou k dispozici tyto kolekce:

Tyto texty jsou zarovnány jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. ty, které nemají český protějšek. Některé texty z korpusů Acquis Communautaire a Europarl byly rovněž částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze OpenSubtitles, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Zato byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů. Došlo rovněž k rozdělení Syndicate a PressEurop na jednotlivé ročníky, čímž se navýšil počet dokumentů v kolekcích.

Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 13ud z prosince 2021 činí v zarovnaných cizojazyčných textech 327 milionů slov v jádru a 1 220 milionů slov v kolekcích. V českých textech je v jádru 114 a v kolekcích 90 milionů slov (viz historie verzí). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.

Skladba korpusu podle jednotlivých jazyků – jádro i kolekce


Skladba korpusu podle jednotlivých jazyků – jádro


Skladba korpusu podle jednotlivých jazyků – kolekce


Zkratka Jazyk Jádro Syndicate Presseurop Acquis Europarl Subtitles Bible Celkem
ar arabština 34 0 0 0 0 0 0 34
be běloruština 5 713 0 0 0 0 0 0 5 713
bg bulharština 7 067 0 0 13 582 9 082 0 0 29 732
ca katalánština 8 006 0 0 0 0 0 728 8 735
da dánština 7 122 0 0 20 012 13 800 14 372 656 55 962
de němčina 37 680 4 735 2 506 20 710 13 153 8 388 725 87 897
el řečtina 0 0 0 23 684 15 382 23 562 0 62 628
en angličtina 33 585 4 901 2 685 23 138 15 643 51 589 730 132 270
es španělština 26 553 5 609 2 858 26 270 16 249 36 625 0 114 164
et estonština 0 0 0 14 885 10 899 10 290 0 36 073
fi finština 5 655 0 0 15 260 10 108 15 047 542 46 613
fr francouzština 19 734 5 594 3 041 26 294 17 196 25 996 764 98 619
he hebrejština 0 0 0 0 0 16 050 0 16 050
hi hindština 403 0 0 0 0 0 0 403
hr chorvatština 21 924 0 0 0 0 19 022 570 41 515
hu maďarština 6 441 0 0 17 851 12 188 21 091 0 57 572
is islandština 0 0 0 0 0 1 581 0 1 581
it italština 14 416 1 225 2 709 23 648 15 502 14 765 685 72 949
ja japonština 2 279 0 0 0 0 452 0 2 731
lt litevština 419 0 0 17 175 11 198 555 471 29 819
lv lotyština 2 646 0 0 17 518 11 682 280 537 32 662
mk makedonština 8 881 0 0 0 0 1 877 0 10 758
ms malajština 0 0 0 0 0 3 521 0 3 521
mt maltština 0 0 0 13 805 0 0 0 13 805
nl nizozemština 16 214 812 2 953 23 401 15 556 29 355 717 89 008
no norština 7 753 0 0 0 0 0 724 8 477
pl polština 25 738 0 2 367 19 483 12 663 25 801 576 86 628
pt portugalština 4 981 554 2 782 24 260 15 186 41 452 712 89 927
rn romština 14 0 0 0 0 0 0 14
ro rumunština 4 198 0 2 726 8 044 9 428 33 955 0 58 352
ru ruština 8 662 3 993 0 0 0 6 898 566 20 119
sk slovenština 8 543 0 0 18 397 12 727 5 132 561 45 361
sl slovinština 3 871 0 0 18 513 12 249 17 054 0 51 688
sq albánština 0 0 0 0 0 2 003 0 2 003
sr srbština 11 580 0 0 0 0 20 679 0 32 259
sv švédština 15 790 0 0 19 459 13 778 14 652 638 64 316
tr turečtina 0 0 0 0 0 20 895 0 20 895
uk ukrajinština 11 461 0 0 0 0 244 596 12 301
vi vietnamština 0 0 0 0 0 1 269 0 1 269
zh čínština 135 269 0 0 0 2 292 0 2 696
celkem 327 498 27 692 24 627 405 390 263 669 486 747 11 498 1 547 120
cs čeština 113 935 4 356 2 313 19 189 12 919 50 634 562 203 909
CELKEM 441 433 32 048 26 941 424 579 276 587 537 382 12 060 1 751 029

Pozn. 1: Jazyky uvedené kurzívou nemají lingvistickou anotaci.

Pozn. 2: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.

Morfologická anotace

Slovní druh

  • V UD se slovní druh uvádí odděleně od dalších kategorií jako hodnota atributu upos.
  • Slovní druhy uvedené v upos jsou pro všechny jazyky stejné.
  • Kromě upos se u většiny jazyků uvádí v atributu xpos i jazykově specifická morfologická značka, která je obvykle totožná s odpovídající značkou (atributem tag) z jiných verzí InterCorpu bez anotace podle UD.

Další kategorie

  • Další kategorie jsou zanořeny v atributu feats. Jejich výběr a hodnoty jsou dány slovním druhem a jazykem.
  • Každá kategorie tvoří dvojici „název kategorie = hodnota kategorie“, tedy např. Number=Sg.
  • Stejné nebo srovnatelné morfologické kategorie i jejich hodnoty se nazývají ve všech jazycích stejně.
  • Seznam takových dvojic tvoří hodnotu atributu feats.
  • Kategorie v atributu feats jsou odděleny znakem „|“. Např. u substantiva moře v nominativu jsou morfologické kategorie jako hodnota atributu feats uvedeny takto: Case=Nom|Gender=Neut|Number=Sing|Polarity=Pos. např. ruský tvar школы /'ʂkolɨ/ 'školy' v genitivu singuláru je značkován takto: feats="Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing".
  • V pokročilém dotazu lze pomocí dotazovacího jazyka CQL jednotlivé kategorie zadávat odděleně. Např. tvar moře se najde na dotaz [upos="NOUN" & feats="Number=Sing"]. Ruský tvar se najde na dotaz [upos="NOUN" & feats="Gender=Fem" & feats="Case=Gen"]. Na pořadí kategorií v dotazu nezáleží.
  • S hodnotou atributu feats lze nakládat také pomocí regulárních výrazů jako s řetězcem znaků, např. [upos="NOUN" & feats=".*Case=Gen.*Gender=Fem.*"]. Zde musí pořadí kategorií v dotazu odpovídat jejich pořadí v korpusu. Výsledek je v obou případech stejný.
  • Některé kategorie ze seznamu feats jsou zpřístupněny zároveň na stejné úrovni jako upos i mimo tento seznam jako tzv. kategoriální atributy, takže např. dotaz na substantivum v singuláru je možné zadat i jednodušeji: [upos="NOUN" & number="Sing"]. Podobně i dotaz na ruský tvar vede ke stejnému výsledku jako dva výše uvedené dotazy: [upos="NOUN" & gender="Fem" & case="Gen"]. Kategoriální atributy lze využít při i pro generování frekvenčních seznamů.2) Kategoriální atributy najdete na světle hnědém pozadí v Seznamu atributů podle jazyků nebo v KonTextu v dolní části tabulky zobrazované v Zobrazení / Korpusová nastavení … .
název kategorie glosa příklady hodnot
Abbr zkratka Yes
Animacy životnost Anim, Inan, Hum, Nhum
Aspect vid Imp, Perf, Hab, Iter, Prog, Prosp
Case pád Nom, Gen, Dat, Acc, Voc, Loc, Ins, …
Definite určitost Ind, Def, …
Degree stupeň Pos, Cmp, Sup, Equ, Abs
Foreign cizí slovo Yes
Gender jmenný rod Fem, Masc, Neut, Com
Mood slovesný způsob Ind, Imp, Cnd, …
NumType typ číslovky Card, Ord, Mult, Frac, Sets, …
Number morfologické číslo Sing, Plur, Dual, Ptan, Coll, …
Person osoba 1, 2, 3, …
Polarity polarita Neg, Pos
Polite zdvořilost Infm, Form, Elev, Humb
Poss přivlastňovací tvar Yes
PronType druh zájmena apod. Prs, Rcp, Art, Int, Rel, Exc, Dem, Emp, Tot, Ind
Reflex zvratný tvar Yes
Tense slovesný čas Pres, Past, Fut, Pqp, Imp
Typo chyba Yes
VerbForm slovesný tvar Fin, Inf, Part, Conv, Ger, Vnoun, Sup
Voice slovesný rod Act, Pass, Mid, Cau, …

Vícedílné tokeny

  • Některá slova, tzv. agregáty, se skládají z více částí. V syntaktické struktuře tyto části odpovídají různým uzlům, např. tvar ses se skládá z reflexiva se a klitického tvaru pomocného slovesa s, tvar kdybych z podřadicí spojky kdy a pomocného slovesa bych.
  • Pravopisná podoba těchto slov je v korpusu zachována, jednotlivé části jsou oddělené jen v anotaci – např. v hodnotě atributu lemma, a to znakem „|“. Je tedy možné je hledat tak jako jiná slova, zadáním celého tvaru (v češtině např. ses, v angličtině can't nebo v polštině byłbym) do vyhledávacího rámečku v jednoduchém dotazu, nebo jako hodnotu atributu word v pokročilém dotazu pomocí vyhledávacího jazyka CQL.
  • V některých jazycích, včetně češtiny, může mít část slova v samostatném postavení jinou podobu, např. část s ve slově ses odpovídá tvaru jsi. V anotaci jsou obě podoby: atribut iword uvádí původní tvar se|s, atribut sword uvádí nezkrácenou, „rekonstruovanou“ verzi tvaru se|jsi.3)
  • V češtině jde např. o tyto další tvary abychom (a|bychomaby|bychom),4) bylas (byla|sbyla|jsi) nebo (o|čo|co), v angličtině isn't (is|n'tis|not) nebo cannot (can|not), v němčině zur (zu|rzu|der) nebo am (a|man|dem), v polštině miałam (miała|m), żebyś (że|by|ś) nebo chciałbym (chciał|by|m), ve francouzštině des (de|sde|les), aux (au|xà|les) nebo auquel (au|quelà|lequel).

Syntaktická anotace

Syntaktické funkce

  • U každého tokenu je uvedena závislostní syntaktická funkce (deprel) a odkaz na syntakticky řídící slovo, tj. na hlavu (head).
  • V níže uvedené tabulce se pro lepší orientaci rozlišují typem písma syntaktické funkce čtyř typů:
    • Obvyklé syntaktické funkce jsou uvedeny tučně.
    • Funkce určené pro pomocná slova jsou uvedeny tučnou kurzívou.
    • Funkce umožňující zachytit v závislostní syntaktické struktuře koordinaci a podobné jevy nebo mají čistě technickou povahu jsou uvedeny kurzívou.
    • Funkce, které se v češtině nevyužívají, jsou uvedeny šedě.
  • V některých jazycích mohou mít některé funkce podtypy. Název podtypu je uveden po dvojtečce za názvem typu, např. acl:relcl označuje přívlastek vyjádřený vztažnou větou. Níže uvedený seznam obsahuje pouze podtypy relevantní pro češtinu a zastoupené v korpusu. Funkce s podtypy pro všechny jazyky jsou uvedeny na stránce Universal Dependency Relations.
  • Při zadávání dotazu na funkci, která může mít nějaký podtyp, je třeba s případným podtypem počítat. Použijeme-li v pokročilém dotazu např. výraz deprel="acl.*", najdou se nám všechna slova s funkcí acl, bez ohledu na to, zda mají nebo nemají podtyp. Chceme-li najít všechna pomocná slovesa, je třeba místo pouhého deprel="aux" použít výraz deprel="aux.*". Všechny podměty najdeme výrazem deprel="nsubj.*".
  • U koordinovaných větných členů najdeme takto jen první člen koordinace. Druhý a další člen je označen jako deprel="conj". Syntaktickou funkci celé koordinace lze zjistit z atributu deprel prvního členu, který je hlavou ostatních, tedy pomocí atributu p_deprel. Podrobněji viz dále Koordinace.
  • Seznam všech funkcí a jejich podtypů lze pro libovolný jazyk zobrazit v prohlížeči KonText. Vyberte konkrétní jazykový subkorpus, klikněte na Dotaz v horní liště a v nabídce zvolte Seznam slov. V rámečku za Hledat podle atributu nastavte možnost deprel. Pak klikněte dole na Vytvořit seznam slov. Funkce jsou seřazeny podle frekvence. Chcete-li je seřadit podle abecedy, klikněte na záhlaví sloupce deprel. Seznam obsahuje samostatné položky pro vícedílné tokeny s oddělovačem „|“.
deprel glosa příklad5)
acl přívlastek jako finitní i nefinitní klauze, nevazebný dopolněk Mám dojem, že bych nepřepral ani hraboše. Nikdy jsem ji neviděl naštvanou.
acl:relcl vztažná věta Nevěří tomu, co vidí.
advcl vedlejší věta příslovečná Spěchal, aby přišel včas.
advmod adverbiální příslovečné určení geneticky upravené potraviny
advmod:emph zdůrazňovací slovo, intensifikátor Trvalo to sotva pár vteřin.
amod adjektivní (shodný) přívlastek Václav si vzal třímilionovou půjčku.
appos apozice (přístavek) Přijel Michal, můj bratr.
aux pomocné sloveso Mohli byste přijet už příští týden?
aux:pass pomocné sloveso trpného rodu Výstrahy byly bohužel oslyšeny.
case předložka Bydlím na samotě.
cc souřadicí spojka Je to mladý a nadějný chlapík.
ccomp obligatorní větné doplnění Ještě včera hlásili, že pršet nebude.
clf klasifikátor 学生 sān xuéshēng
compound nefinální části složené číslovky Bude to stát padesát pět tisíc korun.
conj další člen koordinace Teta včera večer přijela, přespala a ráno zase odjela.
cop spona Lenka je v kondici.
csubj větný podmět Obžalovanému přitížilo, že neměl alibi.
csubj:pass větný podmět pasiva Jak se pozná, že je to správně?
dep nespecifikovaná závislost Rozhlédl se na druhou.
det determinace Která kniha se vám líbí nejvíc?
det:numgov zájmenná číslovka v neshodném pádu 6) Mimoto bylo nablízku několik dalších králíků.
det:nummod zájmenná číslovka ve shodném pádu 7) V městě se na mnoha místech objevily plameny.
discourse diskursní výraz čemu že se to zpronevěřily
dislocated extrapozice Dumplings I like.
expl:pass zvratné zájmeno ve zvratném pasivu S tím se nedalo nic dělat.
expl:pv zvratná částice u reflexiva tantum Ona se občas tak legračně dívá.
fixed další části víceslovného výrazu ve srovnání například s úvěry
flat další části označení osoby Nejlépe to vyjádřil papež Jan Pavel II.
flat:foreign další části cizího víceslovného výrazu Summum ius, summa iniuria je estetická maxima.
goeswith další část chybně rozděleného tvaru Zastavil se a z těžka oddychoval.
iobj nepřímý předmět Vysvětlila studentům svůj plán.
list další části seznamu Steve Jones tel.: 555-9814 e-mail: jones@abc.edf
mark podřadicí spojka Nevěděli jsme, že babička není doma.
nmod jmenný (neshodný) přívlastek kancelář ředitele
nsubj jmenný podmět Auto je červené.
nsubj:pass podmět věty se slovesem v trpném rodě Vypnutí vysílačky se trestá.
nummod číslovka Jedno kotě spalo.
nummod:gov číslovka v pádu neshodném se jménem Pět mužů hrálo karty.
obj přímý předmět Cením si vaší pomoci.
obl jmenné příslovečné určení Vzduch se tetelil očekáváním blaha.
obl:arg jmenné příslovečné určení ve funkci argumentu Otec určitě myslel jen na matku.
orphan závislost na vypuštěném větném členu Pavel si objednal špenát a Markéta brokolici.
parataxis vsuvka, uvozovací věta „Ten člověk,“ řekl Honza, „odjel brzy ráno.“
punct interpunkce Máte všecko?
reparandum oprava chyby v plynulosti řeči Jděte dopra- doleva.
root řídící člen věty Miluju anglickou kuchyni.
vocative oslovení Honzo, pojď mi pomoct!
xcomp adjektivum nebo sloveso jako obligatorní doplnění s nevyjádřeným podmětem Doktorka mi doporučila denně cvičit.

Odkazy na řídící člen

  • Kromě odkazu na hlavu (head jako slovosledné pořadí hlavy ve větě nebo parent jako její relativní pozice vůči danému slovu) jsou u každého tokenu uvedeny i některé další atributy jeho hlavy: lemma (p_lemma), slovní druh (p_upos), morfologické kategorie (p_feats) a syntaktická funkce (p_deprel).
  • Token může být vybaven i atributy, které specifikují vlastnosti pomocného slova, které na tokenu závisí. Např. lemma předložky je určeno atributem case_lemma, morfologické kategorie pomocného slovesa atributem aux_feats, morfologické kategorie spony atributem cop_feats, slovní druh determinátoru atributem det_upos, lemma podřadicí spojky atributem mark_lemma.
  • Podobné prostředky reprezentace syntaktické struktury používají i jiné syntakticky anotované korpusy zpřístupněné v prohlížeči KonText (např. syn2020).

Odkazy na pomocná slova

  • Mezi pomocná slova patří podle UD pomocná slovesa, předložky, podřadicí spojky, spona, determinátory a kvantifikátory.
  • Pomocná slova závisejí na příslušném slově významovém.
  • Druhy pomocných slov jsou určeny svou syntaktickou funkcí, tedy hodnotou atributu deprel: aux (pomocná slovesa), case (předložky), mark (podřadicí spojky), cop (spona), det (determinátor, člen) a clf (klasifikátory).
  • Za každé pomocné slovo může být u jeho řídícího slova významového uvedeno lemma, upos, feats a podrobnější specifikace druhu pomocného slova type, např. aux_type="pass" (viz passive auxiliary) nebo det_type="numgov" (viz pronominal quantifier governing the case of the noun).
  • Názvy příslušných atributů významového slova se skládají z funkce a atributu pomocného slova. Např. case_lemma specifikuje u substantiva nebo zájmena lemma předložky, aux_feats u slovesa významového specifikuje morfologické kategorie pomocného slovesa.
  • Na jednom významovém slově může záviset více slov pomocných, např. u minulého kondicionálu i tři (byl bych býval zůstal doma). V příslušném atributu se pak objeví hodnoty ze všech pomocných slov, oddělené znakem „|“. Hodnoty atributu feats od více pomocných sloves závislých na jednom významovém se spojí do jedné hodnoty, kde se některé kategorie, např. specifikace slovesného tvaru, mohou opakovat, protože pocházejí od více než jednoho tvaru. Např. ve větě kdo by to byl tušil se aux_feats významového slovesa tušil skládá z feats pomocných sloves by (Mood=Cnd|VerbForm=Fin) a byl (Animacy=Anim|Gender=Masc|Number=Sing|Polarity=Pos|Tense=Past|VerbForm=Part|Voice=Act).

Koordinace

  • První člen koordinace závisí na hlavě celé koordinace. Jeho syntaktická funkce určuje syntaktickou funkci celé koordinace.
  • Druhý a další člen koordinace závisí vždy na prvním členu koordinace. Jejich syntaktická funkce je určena jako conj.
  • Spojka závisí na následujícím členu koordinace. Její syntaktická funkce je cc.
  • K identifikaci hlavy bez ohledu na to, zda je token členem koordinace nebo zda je v ní na prvním nebo některém dalším místě, slouží odkaz na tzv. efektivní hlavu: atribut e_id odkazuje na její identifikátor (pořadové číslo tokenu představujícího hlavu v rámci věty), atribut eparent na její relativní pozici vůči danému tokenu.
  • Chceme-li vyhledat všechna slova s určitou syntaktickou funkcí, včetně těch, které jsou součástí koordinace, můžeme využít atribut p_deprel, který ukazuje syntaktickou funkci hlavy daného tokenu. Např. dotaz na všechny nepřímé předměty, včetně koordinovaných, tak můžeme formulovat pomocí operátoru disjunkce (|) takto: [deprel="obj" | deprel="conj" & p_deprel="obj"].

UD a KonText

Hledání v korpusu

Jednoduchý dotaz

  • Jednoduchý dotaz na slovní tvar nebo slovní spojení se zadává stejně jako v předchozích verzích InterCorpu.8)

Dotaz na lemma a morfologickou značku (tag)

  • Stejně jako v předchozích verzích InterCorpu lze v pokročilém dotazu zadat lemma a morfologickou značku (tag). U většiny lingvisticky anotovaných jazyků (výjimkou jsou be, da, en, fr, hu, no a ru) je možné zadat značku z jazykově specifické sady (národního tagsetu), obvykle totožné se sadou z předchozích verzí InterCorpu pro daný jazyk. Jen je třeba místo atributu tag použít atribut xpos (u jazyků be, da, en, fr, hu, no a ru tento atribut chybí). Např. dotaz na substantiva ženského rodu ve vokativu singuláru v češtině lze tímto způsobem zadat takto: [xpos="NNFS5.*"].
  • Slovní druh a morfologické kategorie se podle UD uvádějí zvlášť jako hodnoty atributů upos a feats. Jejich hodnoty lze zadat pomocí funkce Vložit tag.
  • Slovní druhy (upos) jsou stejné pro všechny jazyky. Např. dotaz na vlastní jména lze i bez využití funkce Vložit tag zadat takto: [upos="PROPN"].
  • Další morfologické kategorie jsou uvedeny v atributu feats nebo samostatně jako kategoriální atributy. Podrobněji výše viz Další kategorie.

Zadávání dotazu na slovní druh a morfologické kategorie pomocí nabídky

  • Při zadávání pokročilého dotazu lze využít funkci Vložit tag, která umožňuje ve všech lingvisticky anotovaných jazycích vybrat podle nabídky slovní druh a/nebo hodnoty příslušných kategorií (vlastností) ze seznamu feats. Nabídka vlastností se u daného slovního druhu řídí jejich reálným výskytem v korpusu, takže může odrážet i chybné kombinace.

Dotaz na syntaktickou funkci

  • Syntaktická funkce se u každého tokenu uvádí jako hodnota atributu deprel (viz Syntaktické funkce).
  • Např. dotaz, který má ukázat výskyty slovesa běhat ve funkci řídícího členu přívlastkové věty, se zadává jako [lemma="běhat" & deprel="acl"]. Mezi výsledky najdeme např. větu Copak máme čas běhat každý den pro vodu se dždánem ke studni nebo chodit do potoka? nebo Vlk musel uznat, že ještě nikdy za celou tu dobu, co běhá po lese a po polích, neviděl nic tak roztomilého.9)

Výsledky dotazu

Formátovaný text

  • Po kliknutí na klíčové slovo a Formátovaný text v záhlaví kontextového rámečku se objeví konkordance spolu s nejbližším kontextem v podobě, která se blíží původní typografii textu. Nejsou v ní např. mezery mezi koncem slova a interpunkcí a odstavce jsou odděleny prázdným řádkem.

Zobrazení syntaktické struktury

  • Po kliknutí na ikonku syntaktické struktury na začátku řádky každé konkordance se zobrazí syntaktická struktura věty. U každého uzlu je uveden slovní tvar (hodnota atributu word), slovní druh a syntaktická funkce slova, které k danému tokenu patří. Po kliknutí na daný uzel se objeví další anotace, zejména lemma daného tvaru.
  • Vícedílné tokeny jsou rozděleny do více uzlů a slovní tvar pak odpovídá příslušné části tokenu (atributu iword). Např. token je rozdělen na části o a č. Po kliknutí na takový uzel (např. na č) se kromě lemmatu dané části vícedílného tokenu (co) objeví i její plná podoba (jako samostatné slovo, atribut sword, zde opět co) a slovní tvar celého tokenu (word, zde ).
  • V textové řádce nad strukturou i ve struktuře se pod kurzorem paralelně zvýrazňují relevantní řetězce a uzly.

Příklady dotazů

Dotazy ukazují zejména možnosti využití syntaktických funkcí ve spojení se slovními druhy a morfologickými kategoriemi, ale obsahují také odkazy na syntakticky řídící členy a závislá pomocná slova. Většina dotazů se týká češtiny, ale jsou použitelné i v jiných jazycích. Typ jazyka může vyžadovat menší či větší úpravy dotazu. Dotazy lze zadávat v jednom jazyce, nebo paralelně ve dvou i více jazycích.

Kdo nejčastěji zpívá?

[deprel="nsubj" & p_lemma="zpívat"]
  • Tento dotaz hledá podměty slovesa zpívat. Najde např. větu Vaše sestřenice zpívá opravdu krásně.
  • Nejčastější lexémy ve funkci podmětu slovesa zpívat zjistíme z frekvenční distribuce podle lemmat klíčového slova (v menu KonTextu: Frekvence / Lemmata).

Co dělají ptáci nejčastěji?

[deprel="nsubj" & lemma="pták"]
  • Tento dotaz hledá tvary lexému pták ve funkci podmětu. Najde např. větu Několik ptáků znechuceně odletělo.
  • Nejčastější lexémy řídícího slovesa podmětu zjistíme nejlépe z frekvenční distribuce podle atributu p_lemma (v menu KonTextu: Frekvence / Vlastní... / Atribut: p_lemma).

Předložkové pády

[case="Acc" & case_lemma="o"]
  • Tento dotaz najde všechna jména, tj. slova, která se skloňují (mají pád), tedy substantiva, zájmena a adjektiva; pádem má být akuzativ a dané jméno následuje po předložce o (lemma závislého pomocného slova se syntaktickou funkcí case je o).
  • Najdeme tak např. větu Dědovy holínky pleskaly o dlaždičky.
  • Vzhledem k tomu, že údaj o předložce bývá uveden jen u substantiv nebo zájmen, ve výsledku by se adjektiva neměla objevit.
  • Nejčastější lexémy řídícího slovesa předložkového pádu zjistíme nejlépe z frekvenční distribuce podle atributu p_lemma, tedy lemmatu hlavy daného tokenu (v menu KonTextu: Frekvence / Vlastní... / Atribut: p_lemma).

Přímé předměty v dativu, i v koordinaci

[case="Dat" & deprel="obj" | case="Dat" & deprel="conj" & p_deprel="obj"]
  • Tento dotaz najde přímé předměty v dativu, i když jsou součástí koordinace, např. ve větě Chytil chřipku, které v novinách říkali „ruská“. nebo Není jiná možnost, než je ukrást mamce, jejímu manželovi a babičce.
  • U koordinovaných předmětů je každý z nich v samostatné konkordanci.
  • Buď je v dativu s funkcí přímého předmětu klíčové slovo (case="Dat" & deprel="obj"), nebo má klíčové slovo v dativu (case="Dat") funkci conj (deprel="conj") a závisí na uzlu s funkcí přímého předmětu (p_deprel="obj"). To znamená, že je druhým nebo dalším členem koordinace, která má celá funkci obj.

Vlastní jména jako podmět, i v koordinaci

[deprel="nsubj" & upos="PROPN" | deprel="conj" & p_deprel="nsubj" & upos="PROPN"]
  • Tento dotaz najde vlastní jména ve funkci podmětu, i když jsou součástí koordinace.
  • Např. ve větě Evropa a Japonsko se v mnohém cítí stejně ukřivděně jako Trump. se ve výsledcích objeví Evropa i Japonsko.

Předměty infinitivu v instrumentálu

[upos="NOUN" & case="Ins" & deprel="obj" & p_feats="VerbForm=Inf"]
  • Tento dotaz najde substantiva v instrumentálu ve funkci přímého předmětu infinitivu, např. ve větě snažil se ji potěšit dárky.
  • Lexémy infinitivu zjistíme nejlépe z frekvenční distribuce podle atributu p_lemma, tedy lemmatu hlavy klíčového slova (v menu KonTextu: Frekvence / Vlastní... / Atribut: p_lemma).

Slovesa v 1. osobě singuláru minulého času

[feats="Gender=Neut" & feats="Number=Sing" & feats="Tense=Past" & upos="VERB" & aux_feats="Person=1" & aux_feats="Mood=Ind"]
  • Tento dotaz najde l-ová příčestí pro minulý čas ve tvaru neutra singuláru s pomocným slovesem v první osobě, např. ve větě „To jsem rádo,“ řeklo Prasátko, „že jsem ti dalo něco, co se dá uložit do užitečné nádoby.“
  • UD v češtině u l-ového příčestí nerozlišuje, zda jde o tvar minulého času nebo podmiňovacího způsobu, v obou případech je ve feats údaj Tense=Past. Proto je třeba v dotazu uvést kromě osoby pomocného slovesa aux_feats="Person=1" i jeho způsob: aux_feats="Mood=Ind".
  • Dotaz na příčestí byl zadán pomocí funkce Vložit tag, která do dotazu vkládá specifikace ze seznamu feats.
  • Stejný výsledek dostaneme i následujícím dotazem, který využívá kategoriální atributy mimo feats:
[gender="Neut" & number="Sing" & tense="Past" & upos="VERB" & aux_feats="Person=1" & aux_feats="Mood=Ind"]

Konstrukce akuzativu s infinitivem

1:[lemma="vidět|slyšet"] []* 2:[case="Acc" & deprel="obj"] []* 3:[verb_form="Inf" & deprel="xcomp"] & 2.head=1.id & 3.head=1.id within <s/>
  • Tento dotaz najde věty se slovesy vidět nebo slyšet, na nichž závisí přímý předmět v akuzativu a infinitiv ve funkci xcomp. Mezi těmito tokeny může být libovolný počet jiných slov, ale jen v rámci jedné věty, např. ve větě Ale byl sám a slyšel mladíkovy kroky stoupat po schodech.
  • Dotaz obsahuje tzv. globální podmínku, která v tomto dotazu specifikuje syntaktické závislosti mezi třemi očíslovanými tokeny.
  • Výraz 2.head=1.id zajišťuje, že předmět závisí na daných slovesech (odkaz na hlavu předmětu musí mít stejnou hodnotu jako identifikátor slovesa vidět nebo slyšet). Výraz 3.head=1.id pak zajišťuje, že na daných slovesech závisí také infinitiv.

Minulý kondicionál v činném rodě

[voice="Act" & aux_feats="Mood=Cnd" & aux_feats="Tense=Past"]
  • Tento dotaz najde věty se slovesem v rodě činném a podmiňovacím způsobu minulém, tedy např. větu Kdo by to byl tušil, …
  • U významového slovesa stačí údaj o činném rodě voice="Act", slovesný tvar (l-ové příčestí) je určen tím, že na slovese má záviset kondicionálový auxiliár by (aux_feats="Mood=Cnd").
  • Další výraz (aux_feats="Tense=Past"]) se týká druhého pomocného slovesa byl. Hodnoty feats obou pomocných sloves jsou atributu aux_feats spojeny do jedné (viz výše Odkazy na pomocná slova).
  • Dotaz najde i věty typu Kdybych to byl tušil, …, přestože se může zdát, že věta kondicionálový auxiliár neobsahuje. Token kdybych je však rozdělen na podřadicí spojku kdy a pomocné sloveso bych, jehož kategorie se promítnou do anotace významového slovesa podobně jako kategorie tvaru by, tedy včetně specifikace Mood=Cnd.

Minulý kondicionál v trpném rodě

[voice="Pass" & aux_feats="Mood=Cnd" & aux_feats=".*Tense=Past.*Tense=Past.*"]
  • Tento dotaz najde věty se slovesem v rodě trpném a podmiňovacím způsobu minulém, tedy např. větu … aféra by byla bývala ututlána.
  • Sloveso ve tvaru opisného pasiva má adjektivní lemma, tedy např. ututlaný, slovní druh upos=ADJ a morfologické kategorie feats="...Variant=Short|VerbForm=Part|Voice=Pass".10)
  • Hodnoty atributu feats od více pomocných sloves závislých na jednom významovém jsou spojené do jedné hodnoty, kde se např. specifikace kategorie času může opakovat, protože pochází od více než jednoho tvaru. V tomto případě od dvou pomocných sloves byla a bývala. Právě toho využívá tento dotaz.
  • Pokud bychom při dotazu na trpný rod uvedli pouze [aux_feats="Tense=Past"], dostali bychom i tvary podmiňovacího způsobu přítomného, v němž se l-ové příčestí objevuje pouze jednou jako pomocné sloveso trpného rodu (… aféra by byla ututlána.)

Negace významového slovesa, vyjádřená také negací slovesa pomocného

[upos="VERB" & deprel!="aux" & (polarity="Neg" | aux_feats="Polarity=Neg")]
  • Tento dotaz najde významová slovesa s prefixem ne- nebo s pomocným slovesem, které má tento prefix, např. … zase tak moc jsem od tebe nechtěla; nebudu dělat nic.
  • Významové sloveso, jehož syntaktická funkce není aux (deprel!="aux") je buď negované samo (polarity="Neg"), nebo je negované jeho pomocné sloveso (aux_feats="Polarity=Neg").

Průběhové perfektum v angličtině

[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part"]
  • Tento dotaz najde věty se slovesem v průběhovém perfektu (přítomném i minulém), např. … has been constantly increasing in velocity.
  • Specifikace VerbForm=Fin se týká pomocného slovesa has a VerbForm=Part druhého pomocného slovesa been. Oba výrazy jsou součástí jedné hodnoty atributu aux_feats.
  • Chceme-li najít pouze tvary minulého průběhového perfekta, nestačí přidat aux_feats="Tense=Past", protože tento údaj obsahuje i pomocné sloveso been. K zadání hodnoty aux_feats je tedy třeba použít regulární výraz, stejně jako v českém příkladu Minulý kondicionál v trpném rodě, viz následující dotaz:11)
[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part" & aux_feats=".*Tense=Past.*Tense=Past.*"]
  • Naopak k vyhledání pouze přítomných tvarů průběhové perfekta stačí přidat výraz aux_feats="Tense=Pres", který se v aux_feats vyskytuje jen jednou, a to u finitního tvaru pomocného slovesa have, viz následující dotaz:
[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part" & aux_feats="Tense=Pres"]

Legenda k seznamu atributů

  • V Seznamu atributů podle jazyků jsou pod sebou všechny atributy v korpusu.
  • Ve sloupcích je uvedeno, zda je atribut využit pro jazyk určený zkratkou v záhlaví.
  • Atributy jsou rozděleny do čtyř kategorií, odlišených barvou pozadí.

Základní atributy

  • Těchto 12 atributů je na světle fialovém pozadí.
  • Obsahují tyto údaje: slovní tvar, lemma, slovní druh, morfologické kategorie, pořadí tokenu ve větě, odkaz na hlavu a syntaktická funkce.
  • Většinou jsou převzaty přímo z výstupu nástroje UDPipe, který je ve formátu CoNLL-U.
  • Přidané jsou atributy lc a lc_lemma, které půodobně jako v jiných korpusech ČNK opakují slovní tvar a lemma, ale bez případných velkých písmen.
  • U jazyků s vícedílnými tokeny (agregáty) jsou navíc také atributy sword a iword.
  • Atribut sword uvádí slovní tvar agregátu rozdělený znakem „|“ na části, které odpovídají syntaktickým slovům v podobě samostatného slova, tedy např. u tokenu nač nebo abychom je hodnota sword rovna na|co nebo aby|bychom.
  • Atribut iword dělí agregát na části bez dalších úprav, u tokenu nač nebo abychom je hodnota iword rovna na|č nebo a|bychom.

Strukturní atributy

  • Těchto 7 atributů je na světle modrém pozadí.
  • Rozšiřují odkaz na syntaktickou hlavu tokenu (head) o další atributy, usnadňující identifikaci hlavy a orientaci v jejích vlastnostech, např. na její lemma (p_lemma), slovní druh (p_upos) nebo syntaktickou funkci (p_deprel).
  • Atributy tohoto typu jsou v plném počtu u všech jazyků.

Atributy pomocných slov

  • Tyto atributy jsou na světle zeleném pozadí.
  • Uvádějí se u významového slova s cílem specifikovat podstatné vlastnosti závislého slova pomocného.
  • Je jejich celkem 20, ale žádný jazyk nevyužívá všechny.
  • Atributy se týkají 6 druhů pomocných slov, určených jejich syntaktickou funkcí ve vztahu ke slovu významovému, např. pomocných sloves (aux), předložek (case) nebo podřadicích spojek (mark).
  • U každého pomocného slova lze uvést lemma, slovní druh, morfologické kategorie a podtyp pomocného slova.
  • Název atributu se skládá z názvu syntaktické funkce pomocného slova a názvu jeho vlastnosti (atributu), např. case_lemma je název atributu pro lemma předložky.
  • Nevyužité nebo málo informativní atributy, vytvořené kombinací funkce a vlastnosti pomocného slova, v daném jazyce nejsou. V žádném jazyce se nevyskytují čtyři z možných kombinací.
  • Nejvíc jazyků (35) využívá atribut case_lemma (lemma adpozice, nejčastěji předložky), následuje mark_lemma (lemma podřadicí spojky, v 33 jazycích).
  • Atribut clf_lemma (lemma klasifikátoru) se objevuje jen v čínštině.
  • Je-li u významového slova více pomocných stejného druhu (např. více pomocných sloves u minulého kondicionálu), jsou jejich hodnoty odděleny znakem „|“.

Atributy vybraných kategorií

  • Na světle hnědém pozadí je výběr 18 atributů z morfologických kategorií (feats).
  • Jen lotyština využívá všechny, naopak maltština žádný. Kromě typu jazyka záleží i na dostupnosti kategorie v datech UD.

Chyby a nedostatky lingvistické anotace podle UD

  • Slovní druh (upos) a morfologické kategorie (feats) někdy nejsou v souladu.
  • Zásady jednotné klasifikace jevů se neuplatňují ve všech jazycích stejně důsledně.
  • Chyby a nedůslednosti v daném jazyce (např. udělals jako jednodílný token).

Kvalita anotace v různých jazycích se liší zejména objemem a kvalitou trénovacích dat. Má na ni vliv i metoda a nástroj použitý k anotaci.

Uživatelům budeme vděční za každou nahlášenou chybu, nesrovnalost, nedostatek, připomínku a námět na adrese Uživatelské podpory ČNK. V tématu zprávy uveďte prosím na začátku zkratku „UD“.

Poděkování

Děkujeme za možnost využívat následující texty a software:

Texty:

  • za možnost zařadit do korpusu nejnovější (13. opravené) vydání Českého ekumenického překladu Bible z roku 2016 děkujeme České biblické společnosti, zvláště Petru Fryšovi
  • beletristické texty v řadě slovanských i jiných jazyků z korpusu ASPAC – Amsterdam Slavic Parallel Aligned Corpus – zvláštní poděkování patří Adrianu Barentsenovi
  • publicistické texty ve více jazycích z webových stránek Project Syndicate
  • publicistické texty ve více jazycích ze serveru VoxEurop
  • právnické texty v jazycích EU z korpusu JRC-ACQUIS
  • jednání Evropského parlamentu z korpusu EuroParl
  • slovensko-české konkordance ze Slovenského národního korpusu
  • povídky ve více jazycích z projektu Můj rok 1989 z Goethe Institutu
  • za více textů v česko-litevské části korpusu a za práci Jiřího Levého Umění překladu ve více jazycích vděčíme Patricku Cornessovi
  • román George Orwella 1984 ve více jazycích z korpusu Multext-East
  • ukrajinské a polské texty z korpusu PolUkr
  • norské texty z nakladatelství Forlaget Oktober
  • filmové titulky z databáze Open Subtitles

Předzpracování:

  • editor paralelních textů InterText (autor Pavel Vondřička)
  • zarovnávač Hunalign
  • větný segmentátor pro češtinu (autor Pavel Květoň)
  • větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
  • větný segmentátor Punkt pro všechny ostatní jazyky ze sady Natural Language Toolkit

Nástroj na lingvistické značkování:

  • UDPipe (s poděkováním Janě a Milanovi Strakovým, Danu Zemanovi a Martinu Popelovi)

Jak citovat

Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu www.intercorp.korpus.cz a k odborným publikacím odkaz na tento článek:

ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics. Vol. 13, no. 3, p. 411–427 (bibtex, elektronické vydání na serveru ingentaConnect, verze před tiskem).

Seznam další literatury najdete v Repozitáři bibliografických informací založených na ČNK. Každý odkaz na práci využívající InterCorp je vítán, viz podrobnosti.

Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.:

ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. Korpus InterCorp – čeština12), verze 13ud z 22. 12. 2021. Ústav Českého národního korpusu, FF UK, Praha 2021. Dostupné z WWW: https://kontext.korpus.cz/

Odkazy

Výběr literatury k UD

Marie-Catherine de Marneffe, Christopher Manning, Joakim Nivre, Daniel Zeman (2021): Universal Dependencies. In: Computational Linguistics, ISSN 1530-9312, vol. 47, no. 2, pp. 255-308.

Timothy Baldwin, William Croft, Joakim Nivre, Agata Savary (2021): Universals of Linguistic Idiosyncrasy in Multilingual Computational Linguistics. Report from Dagstuhl Seminar 21351. DOI: 10.4230/DagRep.11.7.89

Daniel Zeman (2018): The World of Tokens, Tags and Trees. ISBN 978-80-88132-09-7.

Úplný seznam najdete zde.

Tutoriály a přednášky o UD

Daniel Zeman: Universal Dependencies and the Slavic Languages. Warszawa, 19.11.2018.

Joakim Nivre, Daniel Zeman, Filip Ginter, Francis M. Tyers: Tutorial on Universal Dependencies: Adding a new language to UD

Anna Nedoluzhko, Michal Novák, Martin Popel, Zdeněk Žabokrtský, Daniel Zeman: Coreference meets Universal Dependencies. Praha, 19/04/2021.

Daniel Zeman: Reflexives in Universal Dependencies. Praha, 04/03/2019.

O korpusu InterCorp s anotací podle UD

Olga Nádvorníková, Alexandr Rosen, Martin Vavřín: InterCorp s jednotnou morfologickou a syntaktickou anotací podle Universal Dependencies: zážitky tvůrců a uživatelů. Praha, 16/11/2021. Video, pdf: zážitky tvůrců, zážitky uživatelů.

Viz též

InterCorpVerze 13Verze 12Verze 11Verze 10Verze 9Verze 8Verze 7Verze 6Verze 5Verze 4Verze 3Historie verzí

Původní stránky projektu InterCorp jsou stále zde.

1)
Nástroj využívá všechna data pro daný jazyk, tj. všechny treebanky uvedené na stránce https://lindat.mff.cuni.cz/services/udpipe/IUDPipe. Při zpracování lze i tak zadat parametr, který pro některá rozhodnutí, např. pro tokenizaci, preferuje určitý model. Při anotaci toho korpusu byly zadány tyto modely: arabic-padt-ud-2.6-200830, belarusian-hse-ud-2.6-200830, bulgarian-btb-ud-2.6-200830, catalan-ancora-ud-2.6-200830, chinese-gsdsimp-ud-2.6-200830, croatian-set-ud-2.6-200830, czech-fictree-ud-2.6-200830, danish-ddt-ud-2.6-200830, dutch-alpino-ud-2.6-200830, english-partut-ud-2.6-200830, estonian-edt-ud-2.6-200830, finnish-tdt-ud-2.6-200830, french-gsd-ud-2.6-200830, german-gsd-ud-2.6-200830, greek-gdt-ud-2.6-200830, hebrew-htb-ud-2.6-200830, hindi-hdtb-ud-2.6-200830, hungarian-szeged-ud-2.6-200830, italian-postwita-ud-2.6-200830, japanese-gsd-ud-2.6-200830, latvian-lvtb-ud-2.6-200830, lithuanian-alksnis-ud-2.6-200830, maltese-mudt-ud-2.6-200830, norwegian-nynorsk-ud-2.6-200830, polish-pdb-ud-2.6-200830, portuguese-gsd-ud-2.6-200830, romanian-rrt-ud-2.6-200830, russian-syntagrus-ud-2.6-200830, serbian-set-ud-2.6-200830, slovak-snk-ud-2.6-200830, slovenian-ssj-ud-2.6-200830, spanish-ancora-ud-2.6-200830, swedish-talbanken-ud-2.6-200830, turkish-imst-ud-2.6-200830, ukrainian-iu-ud-2.6-200830, vietnamese-vtb-ud-2.6-200830.
2)
Názvy kategoriálních atributů jsou z technických důvodů uvedeny s malým písmenem, např. verb_form místo VerbForm (jak je to ve feats) nebo num_type místo NumType. Hodnoty atributů, např. Fem, si ponechávají velké počáteční písmeno, ale uvádějí se v uvozovkách, stejně jako jiné atributy.
3)
Agregáty jsou v těchto jazycích: ar, ca, cs, de, el, en, es, fi, fr, he, it, pl, pt, tr a uk. Seznam všech agregátů pro daný jazyk ukáže frekvenční distribuce slovních tvarů na dotaz [sword=".+\|.+"].
4)
Jako první uvádíme původní podobu, tedy hodnotu atributu iword, jako druhou za pomlčkou uvádíme podobu rekonstruovanou, tedy hodnotu atributu sword. Je-li v závorce tvar jen jeden, jsou obě možnosti identické, nebo v daném jazyce rekonstruované tvary nejsou.
5)
Tučně je vyznačen větný člen s danou funkcí. Pokud se tento větný člen skládá z více slov, je podtržené jeho řídící slovo. Právě u takového slova je daná funkce uvedena.
6)
Rozumí se v pádu neshodném s počítaným jménem.
7)
Rozumí se v pádu shodném s počítaným jménem.
8)
V jednoduchém dotazu už není třeba v některých jazycích oddělovat mezerou části agregátu, např. části był, by a m polského aglutinovaného tvaru byłbym nebo is a n't anglické spřežky isn't, a to ani při zadání delšího výrazu (aren't I). Při jednoduchém dotazu na is nebo n't se ale konkordance se spřežkou isn't neukážou.
9)
Tvar běhajících ve větě Potom uslyšeli zvuk velkého množství tlap a drápů, běhajících po jižní straně rokle. ale najdeme na dotaz [lemma="běhající" & deprel="amod"].
10)
Reflexivní pasivum, např. tvar oholil se, je označeno jako feats="...Voice=Act".
11)
Ani ten však nevyloučí případy jako might have been dwelling, kde je údaj Tense=Past uveden u tvaru might.
12)
Vložte konkrétní jazyky.