Obsah

Universal Dependencies – UD

Universal Dependencies je otevřený mezinárodní projekt, jehož cílem je shromažďovat a nabízet texty v mnoha jazycích, a to s lingvistickou anotací provedenou jednotným způsobem. Zásady morfologické a syntaktické anotace podle UD spolu s anotačními nástroji vytvořenými v rámci tohoto projektu byly využity k anotaci verze 13ud paralelního korpusu InterCorp.

Obecné zásady anotace jsou uvedeny na stránkách projektu UD (UD Guidelines), včetně podrobného popisu:

Hlavní specifika verzí InterCorpu anotovaných podle UD:

Morfologická anotace

Slovní druh

Další kategorie

název kategorie glosa příklady hodnot
Abbr zkratka Yes
Animacy životnost Anim, Inan, Hum, Nhum
Aspect vid Imp, Perf, Hab, Iter, Prog, Prosp
Case pád Nom, Gen, Dat, Acc, Voc, Loc, Ins, …
Definite určitost Ind, Def, …
Degree stupeň Pos, Cmp, Sup, Equ, Abs
Foreign cizí slovo Yes
Gender jmenný rod Fem, Masc, Neut, Com
Mood slovesný způsob Ind, Imp, Cnd, …
NumType typ číslovky Card, Ord, Mult, Frac, Sets, …
Number morfologické číslo Sing, Plur, Dual, Ptan, Coll, …
Person osoba 1, 2, 3, …
Polarity polarita Neg, Pos
Polite zdvořilost Infm, Form, Elev, Humb
Poss přivlastňovací tvar Yes
PronType druh zájmena apod. Prs, Rcp, Art, Int, Rel, Exc, Dem, Emp, Tot, Ind
Reflex zvratný tvar Yes
Tense slovesný čas Pres, Past, Fut, Pqp, Imp
Typo chyba Yes
VerbForm slovesný tvar Fin, Inf, Part, Conv, Ger, Vnoun, Sup
Voice slovesný rod Act, Pass, Mid, Cau, …

Vícedílné tokeny

Syntaktická anotace

Syntaktické funkce

deprel glosa příklad4)
acl přívlastek jako finitní i nefinitní klauze, nevazebný dopolněk Mám dojem, že bych nepřepral ani hraboše. Nikdy jsem ji neviděl naštvanou.
acl:relcl vztažná věta Nevěří tomu, co vidí.
advcl vedlejší věta příslovečná Spěchal, aby přišel včas.
advmod adverbiální příslovečné určení geneticky upravené potraviny
advmod:emph zdůrazňovací slovo, intensifikátor Trvalo to sotva pár vteřin.
amod adjektivní (shodný) přívlastek Václav si vzal třímilionovou půjčku.
appos apozice (přístavek) Přijel Michal, můj bratr.
aux pomocné sloveso Mohli byste přijet už příští týden?
aux:pass pomocné sloveso trpného rodu Výstrahy byly bohužel oslyšeny.
case předložka Bydlím na samotě.
cc souřadicí spojka Je to mladý a nadějný chlapík.
ccomp obligatorní větné doplnění Ještě včera hlásili, že pršet nebude.
clf klasifikátor 学生 sān xuéshēng
compound nefinální části složené číslovky Bude to stát padesát pět tisíc korun.
conj další člen koordinace Teta včera večer přijela, přespala a ráno zase odjela.
cop spona Lenka je v kondici.
csubj větný podmět Obžalovanému přitížilo, že neměl alibi.
csubj:pass větný podmět pasiva Jak se pozná, že je to správně?
dep nespecifikovaná závislost Rozhlédl se na druhou.
det determinace Která kniha se vám líbí nejvíc?
det:numgov zájmenná číslovka v neshodném pádu 5) Mimoto bylo nablízku několik dalších králíků.
det:nummod zájmenná číslovka ve shodném pádu 6) V městě se na mnoha místech objevily plameny.
discourse diskursní výraz čemu že se to zpronevěřily
dislocated extrapozice Dumplings I like.
expl:pass zvratné zájmeno ve zvratném pasivu S tím se nedalo nic dělat.
expl:pv zvratná částice u reflexiva tantum Ona se občas tak legračně dívá.
fixed další části víceslovného výrazu ve srovnání například s úvěry
flat další části označení osoby Nejlépe to vyjádřil papež Jan Pavel II.
flat:foreign další části cizího víceslovného výrazu Summum ius, summa iniuria je estetická maxima.
goeswith další část chybně rozděleného tvaru Zastavil se a z těžka oddychoval.
iobj nepřímý předmět Vysvětlila studentům svůj plán.
list další části seznamu Steve Jones tel.: 555-9814 e-mail: jones@abc.edf
mark podřadicí spojka Nevěděli jsme, že babička není doma.
nmod jmenný (neshodný) přívlastek kancelář ředitele
nsubj jmenný podmět Auto je červené.
nsubj:pass podmět věty se slovesem v trpném rodě Vypnutí vysílačky se trestá.
nummod číslovka Jedno kotě spalo.
nummod:gov číslovka v pádu neshodném se jménem Pět mužů hrálo karty.
obj přímý předmět Cením si vaší pomoci.
obl jmenné příslovečné určení Vzduch se tetelil očekáváním blaha.
obl:arg jmenné příslovečné určení ve funkci argumentu Otec určitě myslel jen na matku.
orphan závislost na vypuštěném větném členu Pavel si objednal špenát a Markéta brokolici.
parataxis vsuvka, uvozovací věta „Ten člověk,“ řekl Honza, „odjel brzy ráno.“
punct interpunkce Máte všecko?
reparandum oprava chyby v plynulosti řeči Jděte dopra- doleva.
root řídící člen věty Miluju anglickou kuchyni.
vocative oslovení Honzo, pojď mi pomoct!
xcomp adjektivum nebo sloveso jako obligatorní doplnění s nevyjádřeným podmětem Doktorka mi doporučila denně cvičit.

Odkazy na řídící člen

Odkazy na pomocná slova

Koordinace

UD a KonText

Hledání v korpusu

Jednoduchý dotaz

Dotaz na lemma a morfologickou značku (tag)

Zadávání dotazu na slovní druh a morfologické kategorie pomocí nabídky

Dotaz na syntaktickou funkci

Výsledky dotazu

Formátovaný text

Zobrazení syntaktické struktury

Příklady dotazů

Dotazy ukazují zejména možnosti využití syntaktických funkcí ve spojení se slovními druhy a morfologickými kategoriemi, ale obsahují také odkazy na syntakticky řídící členy a závislá pomocná slova. Většina dotazů se týká češtiny, ale jsou použitelné i v jiných jazycích. Typ jazyka může vyžadovat menší či větší úpravy dotazu. Dotazy lze zadávat v jednom jazyce, nebo paralelně ve dvou i více jazycích.

Kdo nejčastěji zpívá?

[deprel="nsubj" & p_lemma="zpívat"]

Co dělají ptáci nejčastěji?

[deprel="nsubj" & lemma="pták"]

Předložkové pády

[case="Acc" & case_lemma="o"]

Přímé předměty v dativu, i v koordinaci

[case="Dat" & deprel="obj" | case="Dat" & deprel="conj" & p_deprel="obj"]

Vlastní jména jako podmět, i v koordinaci

[deprel="nsubj" & upos="PROPN" | deprel="conj" & p_deprel="nsubj" & upos="PROPN"]

Předměty infinitivu v instrumentálu

[upos="NOUN" & case="Ins" & deprel="obj" & p_feats="VerbForm=Inf"]

Slovesa v 1. osobě singuláru minulého času

[feats="Gender=Neut" & feats="Number=Sing" & feats="Tense=Past" & upos="VERB" & aux_feats="Person=1" & aux_feats="Mood=Ind"]
[gender="Neut" & number="Sing" & tense="Past" & upos="VERB" & aux_feats="Person=1" & aux_feats="Mood=Ind"]

Konstrukce akuzativu s infinitivem

1:[lemma="vidět|slyšet"] []* 2:[case="Acc" & deprel="obj"] []* 3:[verb_form="Inf" & deprel="xcomp"] & 2.head=1.id & 3.head=1.id within <s/>

Minulý kondicionál v činném rodě

[voice="Act" & aux_feats="Mood=Cnd" & aux_feats="Tense=Past"]

Minulý kondicionál v trpném rodě

[voice="Pass" & aux_feats="Mood=Cnd" & aux_feats=".*Tense=Past.*Tense=Past.*"]

Negace významového slovesa, vyjádřená také negací slovesa pomocného

[upos="VERB" & deprel!="aux" & (polarity="Neg" | aux_feats="Polarity=Neg")]

Průběhové perfektum v angličtině

[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part"]
[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part" & aux_feats=".*Tense=Past.*Tense=Past.*"]
[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part" & aux_feats="Tense=Pres"]

Legenda k seznamu atributů

Základní atributy

Strukturní atributy

Atributy pomocných slov

Atributy vybraných kategorií

Chyby a nedostatky lingvistické anotace podle UD

Kvalita anotace v různých jazycích se liší zejména objemem a kvalitou trénovacích dat. Má na ni vliv i metoda a nástroj použitý k anotaci.

Uživatelům budeme vděční za každou nahlášenou chybu, nesrovnalost, nedostatek, připomínku a námět na adrese Uživatelské podpory ČNK. V tématu zprávy uveďte prosím na začátku zkratku „UD“.

Odkazy

Výběr literatury k UD

Marie-Catherine de Marneffe, Christopher Manning, Joakim Nivre, Daniel Zeman (2021): Universal Dependencies. In: Computational Linguistics, ISSN 1530-9312, vol. 47, no. 2, pp. 255-308.

Timothy Baldwin, William Croft, Joakim Nivre, Agata Savary (2021): Universals of Linguistic Idiosyncrasy in Multilingual Computational Linguistics. Report from Dagstuhl Seminar 21351. DOI: 10.4230/DagRep.11.7.89

Daniel Zeman (2018): The World of Tokens, Tags and Trees. ISBN 978-80-88132-09-7.

Úplný seznam najdete zde.

Tutoriály a přednášky o UD

Daniel Zeman: Universal Dependencies and the Slavic Languages. Warszawa, 19.11.2018.

Joakim Nivre, Daniel Zeman, Filip Ginter, Francis M. Tyers: Tutorial on Universal Dependencies: Adding a new language to UD

Anna Nedoluzhko, Michal Novák, Martin Popel, Zdeněk Žabokrtský, Daniel Zeman: Coreference meets Universal Dependencies. Praha, 19/04/2021.

Daniel Zeman: Reflexives in Universal Dependencies. Praha, 04/03/2019.

O korpusu InterCorp s anotací podle UD

Olga Nádvorníková, Alexandr Rosen, Martin Vavřín: InterCorp s jednotnou morfologickou a syntaktickou anotací podle Universal Dependencies: zážitky tvůrců a uživatelů. Praha, 16/11/2021. Video, pdf: zážitky tvůrců, zážitky uživatelů.

1)
Názvy kategoriálních atributů jsou z technických důvodů uvedeny s malým písmenem, např. verb_form místo VerbForm (jak je to ve feats) nebo num_type místo NumType. Hodnoty atributů, např. Fem, si ponechávají velké počáteční písmeno, ale uvádějí se v uvozovkách, stejně jako jiné atributy.
2)
Agregáty jsou v těchto jazycích: ar, ca, cs, de, el, en, es, fi, fr, he, it, pl, pt, tr a uk. Seznam všech agregátů pro daný jazyk ukáže frekvenční distribuce slovních tvarů na dotaz [sword=".+\|.+"].
3)
Jako první uvádíme původní podobu, tedy hodnotu atributu iword, jako druhou za pomlčkou uvádíme podobu rekonstruovanou, tedy hodnotu atributu sword. Je-li v závorce tvar jen jeden, jsou obě možnosti identické, nebo v daném jazyce rekonstruované tvary nejsou.
4)
Tučně je vyznačen větný člen s danou funkcí. Pokud se tento větný člen skládá z více slov, je podtržené jeho řídící slovo. Právě u takového slova je daná funkce uvedena.
5)
Rozumí se v pádu neshodném s počítaným jménem.
6)
Rozumí se v pádu shodném s počítaným jménem.
7)
V jednoduchém dotazu už není třeba v některých jazycích oddělovat mezerou části agregátu, např. části był, by a m polského aglutinovaného tvaru byłbym nebo is a n't anglické spřežky isn't, a to ani při zadání delšího výrazu (aren't I). Při jednoduchém dotazu na is nebo n't se ale konkordance se spřežkou isn't neukážou.
8)
Tvar běhajících ve větě Potom uslyšeli zvuk velkého množství tlap a drápů, běhajících po jižní straně rokle. ale najdeme na dotaz [lemma="běhající" & deprel="amod"].
9)
Reflexivní pasivum, např. tvar oholil se, je označeno jako feats="...Voice=Act".
10)
Ani ten však nevyloučí případy jako might have been dwelling, kde je údaj Tense=Past uveden u tvaru might.