verb_form
místo VerbForm
(jak je to ve feats
) nebo num_type
místo NumType
. Hodnoty atributů, např. Fem
, si ponechávají velké počáteční písmeno, ale uvádějí se v uvozovkách, stejně jako jiné atributy.Universal Dependencies je otevřený mezinárodní projekt, jehož cílem je shromažďovat a nabízet texty v mnoha jazycích, a to s lingvistickou anotací provedenou jednotným způsobem. Zásady morfologické a syntaktické anotace podle UD spolu s anotačními nástroji vytvořenými v rámci tohoto projektu byly využity k anotaci některých nedávno zveřejněných verzí (13ud, 16ud) paralelního korpusu InterCorp.
Obecné zásady anotace jsou uvedeny na stránkách projektu UD (UD Guidelines), včetně podrobného popisu:
Hlavní specifika verzí InterCorpu anotovaných podle UD:
upos
(viz níže část Slovní druh) a feats
(viz Další kategorie). Často využívané morfologické kategorie ze seznamu feats
byly povýšeny na samostatné, tzv. kategoriální atributy na úrovni upos
. To se týká např. morfologického pádu a čísla (case
, number
), jmenného rodu (gender
) nebo osoby (person
).deprel
– viz Syntaktické funkce a řídící člen v závislostní syntaktické struktuře, tzv. hlava (head
). K usnadnění orientace v této struktuře se uvádějí také odkazy na důležité vlastnosti hlavy (lemma, slovní druh a morfologické kategorie, viz Odkazy na řídící člen). Pokud k významovému slovu patří nějaké slovo pomocné (např. předložka, pomocné sloveso, podřadicí spojka), uvádějí se u významového slova také některé vlastnosti pomocného slova (viz Odkazy na pomocná slova).Vložit tag
, která do dotazu vkládá slovní druh podle UD (upos
) a libovolné kategorie ze seznamu feats
. Funkce Vložit tag
je dostupná u všech lingvisticky anotovaných jazyků.upos
.upos
jsou pro všechny jazyky stejné.upos
se u většiny jazyků uvádí v atributu xpos
i jazykově specifická morfologická značka, která je obvykle totožná s odpovídající značkou (atributem tag
) z jiných verzí InterCorpu bez anotace podle UD.upos | glosa |
---|---|
ADJ | přídavné jméno |
ADP | adpozice – např. předložka |
ADV | příslovce |
AUX | pomocné sloveso |
CCONJ | souřadicí spojka |
DET | determinátor – např. přivl. zájmeno |
INTJ | citoslovce |
NOUN | podstatné jméno |
NUM | číslovka |
PART | částice |
PRON | zájmeno |
PROPN | vlastní jméno |
PUNCT | interpunkce |
SCONJ | podřadicí spojka |
SYM | symbol |
VERB | sloveso |
X | ostatní |
feats
. Jejich výběr a hodnoty jsou dány slovním druhem a jazykem. Number=Sg
. feats
.feats
uvedeny takto: Case=Nom|Gender=Neut|Number=Sing|Polarity=Pos
. např. ruský tvar школы /'ʂkolɨ/ 'školy' v genitivu singuláru je značkován takto: feats="Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing"
. [upos="NOUN" & feats="Number=Sing"]
. Ruský tvar se najde na dotaz [upos="NOUN" & feats="Gender=Fem" & feats="Case=Gen"]
. Na pořadí kategorií v dotazu nezáleží. feats
lze nakládat také pomocí regulárních výrazů jako s řetězcem znaků, např. [upos="NOUN" & feats=".*Case=Gen.*Gender=Fem.*"]
. Zde musí pořadí kategorií v dotazu odpovídat jejich pořadí v korpusu. Výsledek je v obou případech stejný.feats
jsou zpřístupněny zároveň na stejné úrovni jako upos
i mimo tento seznam jako tzv. kategoriální atributy, takže např. dotaz na substantivum v singuláru je možné zadat i jednodušeji: [upos="NOUN" & number="Sing"]
. Podobně i dotaz na ruský tvar vede ke stejnému výsledku jako dva výše uvedené dotazy: [upos="NOUN" & gender="Fem" & case="Gen"]
. Kategoriální atributy lze využít při i pro generování frekvenčních seznamů.1) Kategoriální atributy najdete na světle hnědém pozadí v Seznamu atributů podle jazyků nebo v KonTextu v dolní části tabulky zobrazované v Zobrazení
/ Korpusová nastavení …
.název kategorie | glosa | příklady hodnot |
---|---|---|
Abbr | zkratka | Yes |
Animacy | životnost | Anim, Inan, Hum, Nhum |
Aspect | vid | Imp, Perf, Hab, Iter, Prog, Prosp |
Case | pád | Nom, Gen, Dat, Acc, Voc, Loc, Ins, … |
Definite | určitost | Ind, Def, … |
Degree | stupeň | Pos, Cmp, Sup, Equ, Abs |
Foreign | cizí slovo | Yes |
Gender | jmenný rod | Fem, Masc, Neut, Com |
Mood | slovesný způsob | Ind, Imp, Cnd, … |
NumType | typ číslovky | Card, Ord, Mult, Frac, Sets, … |
Number | morfologické číslo | Sing, Plur, Dual, Ptan, Coll, … |
Person | osoba | 1, 2, 3, … |
Polarity | polarita | Neg, Pos |
Polite | zdvořilost | Infm, Form, Elev, Humb |
Poss | přivlastňovací tvar | Yes |
PronType | druh zájmena apod. | Prs, Rcp, Art, Int, Rel, Exc, Dem, Emp, Tot, Ind |
Reflex | zvratný tvar | Yes |
Tense | slovesný čas | Pres, Past, Fut, Pqp, Imp |
Typo | chyba | Yes |
VerbForm | slovesný tvar | Fin, Inf, Part, Conv, Ger, Vnoun, Sup |
Voice | slovesný rod | Act, Pass, Mid, Cau, … |
lemma
, a to znakem „|“. Je tedy možné je hledat tak jako jiná slova, zadáním celého tvaru (v češtině např. ses, v angličtině can't nebo v polštině byłbym) do vyhledávacího rámečku v jednoduchém dotazu, nebo jako hodnotu atributu word
v pokročilém dotazu pomocí vyhledávacího jazyka CQL.iword
uvádí původní tvar se|s
, atribut sword
uvádí nezkrácenou, „rekonstruovanou“ verzi tvaru se|jsi
.2) a|bychom
– aby|bychom
),3) bylas (byla|s
– byla|jsi
) nebo oč (o|č
– o|co
), v angličtině isn't (is|n't
– is|not
) nebo cannot (can|not
), v němčině zur (zu|r
– zu|der
) nebo am (a|m
– an|dem
), v polštině miałam (miała|m
), żebyś (że|by|ś
) nebo chciałbym (chciał|by|m
), ve francouzštině des (de|s
– de|les
), aux (au|x
– à|les
) nebo auquel (au|quel
– à|lequel
).deprel
) a odkaz na syntakticky řídící slovo, tj. na hlavu (head
).acl:relcl
označuje přívlastek vyjádřený vztažnou větou. Níže uvedený seznam obsahuje pouze podtypy relevantní pro češtinu a zastoupené v korpusu. Funkce s podtypy pro všechny jazyky jsou uvedeny na stránce Universal Dependency Relations. deprel="acl.*"
, najdou se nám všechna slova s funkcí acl
, bez ohledu na to, zda mají nebo nemají podtyp. Chceme-li najít všechna pomocná slovesa, je třeba místo pouhého deprel="aux"
použít výraz deprel="aux.*"
. Všechny podměty najdeme výrazem deprel="nsubj.*"
.deprel="conj"
. Syntaktickou funkci celé koordinace lze zjistit z atributu deprel
prvního členu, který je hlavou ostatních, tedy pomocí atributu p_deprel
. Podrobněji viz dále Koordinace.Dotaz
v horní liště a v nabídce zvolte Seznam slov
. V rámečku za Hledat podle atributu
nastavte možnost deprel
. Pak klikněte dole na Vytvořit seznam slov
. Funkce jsou seřazeny podle frekvence. Chcete-li je seřadit podle abecedy, klikněte na záhlaví sloupce deprel
. Seznam obsahuje samostatné položky pro vícedílné tokeny s oddělovačem „|“.deprel | glosa | příklad4) |
---|---|---|
acl | přívlastek jako finitní i nefinitní klauze, nevazebný dopolněk | Mám dojem, že bych nepřepral ani hraboše. Nikdy jsem ji neviděl naštvanou. |
acl:relcl | vztažná věta | Nevěří tomu, co vidí. |
advcl | vedlejší věta příslovečná | Spěchal, aby přišel včas. |
advmod | adverbiální příslovečné určení | geneticky upravené potraviny |
advmod:emph | zdůrazňovací slovo, intensifikátor | Trvalo to sotva pár vteřin. |
amod | adjektivní (shodný) přívlastek | Václav si vzal třímilionovou půjčku. |
appos | apozice (přístavek) | Přijel Michal, můj bratr. |
aux | pomocné sloveso | Mohli byste přijet už příští týden? |
aux:pass | pomocné sloveso trpného rodu | Výstrahy byly bohužel oslyšeny. |
case | předložka | Bydlím na samotě. |
cc | souřadicí spojka | Je to mladý a nadějný chlapík. |
ccomp | obligatorní větné doplnění | Ještě včera hlásili, že pršet nebude. |
clf | klasifikátor | 三个学生 sān gè xuéshēng |
compound | nefinální části složené číslovky | Bude to stát padesát pět tisíc korun. |
conj | další člen koordinace | Teta včera večer přijela, přespala a ráno zase odjela. |
cop | spona | Lenka je v kondici. |
csubj | větný podmět | Obžalovanému přitížilo, že neměl alibi. |
csubj:pass | větný podmět pasiva | Jak se pozná, že je to správně? |
dep | nespecifikovaná závislost | Rozhlédl se na druhou. |
det | determinace | Která kniha se vám líbí nejvíc? |
det:numgov | zájmenná číslovka v neshodném pádu 5) | Mimoto bylo nablízku několik dalších králíků. |
det:nummod | zájmenná číslovka ve shodném pádu 6) | V městě se na mnoha místech objevily plameny. |
discourse | diskursní výraz | čemu že se to zpronevěřily |
dislocated | extrapozice | Dumplings I like. |
expl:pass | zvratné zájmeno ve zvratném pasivu | S tím se nedalo nic dělat. |
expl:pv | zvratná částice u reflexiva tantum | Ona se občas tak legračně dívá. |
fixed | další části víceslovného výrazu | ve srovnání například s úvěry |
flat | další části označení osoby | Nejlépe to vyjádřil papež Jan Pavel II. |
flat:foreign | další části cizího víceslovného výrazu | Summum ius, summa iniuria je estetická maxima. |
goeswith | další část chybně rozděleného tvaru | Zastavil se a z těžka oddychoval. |
iobj | nepřímý předmět v akuzativu | Učí mne chemii. |
list | další části seznamu | Steve Jones tel.: 555-9814 e-mail: jones@abc.edf |
mark | podřadicí spojka | Nevěděli jsme, že babička není doma. |
nmod | jmenný (neshodný) přívlastek | kancelář ředitele |
nsubj | jmenný podmět | Auto je červené. |
nsubj:pass | podmět věty se slovesem v trpném rodě | Vypnutí vysílačky se trestá. |
nummod | číslovka | Jedno kotě spalo. |
nummod:gov | číslovka v pádu neshodném se jménem | Pět mužů hrálo karty. |
obj | přímý předmět | Přiloží si ruku na srdce. |
obl | jmenné příslovečné určení | Vzduch se tetelil očekáváním blaha. |
obl:arg | předmět v nepřímém pádu nebo přísl. určení ve funkci argumentu | Otec určitě myslel jen na matku. Věnoval jí knížku. |
orphan | závislost na vypuštěném větném členu | Pavel si objednal špenát a Markéta brokolici. |
parataxis | vsuvka, uvozovací věta | „Ten člověk,“ řekl Honza, „odjel brzy ráno.“ |
punct | interpunkce | Máte všecko? |
reparandum | oprava chyby v plynulosti řeči | Jděte dopra- doleva. |
root | řídící člen věty | Miluju anglickou kuchyni. |
vocative | oslovení | Honzo, pojď mi pomoct! |
xcomp | adjektivum nebo sloveso jako obligatorní doplnění s nevyjádřeným podmětem | Doktorka mi doporučila denně cvičit. |
head
jako slovosledné pořadí hlavy ve větě nebo parent
jako její relativní pozice vůči danému slovu) jsou u každého tokenu uvedeny i některé další atributy jeho hlavy: lemma (p_lemma
), slovní druh (p_upos
), morfologické kategorie (p_feats
) a syntaktická funkce (p_deprel
).case_lemma
, morfologické kategorie pomocného slovesa atributem aux_feats
, morfologické kategorie spony atributem cop_feats
, slovní druh determinátoru atributem det_upos
, lemma podřadicí spojky atributem mark_lemma
.syn2020
).deprel
: aux
(pomocná slovesa), case
(předložky), mark
(podřadicí spojky), cop
(spona), det
(determinátor, člen) a clf
(klasifikátory). lemma
, upos
, feats
a podrobnější specifikace druhu pomocného slova type
, např. aux_type="pass"
(viz passive auxiliary) nebo det_type="numgov"
(viz pronominal quantifier governing the case of the noun). case_lemma
specifikuje u substantiva nebo zájmena lemma předložky, aux_feats
u slovesa významového specifikuje morfologické kategorie pomocného slovesa.|
“. Hodnoty atributu feats
od více pomocných sloves závislých na jednom významovém se spojí do jedné hodnoty, kde se některé kategorie, např. specifikace slovesného tvaru, mohou opakovat, protože pocházejí od více než jednoho tvaru. Např. ve větě kdo by to byl tušil se aux_feats
významového slovesa tušil skládá z feats
pomocných sloves by (Mood=Cnd|VerbForm=Fin
) a byl (Animacy=Anim|Gender=Masc|Number=Sing|Polarity=Pos|Tense=Past|VerbForm=Part|Voice=Act
).conj
.cc
.e_id
odkazuje na její identifikátor (pořadové číslo tokenu představujícího hlavu v rámci věty), atribut eparent
na její relativní pozici vůči danému tokenu.e_deprel
, jehož hodnota se rovná hodnotě atributu deprel
daného tokenu, s výjimkou případů, kdy daný token není prvním členem koordinace, tj. když jeho deprel
má hodnotu conj
. V těchto případech se hodnota e_deprel
rovná hodnotě p_deprel
– ukazuje tedy syntaktickou funkci celé koordinace.e_deprel
má stejnou hodnotu jako p_deprel
také v případech, kdy má atribut deprel
hodnotu fixed
, flat
, compound
nebo list
. Tokeny, které jsou součástí takových konstrukcí, lze tedy také vyhledávat podle syntaktické funkce celé konstrukce pomocí atributu e_deprel
. e_deprel
chybí, využít atribut p_deprel
, který ukazuje syntaktickou funkci hlavy daného tokenu. Např. dotaz na všechny přímé předměty, včetně koordinovaných, tak můžeme formulovat pomocí operátoru disjunkce (|) takto: [deprel="obj" | deprel="conj" & p_deprel="obj"]
.tag
použít atribut xpos
(u jazyků be, da, en, fr, hu, no a ru tento atribut chybí). Např. dotaz na substantiva ženského rodu ve vokativu singuláru v češtině lze tímto způsobem zadat takto: [xpos="NNFS5.*"]
.upos
a feats
. Jejich hodnoty lze zadat pomocí funkce Vložit tag
.upos
) jsou stejné pro všechny jazyky. Např. dotaz na vlastní jména lze i bez využití funkce Vložit tag
zadat takto: [upos="PROPN"].feats
nebo samostatně jako kategoriální atributy. Podrobněji výše viz Další kategorie. Vložit tag
, která umožňuje ve všech lingvisticky anotovaných jazycích vybrat podle nabídky slovní druh a/nebo hodnoty příslušných kategorií (vlastností) ze seznamu feats
. Nabídka vlastností se u daného slovního druhu řídí jejich reálným výskytem v korpusu, takže může odrážet i chybné kombinace.deprel
(viz Syntaktické funkce).[lemma="běhat" & deprel="acl"]
. Mezi výsledky najdeme např. větu Copak máme čas běhat každý den pro vodu se dždánem ke studni nebo chodit do potoka? nebo Vlk musel uznat, že ještě nikdy za celou tu dobu, co běhá po lese a po polích, neviděl nic tak roztomilého.8)Formátovaný text
v záhlaví kontextového rámečku se objeví konkordance spolu s nejbližším kontextem v podobě, která se blíží původní typografii textu. Nejsou v ní např. mezery mezi koncem slova a interpunkcí a odstavce jsou odděleny prázdným řádkem. word
), slovní druh a syntaktická funkce slova, které k danému tokenu patří. Po kliknutí na daný uzel se objeví další anotace, zejména lemma daného tvaru.iword
). Např. token oč je rozdělen na části o a č. Po kliknutí na takový uzel (např. na č) se kromě lemmatu dané části vícedílného tokenu (co) objeví i její plná podoba (jako samostatné slovo, atribut sword
, zde opět co) a slovní tvar celého tokenu (word
, zde oč). Dotazy ukazují zejména možnosti využití syntaktických funkcí ve spojení se slovními druhy a morfologickými kategoriemi, ale obsahují také odkazy na syntakticky řídící členy a závislá pomocná slova. Většina dotazů se týká češtiny, ale jsou použitelné i v jiných jazycích. Typ jazyka může vyžadovat menší či větší úpravy dotazu. Dotazy lze zadávat v jednom jazyce, nebo paralelně ve dvou i více jazycích.
[deprel="nsubj" & p_lemma="zpívat"]
Frekvence / Lemmata
).[deprel="nsubj" & lemma="pták"]
p_lemma
(v menu KonTextu: Frekvence / Vlastní... / Atribut: p_lemma
).[case="Acc" & case_lemma="o"]
case
je o).p_lemma
, tedy lemmatu hlavy daného tokenu (v menu KonTextu: Frekvence / Vlastní... / Atribut: p_lemma
).[deprel="iobj"]
p_lemma
.deprel="obl"
nebo (pokud možno) deprel="obl:arg"
. Podrobněji viz Core Arguments vs. Oblique Modifiers.[case="Dat" & e_deprel="obl:arg"]
[case="Dat" & deprel="obl:arg" | case="Dat" & deprel="conj" & p_deprel="obl:arg"]
e_deprel
. Najde totéž.case="Dat" & deprel="obj"
), nebo má klíčové slovo v dativu (case="Dat"
) funkci conj
(deprel="conj"
) a závisí na uzlu s funkcí přímého předmětu (p_deprel="obj"
). To znamená, že je druhým nebo dalším členem koordinace, která má celá funkci obj
.[deprel="nsubj" & upos="PROPN" | deprel="conj" & p_deprel="nsubj" & upos="PROPN"]
e_deprel
jednodušeji:[e_deprel="nsubj" & upos="PROPN"]
[upos="NOUN" & case="Ins" & deprel="obj" & p_feats="VerbForm=Inf"]
p_lemma
, tedy lemmatu hlavy klíčového slova (v menu KonTextu: Frekvence / Vlastní... / Atribut: p_lemma
).[feats="Gender=Neut" & feats="Number=Sing" & feats="Tense=Past" & upos="VERB" & aux_feats="Person=1" & aux_feats="Mood=Ind"]
feats
údaj Tense=Past
. Proto je třeba v dotazu uvést kromě osoby pomocného slovesa aux_feats="Person=1"
i jeho způsob: aux_feats="Mood=Ind"
.Vložit tag
, která do dotazu vkládá specifikace ze seznamu feats
. [gender="Neut" & number="Sing" & tense="Past" & upos="VERB" & aux_feats="Person=1" & aux_feats="Mood=Ind"]
1:[lemma="vidět|slyšet"] []* 2:[case="Acc" & deprel="obj"] []* 3:[verb_form="Inf" & deprel="xcomp"] & 2.head=1.id & 3.head=1.id within <s/>
xcomp
. Mezi těmito tokeny může být libovolný počet jiných slov, ale jen v rámci jedné věty, např. ve větě Ale byl sám a slyšel mladíkovy kroky stoupat po schodech. 2.head=1.id
zajišťuje, že předmět závisí na daných slovesech (odkaz na hlavu předmětu musí mít stejnou hodnotu jako identifikátor slovesa vidět nebo slyšet). Výraz 3.head=1.id
pak zajišťuje, že na daných slovesech závisí také infinitiv.[voice="Act" & aux_feats="Mood=Cnd" & aux_feats="Tense=Past"]
voice="Act"
, slovesný tvar (l-ové příčestí) je určen tím, že na slovese má záviset kondicionálový auxiliár by (aux_feats="Mood=Cnd"
). aux_feats="Tense=Past"]
) se týká druhého pomocného slovesa byl. Hodnoty feats
obou pomocných sloves jsou atributu aux_feats
spojeny do jedné (viz výše Odkazy na pomocná slova).Mood=Cnd
.[voice="Pass" & aux_feats="Mood=Cnd" & aux_feats=".*Tense=Past.*Tense=Past.*"]
upos=ADJ
a morfologické kategorie feats="...Variant=Short|VerbForm=Part|Voice=Pass"
.9) feats
od více pomocných sloves závislých na jednom významovém jsou spojené do jedné hodnoty, kde se např. specifikace kategorie času může opakovat, protože pochází od více než jednoho tvaru. V tomto případě od dvou pomocných sloves byla a bývala. Právě toho využívá tento dotaz. [aux_feats="Tense=Past"]
, dostali bychom i tvary podmiňovacího způsobu přítomného, v němž se l-ové příčestí objevuje pouze jednou jako pomocné sloveso trpného rodu (… aféra by byla ututlána.)[upos="VERB" & deprel!="aux" & (polarity="Neg" | aux_feats="Polarity=Neg")]
aux
(deprel!="aux"
) je buď negované samo (polarity="Neg"
), nebo je negované jeho pomocné sloveso (aux_feats="Polarity=Neg"
).[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part"]
VerbForm=Fin
se týká pomocného slovesa has a VerbForm=Part
druhého pomocného slovesa been. Oba výrazy jsou součástí jedné hodnoty atributu aux_feats
.aux_feats="Tense=Past"
, protože tento údaj obsahuje i pomocné sloveso been. K zadání hodnoty aux_feats
je tedy třeba použít regulární výraz, stejně jako v českém příkladu Minulý kondicionál v trpném rodě, viz následující dotaz:10)[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part" & aux_feats=".*Tense=Past.*Tense=Past.*"]
aux_feats="Tense=Pres"
, který se v aux_feats
vyskytuje jen jednou, a to u finitního tvaru pomocného slovesa have, viz následující dotaz:[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part" & aux_feats="Tense=Pres"]
word
a lc
.lc
a lc_lemma
, které půodobně jako v jiných korpusech ČNK opakují slovní tvar a lemma, ale bez případných velkých písmen.sword
a iword
.sword
uvádí slovní tvar agregátu rozdělený znakem „|“ na části, které odpovídají syntaktickým slovům v podobě samostatného slova, tedy např. u tokenu nač nebo abychom je hodnota sword
rovna na|co
nebo aby|bychom
.iword
dělí agregát na části bez dalších úprav, u tokenu nač nebo abychom je hodnota iword
rovna na|č
nebo a|bychom
.head
) o další atributy, usnadňující identifikaci hlavy a orientaci v jejích vlastnostech, např. na její lemma (p_lemma
), slovní druh (p_upos
) nebo syntaktickou funkci (p_deprel
).aux
), předložek (case
) nebo podřadicích spojek (mark
).case_lemma
je název atributu pro lemma předložky.case_lemma
(lemma adpozice, nejčastěji předložky), následuje mark_lemma
(lemma podřadicí spojky, v 33 jazycích).clf_lemma
(lemma klasifikátoru) se objevuje jen v čínštině.feats
).upos
) a morfologické kategorie (feats
) někdy nejsou v souladu.Kvalita anotace v různých jazycích se liší zejména objemem a kvalitou trénovacích dat. Má na ni vliv i metoda a nástroj použitý k anotaci.
Uživatelům budeme vděční za každou nahlášenou chybu, nesrovnalost, nedostatek, připomínku a námět na adrese Uživatelské podpory ČNK. V tématu zprávy uveďte prosím na začátku zkratku „UD“.
Marie-Catherine de Marneffe, Christopher Manning, Joakim Nivre, Daniel Zeman (2021): Universal Dependencies. In: Computational Linguistics, ISSN 1530-9312, vol. 47, no. 2, pp. 255-308.
Timothy Baldwin, William Croft, Joakim Nivre, Agata Savary (2021): Universals of Linguistic Idiosyncrasy in Multilingual Computational Linguistics. Report from Dagstuhl Seminar 21351. DOI: 10.4230/DagRep.11.7.89
Daniel Zeman (2018): The World of Tokens, Tags and Trees. ISBN 978-80-88132-09-7.
Úplný seznam najdete zde.
Joakim Nivre: Ten Years of Universal Dependencies. Praha, 22/04/2024.
Daniel Zeman: Universal Dependencies and the Slavic Languages. Warszawa, 19.11.2018.
Joakim Nivre, Daniel Zeman, Filip Ginter, Francis M. Tyers: Tutorial on Universal Dependencies: Adding a new language to UD
Anna Nedoluzhko, Michal Novák, Martin Popel, Zdeněk Žabokrtský, Daniel Zeman: Coreference meets Universal Dependencies. Praha, 19/04/2021.
Daniel Zeman: Reflexives in Universal Dependencies. Praha, 04/03/2019.
Olga Nádvorníková a Alexandr Rosen (2024): Vyhledávání v paralelním korpusu za použití anotace Universal Dependencies. Záznam workshopu z 17. 9. 2024, doprovodné akce Bienále české lingvistiky 2024, viz též prezentace.
Alexandr Rosen (2024): Exploring InterCorp v16ud: the potential of a multilingual parallel treebank with complexity and diversity metrics. Instytut Slawistyki Zachodniej i Południowej, Uniwersytet Warszawski. Warszawa, 10/06/2024. Prezentace
Olga Nádvorníková (2024): Analyse contrastive de la complexité syntaxique à l’aide de corpus parallèles. Translitteræ, Laboratoire LATTICE (Langues, Textes, Traitements informatiques et Cognition) – CNRS UMR 8094 (Centre national de la recherche scientifique: Unité mixte de recherche), ENS (L'École normale supérieure). Paris, 28/05/2024. Záznam přednášky, prezentace.
Olga Nádvorníková, Alexandr Rosen, Martin Stluka (2024): InterCorp a Universal Dependencies: nové možnosti výzkumu. Teoreticko-metodologický seminář Ústavu českého jazyka a teorie komunikace FF UK. Praha, 20/03/2024, 27/03/2024. Program workshopu s odkazy na prezentace a záznamy
Alexandr Rosen (2023). The InterCorp parallel corpus with a uniform annotation for all languages. Jazykovedný časopis, 74(1):254–265. Článek, prezentace
Olga Nádvorníková, Alexandr Rosen, Martin Vavřín (2021): InterCorp s jednotnou morfologickou a syntaktickou anotací podle Universal Dependencies: zážitky tvůrců a uživatelů. Praha, 16/11/2021. Záznam přednášky, prezentace: zážitky tvůrců, zážitky uživatelů
verb_form
místo VerbForm
(jak je to ve feats
) nebo num_type
místo NumType
. Hodnoty atributů, např. Fem
, si ponechávají velké počáteční písmeno, ale uvádějí se v uvozovkách, stejně jako jiné atributy.iword
, jako druhou za pomlčkou uvádíme podobu rekonstruovanou, tedy hodnotu atributu sword
. Je-li v závorce tvar jen jeden, jsou obě možnosti identické, nebo v daném jazyce rekonstruované tvary nejsou.[lemma="běhající" & deprel="amod"]
.feats="...Voice=Act"
.Tense=Past
uveden u tvaru might.