Obsah
Universal Dependencies – UD
Universal Dependencies je otevřený mezinárodní projekt, jehož cílem je shromažďovat a nabízet texty v mnoha jazycích, a to s lingvistickou anotací provedenou jednotným způsobem. Zásady morfologické a syntaktické anotace podle UD spolu s anotačními nástroji vytvořenými v rámci tohoto projektu byly využity k anotaci některých nedávno zveřejněných verzí (13ud, 16ud) paralelního korpusu InterCorp.
Obecné zásady anotace jsou uvedeny na stránkách projektu UD (UD Guidelines), včetně podrobného popisu:
- slovních druhů (Universal POS tags)
- morfologických kategorií (Universal features)
- syntaktických funkcí (Universal Dependency Relations)
Hlavní specifika verzí InterCorpu anotovaných podle UD:
- Slovní druh a morfologické kategorie podle UD, označované jednotně u všech jazyků, se uvádějí zvlášť jako hodnoty atributu
upos
(viz níže část Slovní druh) afeats
(viz Další kategorie). Často využívané morfologické kategorie ze seznamufeats
byly povýšeny na samostatné, tzv. kategoriální atributy na úrovniupos
. To se týká např. morfologického pádu a čísla (case
,number
), jmenného rodu (gender
) nebo osoby (person
). - Pro využití v KonTextu byly agregáty, tj. slovní tvary složené ze dvou nebo i tří syntaktických slov, upraveny do podoby dělených tokenů. V češtině se to týká např. tvarů ses (se+jsi) nebo oč (o+co). Podrobněji viz níže část Vícedílné tokeny.
- U každého slova je určena jeho syntaktická funkce (
deprel
– viz Syntaktické funkce a řídící člen v závislostní syntaktické struktuře, tzv. hlava (head
). K usnadnění orientace v této struktuře se uvádějí také odkazy na důležité vlastnosti hlavy (lemma, slovní druh a morfologické kategorie, viz Odkazy na řídící člen). Pokud k významovému slovu patří nějaké slovo pomocné (např. předložka, pomocné sloveso, podřadicí spojka), uvádějí se u významového slova také některé vlastnosti pomocného slova (viz Odkazy na pomocná slova). - Jazyky se liší v repertoáru kategoriálních atributů i v odkazech na pomocná slova. Podrobnosti viz níže v Legendě k seznamu atributů.
- KonText usnadňuje hledání podle slovního druhu a dalších morfologických kategorií pomocí funkce
Vložit tag
, která do dotazu vkládá slovní druh podle UD (upos
) a libovolné kategorie ze seznamufeats
. FunkceVložit tag
je dostupná u všech lingvisticky anotovaných jazyků.
Morfologická anotace
Slovní druh
- V UD se slovní druh uvádí odděleně od dalších kategorií jako hodnota atributu
upos
. - Slovní druhy uvedené v
upos
jsou pro všechny jazyky stejné. - Kromě
upos
se u většiny jazyků uvádí v atributuxpos
i jazykově specifická morfologická značka, která je obvykle totožná s odpovídající značkou (atributemtag
) z jiných verzí InterCorpu bez anotace podle UD.
upos | glosa |
---|---|
ADJ | přídavné jméno |
ADP | adpozice – např. předložka |
ADV | příslovce |
AUX | pomocné sloveso |
CCONJ | souřadicí spojka |
DET | determinátor – např. přivl. zájmeno |
INTJ | citoslovce |
NOUN | podstatné jméno |
NUM | číslovka |
PART | částice |
PRON | zájmeno |
PROPN | vlastní jméno |
PUNCT | interpunkce |
SCONJ | podřadicí spojka |
SYM | symbol |
VERB | sloveso |
X | ostatní |
Další kategorie
- Další kategorie jsou zanořeny v atributu
feats
. Jejich výběr a hodnoty jsou dány slovním druhem a jazykem. - Každá kategorie tvoří dvojici „název kategorie = hodnota kategorie“, tedy např.
Number=Sg
. - Stejné nebo srovnatelné morfologické kategorie i jejich hodnoty se nazývají ve všech jazycích stejně.
- Seznam takových dvojic tvoří hodnotu atributu
feats
. - Kategorie v atributu feats jsou odděleny znakem „|“. Např. u substantiva moře v nominativu jsou morfologické kategorie jako hodnota atributu
feats
uvedeny takto:Case=Nom|Gender=Neut|Number=Sing|Polarity=Pos
. např. ruský tvar школы /'ʂkolɨ/ 'školy' v genitivu singuláru je značkován takto:feats="Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing"
. - V pokročilém dotazu lze pomocí dotazovacího jazyka CQL jednotlivé kategorie zadávat odděleně. Např. tvar moře se najde na dotaz
[upos="NOUN" & feats="Number=Sing"]
. Ruský tvar se najde na dotaz[upos="NOUN" & feats="Gender=Fem" & feats="Case=Gen"]
. Na pořadí kategorií v dotazu nezáleží. - S hodnotou atributu
feats
lze nakládat také pomocí regulárních výrazů jako s řetězcem znaků, např.[upos="NOUN" & feats=".*Case=Gen.*Gender=Fem.*"]
. Zde musí pořadí kategorií v dotazu odpovídat jejich pořadí v korpusu. Výsledek je v obou případech stejný. - Některé kategorie ze seznamu
feats
jsou zpřístupněny zároveň na stejné úrovni jakoupos
i mimo tento seznam jako tzv. kategoriální atributy, takže např. dotaz na substantivum v singuláru je možné zadat i jednodušeji:[upos="NOUN" & number="Sing"]
. Podobně i dotaz na ruský tvar vede ke stejnému výsledku jako dva výše uvedené dotazy:[upos="NOUN" & gender="Fem" & case="Gen"]
. Kategoriální atributy lze využít při i pro generování frekvenčních seznamů.1) Kategoriální atributy najdete na světle hnědém pozadí v Seznamu atributů podle jazyků nebo v KonTextu v dolní části tabulky zobrazované vZobrazení
/Korpusová nastavení …
.
název kategorie | glosa | příklady hodnot |
---|---|---|
Abbr | zkratka | Yes |
Animacy | životnost | Anim, Inan, Hum, Nhum |
Aspect | vid | Imp, Perf, Hab, Iter, Prog, Prosp |
Case | pád | Nom, Gen, Dat, Acc, Voc, Loc, Ins, … |
Definite | určitost | Ind, Def, … |
Degree | stupeň | Pos, Cmp, Sup, Equ, Abs |
Foreign | cizí slovo | Yes |
Gender | jmenný rod | Fem, Masc, Neut, Com |
Mood | slovesný způsob | Ind, Imp, Cnd, … |
NumType | typ číslovky | Card, Ord, Mult, Frac, Sets, … |
Number | morfologické číslo | Sing, Plur, Dual, Ptan, Coll, … |
Person | osoba | 1, 2, 3, … |
Polarity | polarita | Neg, Pos |
Polite | zdvořilost | Infm, Form, Elev, Humb |
Poss | přivlastňovací tvar | Yes |
PronType | druh zájmena apod. | Prs, Rcp, Art, Int, Rel, Exc, Dem, Emp, Tot, Ind |
Reflex | zvratný tvar | Yes |
Tense | slovesný čas | Pres, Past, Fut, Pqp, Imp |
Typo | chyba | Yes |
VerbForm | slovesný tvar | Fin, Inf, Part, Conv, Ger, Vnoun, Sup |
Voice | slovesný rod | Act, Pass, Mid, Cau, … |
Vícedílné tokeny
- Některá slova, tzv. agregáty, se skládají z více částí. V syntaktické struktuře tyto části odpovídají různým uzlům, např. tvar ses se skládá z reflexiva se a klitického tvaru pomocného slovesa s, tvar kdybych z podřadicí spojky kdy a pomocného slovesa bych.
- Pravopisná podoba těchto slov je v korpusu zachována, jednotlivé části jsou oddělené jen v anotaci – např. v hodnotě atributu
lemma
, a to znakem „|“. Je tedy možné je hledat tak jako jiná slova, zadáním celého tvaru (v češtině např. ses, v angličtině can't nebo v polštině byłbym) do vyhledávacího rámečku v jednoduchém dotazu, nebo jako hodnotu atributuword
v pokročilém dotazu pomocí vyhledávacího jazyka CQL. - V některých jazycích, včetně češtiny, může mít část slova v samostatném postavení jinou podobu, např. část s ve slově ses odpovídá tvaru jsi. V anotaci jsou obě podoby: atribut
iword
uvádí původní tvarse|s
, atributsword
uvádí nezkrácenou, „rekonstruovanou“ verzi tvaruse|jsi
.2) - V češtině jde např. o tyto další tvary abychom (
a|bychom
–aby|bychom
),3) bylas (byla|s
–byla|jsi
) nebo oč (o|č
–o|co
), v angličtině isn't (is|n't
–is|not
) nebo cannot (can|not
), v němčině zur (zu|r
–zu|der
) nebo am (a|m
–an|dem
), v polštině miałam (miała|m
), żebyś (że|by|ś
) nebo chciałbym (chciał|by|m
), ve francouzštině des (de|s
–de|les
), aux (au|x
–à|les
) nebo auquel (au|quel
–à|lequel
).
Syntaktická anotace
Syntaktické funkce
- U každého tokenu je uvedena závislostní syntaktická funkce (
deprel
) a odkaz na syntakticky řídící slovo, tj. na hlavu (head
). - V níže uvedené tabulce se pro lepší orientaci rozlišují typem písma syntaktické funkce čtyř typů:
- Obvyklé syntaktické funkce jsou uvedeny tučně.
- Funkce určené pro pomocná slova jsou uvedeny tučnou kurzívou.
- Funkce umožňující zachytit v závislostní syntaktické struktuře koordinaci a podobné jevy nebo mají čistě technickou povahu jsou uvedeny kurzívou.
- Funkce, které se v češtině nevyužívají, jsou uvedeny šedě.
- V některých jazycích mohou mít některé funkce podtypy. Název podtypu je uveden po dvojtečce za názvem typu, např.
acl:relcl
označuje přívlastek vyjádřený vztažnou větou. Níže uvedený seznam obsahuje pouze podtypy relevantní pro češtinu a zastoupené v korpusu. Funkce s podtypy pro všechny jazyky jsou uvedeny na stránce Universal Dependency Relations. - Při zadávání dotazu na funkci, která může mít nějaký podtyp, je třeba s případným podtypem počítat. Použijeme-li v pokročilém dotazu např. výraz
deprel="acl.*"
, najdou se nám všechna slova s funkcíacl
, bez ohledu na to, zda mají nebo nemají podtyp. Chceme-li najít všechna pomocná slovesa, je třeba místo pouhéhodeprel="aux"
použít výrazdeprel="aux.*"
. Všechny podměty najdeme výrazemdeprel="nsubj.*"
. - U koordinovaných větných členů najdeme takto jen první člen koordinace. Druhý a další člen je označen jako
deprel="conj"
. Syntaktickou funkci celé koordinace lze zjistit z atributudeprel
prvního členu, který je hlavou ostatních, tedy pomocí atributup_deprel
. Podrobněji viz dále Koordinace. - Seznam všech funkcí a jejich podtypů lze pro libovolný jazyk zobrazit v prohlížeči KonText. Vyberte konkrétní jazykový subkorpus, klikněte na
Dotaz
v horní liště a v nabídce zvolteSeznam slov
. V rámečku zaHledat podle atributu
nastavte možnostdeprel
. Pak klikněte dole naVytvořit seznam slov
. Funkce jsou seřazeny podle frekvence. Chcete-li je seřadit podle abecedy, klikněte na záhlaví sloupcedeprel
. Seznam obsahuje samostatné položky pro vícedílné tokeny s oddělovačem „|“.
deprel | glosa | příklad4) |
---|---|---|
acl | přívlastek jako finitní i nefinitní klauze, nevazebný dopolněk | Mám dojem, že bych nepřepral ani hraboše. Nikdy jsem ji neviděl naštvanou. |
acl:relcl | vztažná věta | Nevěří tomu, co vidí. |
advcl | vedlejší věta příslovečná | Spěchal, aby přišel včas. |
advmod | adverbiální příslovečné určení | geneticky upravené potraviny |
advmod:emph | zdůrazňovací slovo, intensifikátor | Trvalo to sotva pár vteřin. |
amod | adjektivní (shodný) přívlastek | Václav si vzal třímilionovou půjčku. |
appos | apozice (přístavek) | Přijel Michal, můj bratr. |
aux | pomocné sloveso | Mohli byste přijet už příští týden? |
aux:pass | pomocné sloveso trpného rodu | Výstrahy byly bohužel oslyšeny. |
case | předložka | Bydlím na samotě. |
cc | souřadicí spojka | Je to mladý a nadějný chlapík. |
ccomp | obligatorní větné doplnění | Ještě včera hlásili, že pršet nebude. |
clf | klasifikátor | 三个学生 sān gè xuéshēng |
compound | nefinální části složené číslovky | Bude to stát padesát pět tisíc korun. |
conj | další člen koordinace | Teta včera večer přijela, přespala a ráno zase odjela. |
cop | spona | Lenka je v kondici. |
csubj | větný podmět | Obžalovanému přitížilo, že neměl alibi. |
csubj:pass | větný podmět pasiva | Jak se pozná, že je to správně? |
dep | nespecifikovaná závislost | Rozhlédl se na druhou. |
det | determinace | Která kniha se vám líbí nejvíc? |
det:numgov | zájmenná číslovka v neshodném pádu 5) | Mimoto bylo nablízku několik dalších králíků. |
det:nummod | zájmenná číslovka ve shodném pádu 6) | V městě se na mnoha místech objevily plameny. |
discourse | diskursní výraz | čemu že se to zpronevěřily |
dislocated | extrapozice | Dumplings I like. |
expl:pass | zvratné zájmeno ve zvratném pasivu | S tím se nedalo nic dělat. |
expl:pv | zvratná částice u reflexiva tantum | Ona se občas tak legračně dívá. |
fixed | další části víceslovného výrazu | ve srovnání například s úvěry |
flat | další části označení osoby | Nejlépe to vyjádřil papež Jan Pavel II. |
flat:foreign | další části cizího víceslovného výrazu | Summum ius, summa iniuria je estetická maxima. |
goeswith | další část chybně rozděleného tvaru | Zastavil se a z těžka oddychoval. |
iobj | nepřímý předmět v akuzativu | Učí mne chemii. |
list | další části seznamu | Steve Jones tel.: 555-9814 e-mail: jones@abc.edf |
mark | podřadicí spojka | Nevěděli jsme, že babička není doma. |
nmod | jmenný (neshodný) přívlastek | kancelář ředitele |
nsubj | jmenný podmět | Auto je červené. |
nsubj:pass | podmět věty se slovesem v trpném rodě | Vypnutí vysílačky se trestá. |
nummod | číslovka | Jedno kotě spalo. |
nummod:gov | číslovka v pádu neshodném se jménem | Pět mužů hrálo karty. |
obj | přímý předmět | Přiloží si ruku na srdce. |
obl | jmenné příslovečné určení | Vzduch se tetelil očekáváním blaha. |
obl:arg | předmět v nepřímém pádu nebo přísl. určení ve funkci argumentu | Otec určitě myslel jen na matku. Věnoval jí knížku. |
orphan | závislost na vypuštěném větném členu | Pavel si objednal špenát a Markéta brokolici. |
parataxis | vsuvka, uvozovací věta | „Ten člověk,“ řekl Honza, „odjel brzy ráno.“ |
punct | interpunkce | Máte všecko? |
reparandum | oprava chyby v plynulosti řeči | Jděte dopra- doleva. |
root | řídící člen věty | Miluju anglickou kuchyni. |
vocative | oslovení | Honzo, pojď mi pomoct! |
xcomp | adjektivum nebo sloveso jako obligatorní doplnění s nevyjádřeným podmětem | Doktorka mi doporučila denně cvičit. |
Odkazy na řídící člen
- Kromě odkazu na hlavu (
head
jako slovosledné pořadí hlavy ve větě neboparent
jako její relativní pozice vůči danému slovu) jsou u každého tokenu uvedeny i některé další atributy jeho hlavy: lemma (p_lemma
), slovní druh (p_upos
), morfologické kategorie (p_feats
) a syntaktická funkce (p_deprel
). - Token může být vybaven i atributy, které specifikují vlastnosti pomocného slova, které na tokenu závisí. Např. lemma předložky je určeno atributem
case_lemma
, morfologické kategorie pomocného slovesa atributemaux_feats
, morfologické kategorie spony atributemcop_feats
, slovní druh determinátoru atributemdet_upos
, lemma podřadicí spojky atributemmark_lemma
. - Podobné prostředky reprezentace syntaktické struktury používají i jiné syntakticky anotované korpusy zpřístupněné v prohlížeči KonText (např.
syn2020
).
Odkazy na pomocná slova
- Mezi pomocná slova patří podle UD pomocná slovesa, předložky, podřadicí spojky, spona, determinátory a kvantifikátory.
- Pomocná slova závisejí na příslušném slově významovém.
- Druhy pomocných slov jsou určeny svou syntaktickou funkcí, tedy hodnotou atributu
deprel
:aux
(pomocná slovesa),case
(předložky),mark
(podřadicí spojky),cop
(spona),det
(determinátor, člen) aclf
(klasifikátory). - Za každé pomocné slovo může být u jeho řídícího slova významového uvedeno
lemma
,upos
,feats
a podrobnější specifikace druhu pomocného slovatype
, např.aux_type="pass"
(viz passive auxiliary) nebodet_type="numgov"
(viz pronominal quantifier governing the case of the noun). - Názvy příslušných atributů významového slova se skládají z funkce a atributu pomocného slova. Např.
case_lemma
specifikuje u substantiva nebo zájmena lemma předložky,aux_feats
u slovesa významového specifikuje morfologické kategorie pomocného slovesa. - Na jednom významovém slově může záviset více slov pomocných, např. u minulého kondicionálu i tři (byl bych býval zůstal doma). V příslušném atributu se pak objeví hodnoty ze všech pomocných slov, oddělené znakem „
|
“. Hodnoty atributufeats
od více pomocných sloves závislých na jednom významovém se spojí do jedné hodnoty, kde se některé kategorie, např. specifikace slovesného tvaru, mohou opakovat, protože pocházejí od více než jednoho tvaru. Např. ve větě kdo by to byl tušil seaux_feats
významového slovesa tušil skládá zfeats
pomocných sloves by (Mood=Cnd|VerbForm=Fin
) a byl (Animacy=Anim|Gender=Masc|Number=Sing|Polarity=Pos|Tense=Past|VerbForm=Part|Voice=Act
).
Koordinace
- První člen koordinace závisí na hlavě celé koordinace. Jeho syntaktická funkce určuje syntaktickou funkci celé koordinace.
- Druhý a další člen koordinace závisí vždy na prvním členu koordinace. Jejich syntaktická funkce je určena jako
conj
. - Spojka závisí na následujícím členu koordinace. Její syntaktická funkce je
cc
. - K identifikaci hlavy bez ohledu na to, zda je token členem koordinace nebo zda je v ní na prvním nebo některém dalším místě, slouží odkaz na tzv. efektivní hlavu: atribut
e_id
odkazuje na její identifikátor (pořadové číslo tokenu představujícího hlavu v rámci věty), atributeparent
na její relativní pozici vůči danému tokenu. - Ve verzi 16ud je další atribut
e_deprel
, jehož hodnota se rovná hodnotě atributudeprel
daného tokenu, s výjimkou případů, kdy daný token není prvním členem koordinace, tj. když jehodeprel
má hodnotuconj
. V těchto případech se hodnotae_deprel
rovná hodnotěp_deprel
– ukazuje tedy syntaktickou funkci celé koordinace. - Atribut
e_deprel
má stejnou hodnotu jakop_deprel
také v případech, kdy má atributdeprel
hodnotufixed
,flat
,compound
nebolist
. Tokeny, které jsou součástí takových konstrukcí, lze tedy také vyhledávat podle syntaktické funkce celé konstrukce pomocí atributue_deprel
. - Chceme-li vyhledat všechna slova s určitou syntaktickou funkcí, včetně těch, které jsou součástí koordinace, můžeme ve verzi 13ud, kde atribut
e_deprel
chybí, využít atributp_deprel
, který ukazuje syntaktickou funkci hlavy daného tokenu. Např. dotaz na všechny přímé předměty, včetně koordinovaných, tak můžeme formulovat pomocí operátoru disjunkce (|) takto:[deprel="obj" | deprel="conj" & p_deprel="obj"]
.
UD a KonText
Hledání v korpusu
Jednoduchý dotaz
- Jednoduchý dotaz na slovní tvar nebo slovní spojení se zadává stejně jako v předchozích verzích InterCorpu.7)
Dotaz na lemma a morfologickou značku (tag)
- Stejně jako v předchozích verzích InterCorpu lze v pokročilém dotazu zadat lemma a morfologickou značku (tag). U většiny lingvisticky anotovaných jazyků (výjimkou jsou be, da, en, fr, hu, no a ru) je možné zadat značku z jazykově specifické sady (národního tagsetu), obvykle totožné se sadou z předchozích verzí InterCorpu pro daný jazyk. Jen je třeba místo atributu
tag
použít atributxpos
(u jazyků be, da, en, fr, hu, no a ru tento atribut chybí). Např. dotaz na substantiva ženského rodu ve vokativu singuláru v češtině lze tímto způsobem zadat takto:[xpos="NNFS5.*"]
. - Slovní druh a morfologické kategorie se podle UD uvádějí zvlášť jako hodnoty atributů
upos
afeats
. Jejich hodnoty lze zadat pomocí funkceVložit tag
. - Slovní druhy (
upos
) jsou stejné pro všechny jazyky. Např. dotaz na vlastní jména lze i bez využití funkceVložit tag
zadat takto: [upos="PROPN"]. - Další morfologické kategorie jsou uvedeny v atributu
feats
nebo samostatně jako kategoriální atributy. Podrobněji výše viz Další kategorie.
Zadávání dotazu na slovní druh a morfologické kategorie pomocí nabídky
- Při zadávání pokročilého dotazu lze využít funkci
Vložit tag
, která umožňuje ve všech lingvisticky anotovaných jazycích vybrat podle nabídky slovní druh a/nebo hodnoty příslušných kategorií (vlastností) ze seznamufeats
. Nabídka vlastností se u daného slovního druhu řídí jejich reálným výskytem v korpusu, takže může odrážet i chybné kombinace.
Dotaz na syntaktickou funkci
- Syntaktická funkce se u každého tokenu uvádí jako hodnota atributu
deprel
(viz Syntaktické funkce). - Např. dotaz, který má ukázat výskyty slovesa běhat ve funkci řídícího členu přívlastkové věty, se zadává jako
[lemma="běhat" & deprel="acl"]
. Mezi výsledky najdeme např. větu Copak máme čas běhat každý den pro vodu se dždánem ke studni nebo chodit do potoka? nebo Vlk musel uznat, že ještě nikdy za celou tu dobu, co běhá po lese a po polích, neviděl nic tak roztomilého.8)
Výsledky dotazu
Formátovaný text
- Po kliknutí na klíčové slovo a
Formátovaný text
v záhlaví kontextového rámečku se objeví konkordance spolu s nejbližším kontextem v podobě, která se blíží původní typografii textu. Nejsou v ní např. mezery mezi koncem slova a interpunkcí a odstavce jsou odděleny prázdným řádkem.
Zobrazení syntaktické struktury
- Po kliknutí na ikonku syntaktické struktury na začátku řádky každé konkordance se zobrazí syntaktická struktura věty. U každého uzlu je uveden slovní tvar (hodnota atributu
word
), slovní druh a syntaktická funkce slova, které k danému tokenu patří. Po kliknutí na daný uzel se objeví další anotace, zejména lemma daného tvaru. - Vícedílné tokeny jsou rozděleny do více uzlů a slovní tvar pak odpovídá příslušné části tokenu (atributu
iword
). Např. token oč je rozdělen na části o a č. Po kliknutí na takový uzel (např. na č) se kromě lemmatu dané části vícedílného tokenu (co) objeví i její plná podoba (jako samostatné slovo, atributsword
, zde opět co) a slovní tvar celého tokenu (word
, zde oč). - V textové řádce nad strukturou i ve struktuře se pod kurzorem paralelně zvýrazňují relevantní řetězce a uzly.
Příklady dotazů
Dotazy ukazují zejména možnosti využití syntaktických funkcí ve spojení se slovními druhy a morfologickými kategoriemi, ale obsahují také odkazy na syntakticky řídící členy a závislá pomocná slova. Většina dotazů se týká češtiny, ale jsou použitelné i v jiných jazycích. Typ jazyka může vyžadovat menší či větší úpravy dotazu. Dotazy lze zadávat v jednom jazyce, nebo paralelně ve dvou i více jazycích.
Kdo nejčastěji zpívá?
[deprel="nsubj" & p_lemma="zpívat"]
- Tento dotaz hledá podměty slovesa zpívat. Najde např. větu Vaše sestřenice zpívá opravdu krásně.
- Nejčastější lexémy ve funkci podmětu slovesa zpívat zjistíme z frekvenční distribuce podle lemmat klíčového slova (v menu KonTextu:
Frekvence / Lemmata
).
Co dělají ptáci nejčastěji?
[deprel="nsubj" & lemma="pták"]
- Tento dotaz hledá tvary lexému pták ve funkci podmětu. Najde např. větu Několik ptáků znechuceně odletělo.
- Nejčastější lexémy řídícího slovesa podmětu zjistíme nejlépe z frekvenční distribuce podle atributu
p_lemma
(v menu KonTextu:Frekvence / Vlastní... / Atribut: p_lemma
).
Předložkové pády
[case="Acc" & case_lemma="o"]
- Tento dotaz najde všechna jména, tj. slova, která se skloňují (mají pád), tedy substantiva, zájmena a adjektiva; pádem má být akuzativ a dané jméno následuje po předložce o (lemma závislého pomocného slova se syntaktickou funkcí
case
je o). - Najdeme tak např. větu Dědovy holínky pleskaly o dlaždičky.
- Vzhledem k tomu, že údaj o předložce bývá uveden jen u substantiv nebo zájmen, ve výsledku by se adjektiva neměla objevit.
- Nejčastější lexémy řídícího slovesa předložkového pádu zjistíme nejlépe z frekvenční distribuce podle atributu
p_lemma
, tedy lemmatu hlavy daného tokenu (v menu KonTextu:Frekvence / Vlastní... / Atribut: p_lemma
).
Slovesa s nepřímým předmětem
[deprel="iobj"]
- Tento dotaz najde v anglických textech nepřímé předměty.
- Lemma řídícího členu nepřímého předmětu zjistíme pomocí frekvenční distribuce podle atributu
p_lemma
. - Podle UD by se předmět v dativu (např. v němčině nebo češtině) měl považovat za tzv. non-core dependent a měl by být označen za
deprel="obl"
nebo (pokud možno)deprel="obl:arg"
. Podrobněji viz Core Arguments vs. Oblique Modifiers.
Předměty v dativu, i v koordinaci
[case="Dat" & e_deprel="obl:arg"]
- Tento dotaz najde ve verzi 16ud přímé předměty v dativu, i když jsou součástí koordinace, např. ve větě Chytil chřipku, které v novinách říkali „ruská“. nebo Není jiná možnost, než je ukrást mamce, jejímu manželovi a babičce.
- U koordinovaných předmětů je každý z nich v samostatné konkordanci.
[case="Dat" & deprel="obl:arg" | case="Dat" & deprel="conj" & p_deprel="obl:arg"]
- Tento dotaz je třeba použít ve verzi 13ud, kde chybí atribut
e_deprel
. Najde totéž. - Buď je v dativu s funkcí přímého předmětu klíčové slovo (
case="Dat" & deprel="obj"
), nebo má klíčové slovo v dativu (case="Dat"
) funkciconj
(deprel="conj"
) a závisí na uzlu s funkcí přímého předmětu (p_deprel="obj"
). To znamená, že je druhým nebo dalším členem koordinace, která má celá funkciobj
.
Vlastní jména jako podmět, i v koordinaci
[deprel="nsubj" & upos="PROPN" | deprel="conj" & p_deprel="nsubj" & upos="PROPN"]
- Tento dotaz najde vlastní jména ve funkci podmětu, i když jsou součástí koordinace.
- Např. ve větě Evropa a Japonsko se v mnohém cítí stejně ukřivděně jako Trump. se ve výsledcích objeví Evropa i Japonsko.
- Ve verzi 16ud najdeme totéž pomocí atributu
e_deprel
jednodušeji:
[e_deprel="nsubj" & upos="PROPN"]
Předměty infinitivu v instrumentálu
[upos="NOUN" & case="Ins" & deprel="obj" & p_feats="VerbForm=Inf"]
- Tento dotaz najde substantiva v instrumentálu ve funkci přímého předmětu infinitivu, např. ve větě snažil se ji potěšit dárky.
- Lexémy infinitivu zjistíme nejlépe z frekvenční distribuce podle atributu
p_lemma
, tedy lemmatu hlavy klíčového slova (v menu KonTextu:Frekvence / Vlastní... / Atribut: p_lemma
).
Slovesa v 1. osobě singuláru minulého času
[feats="Gender=Neut" & feats="Number=Sing" & feats="Tense=Past" & upos="VERB" & aux_feats="Person=1" & aux_feats="Mood=Ind"]
- Tento dotaz najde l-ová příčestí pro minulý čas ve tvaru neutra singuláru s pomocným slovesem v první osobě, např. ve větě „To jsem rádo,“ řeklo Prasátko, „že jsem ti dalo něco, co se dá uložit do užitečné nádoby.“
- UD v češtině u l-ového příčestí nerozlišuje, zda jde o tvar minulého času nebo podmiňovacího způsobu, v obou případech je ve
feats
údajTense=Past
. Proto je třeba v dotazu uvést kromě osoby pomocného slovesaaux_feats="Person=1"
i jeho způsob:aux_feats="Mood=Ind"
. - Dotaz na příčestí byl zadán pomocí funkce
Vložit tag
, která do dotazu vkládá specifikace ze seznamufeats
. - Stejný výsledek dostaneme i následujícím dotazem, který využívá kategoriální atributy mimo feats:
[gender="Neut" & number="Sing" & tense="Past" & upos="VERB" & aux_feats="Person=1" & aux_feats="Mood=Ind"]
Konstrukce akuzativu s infinitivem
1:[lemma="vidět|slyšet"] []* 2:[case="Acc" & deprel="obj"] []* 3:[verb_form="Inf" & deprel="xcomp"] & 2.head=1.id & 3.head=1.id within <s/>
- Tento dotaz najde věty se slovesy vidět nebo slyšet, na nichž závisí přímý předmět v akuzativu a infinitiv ve funkci
xcomp
. Mezi těmito tokeny může být libovolný počet jiných slov, ale jen v rámci jedné věty, např. ve větě Ale byl sám a slyšel mladíkovy kroky stoupat po schodech. - Dotaz obsahuje tzv. globální podmínku, která v tomto dotazu specifikuje syntaktické závislosti mezi třemi očíslovanými tokeny.
- Výraz
2.head=1.id
zajišťuje, že předmět závisí na daných slovesech (odkaz na hlavu předmětu musí mít stejnou hodnotu jako identifikátor slovesa vidět nebo slyšet). Výraz3.head=1.id
pak zajišťuje, že na daných slovesech závisí také infinitiv.
Minulý kondicionál v činném rodě
[voice="Act" & aux_feats="Mood=Cnd" & aux_feats="Tense=Past"]
- Tento dotaz najde věty se slovesem v rodě činném a podmiňovacím způsobu minulém, tedy např. větu Kdo by to byl tušil, …
- U významového slovesa stačí údaj o činném rodě
voice="Act"
, slovesný tvar (l-ové příčestí) je určen tím, že na slovese má záviset kondicionálový auxiliár by (aux_feats="Mood=Cnd"
). - Další výraz (
aux_feats="Tense=Past"]
) se týká druhého pomocného slovesa byl. Hodnotyfeats
obou pomocných sloves jsou atributuaux_feats
spojeny do jedné (viz výše Odkazy na pomocná slova). - Dotaz najde i věty typu Kdybych to byl tušil, …, přestože se může zdát, že věta kondicionálový auxiliár neobsahuje. Token kdybych je však rozdělen na podřadicí spojku kdy a pomocné sloveso bych, jehož kategorie se promítnou do anotace významového slovesa podobně jako kategorie tvaru by, tedy včetně specifikace
Mood=Cnd
.
Minulý kondicionál v trpném rodě
[voice="Pass" & aux_feats="Mood=Cnd" & aux_feats=".*Tense=Past.*Tense=Past.*"]
- Tento dotaz najde věty se slovesem v rodě trpném a podmiňovacím způsobu minulém, tedy např. větu … aféra by byla bývala ututlána.
- Sloveso ve tvaru opisného pasiva má adjektivní lemma, tedy např. ututlaný, slovní druh
upos=ADJ
a morfologické kategoriefeats="...Variant=Short|VerbForm=Part|Voice=Pass"
.9) - Hodnoty atributu
feats
od více pomocných sloves závislých na jednom významovém jsou spojené do jedné hodnoty, kde se např. specifikace kategorie času může opakovat, protože pochází od více než jednoho tvaru. V tomto případě od dvou pomocných sloves byla a bývala. Právě toho využívá tento dotaz. - Pokud bychom při dotazu na trpný rod uvedli pouze
[aux_feats="Tense=Past"]
, dostali bychom i tvary podmiňovacího způsobu přítomného, v němž se l-ové příčestí objevuje pouze jednou jako pomocné sloveso trpného rodu (… aféra by byla ututlána.)
Negace významového slovesa, vyjádřená také negací slovesa pomocného
[upos="VERB" & deprel!="aux" & (polarity="Neg" | aux_feats="Polarity=Neg")]
- Tento dotaz najde významová slovesa s prefixem ne- nebo s pomocným slovesem, které má tento prefix, např. … zase tak moc jsem od tebe nechtěla; nebudu dělat nic.
- Významové sloveso, jehož syntaktická funkce není
aux
(deprel!="aux"
) je buď negované samo (polarity="Neg"
), nebo je negované jeho pomocné sloveso (aux_feats="Polarity=Neg"
).
Průběhové perfektum v angličtině
[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part"]
- Tento dotaz najde věty se slovesem v průběhovém perfektu (přítomném i minulém), např. … has been constantly increasing in velocity.
- Specifikace
VerbForm=Fin
se týká pomocného slovesa has aVerbForm=Part
druhého pomocného slovesa been. Oba výrazy jsou součástí jedné hodnoty atributuaux_feats
. - Chceme-li najít pouze tvary minulého průběhového perfekta, nestačí přidat
aux_feats="Tense=Past"
, protože tento údaj obsahuje i pomocné sloveso been. K zadání hodnotyaux_feats
je tedy třeba použít regulární výraz, stejně jako v českém příkladu Minulý kondicionál v trpném rodě, viz následující dotaz:10)
[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part" & aux_feats=".*Tense=Past.*Tense=Past.*"]
- Naopak k vyhledání pouze přítomných tvarů průběhové perfekta stačí přidat výraz
aux_feats="Tense=Pres"
, který se vaux_feats
vyskytuje jen jednou, a to u finitního tvaru pomocného slovesa have, viz následující dotaz:
[feats="VerbForm=Ger" & aux_feats="VerbForm=Fin" & aux_feats="VerbForm=Part" & aux_feats="Tense=Pres"]
Legenda k seznamu atributů
- V Seznamu atributů podle jazyků ve verzi 13ud nebo Seznamu atributů podle jazyků ve verzi 13ud jsou pod sebou všechny atributy v daném korpusu.
- Ve sloupcích je uvedeno, zda je atribut využit pro jazyk určený zkratkou v záhlaví.
- Atributy jsou rozděleny do čtyř kategorií, odlišených barvou pozadí.
- Pro stručnost jsou uvedeny jen lingvisticky označkované jazyky. Např. v seznamu k verzi 16ud je vynecháno 14 jazyků označených zkratkami bn, br, bs, eo, hs, ka, mk, ml, ms, rn, si, sq, th a tl. U těchto jazyků lze hledat jen podle atributů
word
alc
.
Základní atributy
- Těchto 12 atributů je na světle fialovém pozadí.
- Obsahují tyto údaje: slovní tvar, lemma, slovní druh, morfologické kategorie, pořadí tokenu ve větě, odkaz na hlavu a syntaktická funkce.
- Přidané jsou atributy
lc
alc_lemma
, které půodobně jako v jiných korpusech ČNK opakují slovní tvar a lemma, ale bez případných velkých písmen. - U jazyků s vícedílnými tokeny (agregáty) jsou navíc také atributy
sword
aiword
. - Atribut
sword
uvádí slovní tvar agregátu rozdělený znakem „|“ na části, které odpovídají syntaktickým slovům v podobě samostatného slova, tedy např. u tokenu nač nebo abychom je hodnotasword
rovnana|co
neboaby|bychom
. - Atribut
iword
dělí agregát na části bez dalších úprav, u tokenu nač nebo abychom je hodnotaiword
rovnana|č
neboa|bychom
.
Strukturní atributy
- Tyto atributy je na světle modrém pozadí.
- Rozšiřují odkaz na syntaktickou hlavu tokenu (
head
) o další atributy, usnadňující identifikaci hlavy a orientaci v jejích vlastnostech, např. na její lemma (p_lemma
), slovní druh (p_upos
) nebo syntaktickou funkci (p_deprel
). - Atributy tohoto typu jsou v plném počtu u všech jazyků.
Atributy pomocných slov
- Tyto atributy jsou na světle zeleném pozadí.
- Uvádějí se u významového slova s cílem specifikovat podstatné vlastnosti závislého slova pomocného.
- Je jejich celkem 20, ale žádný jazyk nevyužívá všechny.
- Atributy se týkají 6 druhů pomocných slov, určených jejich syntaktickou funkcí ve vztahu ke slovu významovému, např. pomocných sloves (
aux
), předložek (case
) nebo podřadicích spojek (mark
). - U každého pomocného slova lze uvést lemma, slovní druh, morfologické kategorie a podtyp pomocného slova.
- Název atributu se skládá z názvu syntaktické funkce pomocného slova a názvu jeho vlastnosti (atributu), např.
case_lemma
je název atributu pro lemma předložky. - Nevyužité nebo málo informativní atributy, vytvořené kombinací funkce a vlastnosti pomocného slova, v daném jazyce nejsou. V žádném jazyce se nevyskytují čtyři z možných kombinací.
- Nejvíc jazyků (35) využívá atribut
case_lemma
(lemma adpozice, nejčastěji předložky), následujemark_lemma
(lemma podřadicí spojky, v 33 jazycích). - Atribut
clf_lemma
(lemma klasifikátoru) se objevuje jen v čínštině. - Je-li u významového slova více pomocných stejného druhu (např. více pomocných sloves u minulého kondicionálu), jsou jejich hodnoty odděleny znakem „|“.
Atributy vybraných kategorií
- Na světle hnědém pozadí je výběr 18 atributů z morfologických kategorií (
feats
). - Jen lotyština využívá všechny, naopak maltština žádný. Kromě typu jazyka záleží i na dostupnosti kategorie v datech UD.
Chyby a nedostatky lingvistické anotace podle UD
- Slovní druh (
upos
) a morfologické kategorie (feats
) někdy nejsou v souladu. - Zásady jednotné klasifikace jevů se neuplatňují ve všech jazycích stejně důsledně.
- Chyby a nedůslednosti v daném jazyce (např. udělals jako jednodílný token).
- Ve verzi 13ud je v němčině u sloves i osobních zájmen kategorie osoby často určena nesprávně, např. siehst nebo du je podle anotace 1. nebo 3. osoba. UDPipe se takhle mýlí i ve verzi 2 podle modelu german-hdt-ud-2.10-220711. Model german-gsd-ud-2.10-220711 to má správně.
Kvalita anotace v různých jazycích se liší zejména objemem a kvalitou trénovacích dat. Má na ni vliv i metoda a nástroj použitý k anotaci.
Uživatelům budeme vděční za každou nahlášenou chybu, nesrovnalost, nedostatek, připomínku a námět na adrese Uživatelské podpory ČNK. V tématu zprávy uveďte prosím na začátku zkratku „UD“.
Odkazy
Výběr literatury k UD
Marie-Catherine de Marneffe, Christopher Manning, Joakim Nivre, Daniel Zeman (2021): Universal Dependencies. In: Computational Linguistics, ISSN 1530-9312, vol. 47, no. 2, pp. 255-308.
Timothy Baldwin, William Croft, Joakim Nivre, Agata Savary (2021): Universals of Linguistic Idiosyncrasy in Multilingual Computational Linguistics. Report from Dagstuhl Seminar 21351. DOI: 10.4230/DagRep.11.7.89
Daniel Zeman (2018): The World of Tokens, Tags and Trees. ISBN 978-80-88132-09-7.
Úplný seznam najdete zde.
Tutoriály a přednášky o UD
Joakim Nivre: Ten Years of Universal Dependencies. Praha, 22/04/2024.
Daniel Zeman: Universal Dependencies and the Slavic Languages. Warszawa, 19.11.2018.
Joakim Nivre, Daniel Zeman, Filip Ginter, Francis M. Tyers: Tutorial on Universal Dependencies: Adding a new language to UD
Anna Nedoluzhko, Michal Novák, Martin Popel, Zdeněk Žabokrtský, Daniel Zeman: Coreference meets Universal Dependencies. Praha, 19/04/2021.
Daniel Zeman: Reflexives in Universal Dependencies. Praha, 04/03/2019.
O korpusu InterCorp s anotací podle UD
Olga Nádvorníková a Alexandr Rosen (2024): Vyhledávání v paralelním korpusu za použití anotace Universal Dependencies. Záznam workshopu z 17. 9. 2024, doprovodné akce Bienále české lingvistiky 2024, viz též prezentace.
Alexandr Rosen (2024): Exploring InterCorp v16ud: the potential of a multilingual parallel treebank with complexity and diversity metrics. Instytut Slawistyki Zachodniej i Południowej, Uniwersytet Warszawski. Warszawa, 10/06/2024. Prezentace
Olga Nádvorníková (2024): Analyse contrastive de la complexité syntaxique à l’aide de corpus parallèles. Translitteræ, Laboratoire LATTICE (Langues, Textes, Traitements informatiques et Cognition) – CNRS UMR 8094 (Centre national de la recherche scientifique: Unité mixte de recherche), ENS (L'École normale supérieure). Paris, 28/05/2024. Záznam přednášky, prezentace.
Olga Nádvorníková, Alexandr Rosen, Martin Stluka (2024): InterCorp a Universal Dependencies: nové možnosti výzkumu. Teoreticko-metodologický seminář Ústavu českého jazyka a teorie komunikace FF UK. Praha, 20/03/2024, 27/03/2024. Program workshopu s odkazy na prezentace a záznamy
Alexandr Rosen (2023). The InterCorp parallel corpus with a uniform annotation for all languages. Jazykovedný časopis, 74(1):254–265. Článek, prezentace
Olga Nádvorníková, Alexandr Rosen, Martin Vavřín (2021): InterCorp s jednotnou morfologickou a syntaktickou anotací podle Universal Dependencies: zážitky tvůrců a uživatelů. Praha, 16/11/2021. Záznam přednášky, prezentace: zážitky tvůrců, zážitky uživatelů
verb_form
místo VerbForm
(jak je to ve feats
) nebo num_type
místo NumType
. Hodnoty atributů, např. Fem
, si ponechávají velké počáteční písmeno, ale uvádějí se v uvozovkách, stejně jako jiné atributy.iword
, jako druhou za pomlčkou uvádíme podobu rekonstruovanou, tedy hodnotu atributu sword
. Je-li v závorce tvar jen jeden, jsou obě možnosti identické, nebo v daném jazyce rekonstruované tvary nejsou.[lemma="běhající" & deprel="amod"]
.feats="...Voice=Act"
.Tense=Past
uveden u tvaru might.