Toto je starší verze dokumentu!
Universal Dependencies – UD
Universal Dependencies je otevřený mezinárodní projekt, jehož cílem je shromažďovat a nabízet texty v mnoha jazycích, a to s lingvistickou anotací provedenou jednotným způsobem. Zásady morfologické a syntaktické anotace podle UD spolu s anotačními nástroji vytvořenými v rámci tohoto projektu byly využity k anotaci verze 13ud paralelního korpusu InterCorp.
Obecné zásady anotace jsou uvedeny na stránkách projektu UD (UD Guidelines), včetně podrobného popisu:
- slovních druhů (Universal POS tags)
- morfologických kategorií (Universal features)
- syntaktických funkcí (Universal Dependency Relations)
Hlavní specifika verzí InterCorpu anotovaných podle UD:
- Slovní druh a morfologické kategorie podle UD, označované jednotně u všech jazyků, se uvádějí zvlášť jako hodnoty atributu
upos
(viz níže část Slovní druh) afeats
(viz Další kategorie). Často využívané morfologické kategorie ze seznamufeats
byly povýšeny na samostatné, tzv. kategoriální atributy na úrovniupos
. To se týká např. morfologického pádu a čísla (case
,number
), jmenného rodu (gender
) nebo osoby (person
). - Pro využití v KonTextu byly agregáty, tj. slovní tvary složené ze dvou nebo i tří syntaktických slov, upraveny do podoby dělených tokenů. V češtině se to týká např. tvarů ses (se+jsi) nebo oč (o+co). Podrobněji viz níže část Vícedílné tokeny.
- U každého slova je určena jeho syntaktická funkce (
deprel
– viz Syntaktické funkce a řídící člen v závislostní syntaktické struktuře, tzv. hlava (head
). K usnadnění orientace v této struktuře se uvádějí také odkazy na důležité vlastnosti hlavy (lemma, slovní druh a morfologické kategorie, viz Odkazy na řídící člen). Pokud k významovému slovu patří nějaké slovo pomocné (např. předložka, pomocné sloveso, podřadicí spojka), uvádějí se u významového slova také některé vlastnosti pomocného slova (viz Odkazy na pomocná slova). - Jazyky se liší v repertoáru kategoriálních atributů i v odkazech na pomocná slova. Podrobnosti jsou uvedeny v Seznamu atributů podle jazyků, který je popsán níže v Legendě k seznamu atributů.
- KonText usnadňuje hledání podle slovního druhu a dalších morfologických kategorií pomocí funkce
Vložit tag
, která do dotazu vkládá slovní druh podle UD (upos
) a libovolné kategorie ze seznamufeats
. FunkceVložit tag
je dostupná u všech lingvisticky anotovaných jazyků.