AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Universal Dependencies – UD

Universal Dependencies je otevřený mezinárodní projekt, jehož cílem je shromažďovat a nabízet texty v mnoha jazycích, a to s lingvistickou anotací provedenou jednotným způsobem. Zásady morfologické a syntaktické anotace podle UD spolu s anotačními nástroji vytvořenými v rámci tohoto projektu byly využity k anotaci verze 13ud paralelního korpusu InterCorp.

Obecné zásady anotace jsou uvedeny na stránkách projektu UD (UD Guidelines), včetně podrobného popisu:

Hlavní specifika verzí InterCorpu anotovaných podle UD:

  • Slovní druh a morfologické kategorie podle UD, označované jednotně u všech jazyků, se uvádějí zvlášť jako hodnoty atributu upos (viz níže část Slovní druh) a feats (viz Další kategorie). Často využívané morfologické kategorie ze seznamu feats byly povýšeny na samostatné, tzv. kategoriální atributy na úrovni upos. To se týká např. morfologického pádu a čísla (case, number), jmenného rodu (gender) nebo osoby (person).
  • Pro využití v KonTextu byly agregáty, tj. slovní tvary složené ze dvou nebo i tří syntaktických slov, upraveny do podoby dělených tokenů. V češtině se to týká např. tvarů ses (se+jsi) nebo (o+co). Podrobněji viz níže část Vícedílné tokeny.
  • U každého slova je určena jeho syntaktická funkce (deprel – viz Syntaktické funkce a řídící člen v závislostní syntaktické struktuře, tzv. hlava (head). K usnadnění orientace v této struktuře se uvádějí také odkazy na důležité vlastnosti hlavy (lemma, slovní druh a morfologické kategorie, viz Odkazy na řídící člen). Pokud k významovému slovu patří nějaké slovo pomocné (např. předložka, pomocné sloveso, podřadicí spojka), uvádějí se u významového slova také některé vlastnosti pomocného slova (viz Odkazy na pomocná slova).
  • Jazyky se liší v repertoáru kategoriálních atributů i v odkazech na pomocná slova. Podrobnosti jsou uvedeny v Seznamu atributů podle jazyků, který je popsán níže v Legendě k seznamu atributů.
  • KonText usnadňuje hledání podle slovního druhu a dalších morfologických kategorií pomocí funkce Vložit tag, která do dotazu vkládá slovní druh podle UD (upos) a libovolné kategorie ze seznamu feats. Funkce Vložit tag je dostupná u všech lingvisticky anotovaných jazyků.