AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
hickok:stc_strdc_ud [2025/02/12 09:39] – [Zájmena] doplnění u ješto jiriperglerhickok:stc_strdc_ud [2025/09/13 12:36] (aktuální) – Gender+Animacy dovoleno u NumType=Sets. danzeman
Řádek 58: Řádek 58:
   * násobné   * násobné
     * typu //-krát// POS=ADV, NumType=Mult     * typu //-krát// POS=ADV, NumType=Mult
-    * //dvojí, trojí, čtverý// POS=ADJ, NumType=Mult+    * //dvojí, trojí, čtverý, obojí// POS=ADJ, NumType=Mult
   * druhové   * druhové
-    * //jedny, dvoje, troje, čtvery// POS=NUM, NumType=Sets +    * //jedny, dvoje, troje, čtvery, oboje// POS=NUM, NumType=Sets 
-    * //čtvero, patero, desatero// POS=NUM, NumType=Card+    * //čtvero, patero, desatero, dvé, tré, obé// POS=NUM, NumType=Card
   * NumType=Frac je definováno pro zlomky typu //-ina// (jmenovatel), ale v současných UD se používá nekonzistentně ([[https://github.com/UniversalDependencies/docs/issues/884#issuecomment-1193721487|viz diskusi zde]])   * NumType=Frac je definováno pro zlomky typu //-ina// (jmenovatel), ale v současných UD se používá nekonzistentně ([[https://github.com/UniversalDependencies/docs/issues/884#issuecomment-1193721487|viz diskusi zde]])
   * Výrazy jako //jednička, dvojka, trojka; dvojice, trojice// se považují za substantiva (POS=NOUN, žádný NumType), totéž platí pro výrazy typu //pět// (s významem pětice) v substantivní funkci (typ //neb tu pět k němu provrhu//).   * Výrazy jako //jednička, dvojka, trojka; dvojice, trojice// se považují za substantiva (POS=NOUN, žádný NumType), totéž platí pro výrazy typu //pět// (s významem pětice) v substantivní funkci (typ //neb tu pět k němu provrhu//).
Řádek 105: Řádek 105:
 ==== Cizí slova ==== ==== Cizí slova ====
  
-Zde máme na mysli nikoli slova přejatá z cizího jazyka (s těmi se zachází jako s každým jiným českým slovem), ale střídání kódů, tedy slova nebo fráze v cizím jazyce (např. v latině), která se ocitla uvnitř českého textu. UD umožňují [[https://universaldependencies.org/foreign.html|několik přístupů]], jak s takovým materiálem naložit. Na jednom konci škály je možnost anotovat cizí text podle gramatiky a anotačních pravidel cizího jazyka, na druhém konci pak možnost říct, že daný segment do hlavního jazyka textu nepatří, a více se jím nezabývat. My se přidržíme této druhé možnosti: **Lemma je identické se slovním tvarem** (<fc #ff0000>možná akorát evedené na malá písmena?</fc>)**, značka UPOS je ''X'', nejsou vyplněny žádné morfologické rysy s výjimkou ''Foreign=Yes''.** <fc #ff0000>Ještě se musíme dohodnout, zda chceme ve sloupci MISC uchovávat kód jazyka (např. ''OrigLang=la'' pro latinu).</fc> Pravidla, jak rozhodnout, jestli je slovo ještě cizí, nebo už přejaté do češtiny, bude asi nutné v průběhu anotace dopracovat; zatím lze říct následující:+Zde máme na mysli nikoli slova přejatá z cizího jazyka (s těmi se zachází jako s každým jiným českým slovem), ale střídání kódů, tedy slova nebo fráze v cizím jazyce (např. v latině), která se ocitla uvnitř českého textu. UD umožňují [[https://universaldependencies.org/foreign.html|několik přístupů]], jak s takovým materiálem naložit. Na jednom konci škály je možnost anotovat cizí text podle gramatiky a anotačních pravidel cizího jazyka, na druhém konci pak možnost říct, že daný segment do hlavního jazyka textu nepatří, a více se jím nezabývat. My se přidržíme této druhé možnosti: **Lemma je identické se slovním tvarem** (převedným na malá písmena, u vlastních jmen dáváme první velké)**, značka UPOS je ''X'', nejsou vyplněny žádné morfologické rysy s výjimkou ''Foreign=Yes''.** <fc #ff0000>Ještě se musíme dohodnout, zda chceme ve sloupci MISC uchovávat kód jazyka (např. ''OrigLang=la'' pro latinu).</fc> Pravidla, jak rozhodnout, jestli je slovo ještě cizí, nebo už přejaté do češtiny, bude asi nutné v průběhu anotace dopracovat; zatím lze říct následující:
  
   * Má-li slovo tvar ovlivněný českou morfologií, jde o slovo přejaté.   * Má-li slovo tvar ovlivněný českou morfologií, jde o slovo přejaté.
Řádek 205: Řádek 205:
 | NUM Číslovka základní "tři, čtyři, pět, ..."    | NumType=Card, NumForm=Word, Number=Plur, Case | | | NUM Číslovka základní "tři, čtyři, pět, ..."    | NumType=Card, NumForm=Word, Number=Plur, Case | |
 | NUM Číslovka základní "půl"                     | NumType=Card, NumForm=Word | | | NUM Číslovka základní "půl"                     | NumType=Card, NumForm=Word | |
-| NUM Číslovka pro množiny "jedny, dvoje, troje, čtvery, ..." | NumType=Sets, NumForm=Word, Number=Plur, Case <fc #ff0000>**JP:** jak to lemmatizovat?</fc> **DZ:** Lemmatizoval bych to na nominativ toho duálu/plurálu, tj. na tvary uvedené zde jako příklady. Problém ale je, že celá tahle kategorie pochází z nějaké dávné konverzní tabulky a když jsem teď hledal příklady v datech, tak jich tam jednak je málo, jednak ta jejich anotace neodpovídá. Vypadá to, že //dvoje// je teď analyzováno jako variantní tvar číslovky //dvojí//. | |+| NUM Číslovka pro množiny "jedny, dvoje, troje, čtvery, ..." | NumType=Sets, NumForm=Word, Gender+Animacy, Number=Plur, Case <fc #ff0000>**JP:** jak to lemmatizovat?</fc> **DZ:** Lemmatizoval bych to na nominativ toho duálu/plurálu, tj. na tvary uvedené zde jako příklady. Problém ale je, že celá tahle kategorie pochází z nějaké dávné konverzní tabulky a když jsem teď hledal příklady v datech, tak jich tam jednak je málo, jednak ta jejich anotace neodpovídá. Vypadá to, že //dvoje// je teď analyzováno jako variantní tvar číslovky //dvojí//. | |
 | VERB/AUX Sloveso v infinitivu nebo supinu         | VerbForm=Inf resp. Sup, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. | | VERB/AUX Sloveso v infinitivu nebo supinu         | VerbForm=Inf resp. Sup, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
 | VERB/AUX Sloveso v přítomném tvaru (včetně dokonavých) | VerbForm=Fin, Mood=Ind, Tense=Pres, Voice=Act, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. | | VERB/AUX Sloveso v přítomném tvaru (včetně dokonavých) | VerbForm=Fin, Mood=Ind, Tense=Pres, Voice=Act, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |