Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- hickok:stc_strdc_ud [2024/12/04 21:37] – V číslovkách je binec. danzeman
+++ hickok:stc_strdc_ud [2026/05/08 09:51] (aktuální) – [Vyžadované a povolené rysy u jednotlivých druhů slov] danzeman
@@ Řádek 45: / Řádek 45: @@
 **Zájmena typu //kdo, co, který//** mohou být podle kontextu Int, Rel nebo Ind. Ind jsou tehdy, pokud je můžeme nahradit výrazy typu //někdo, něco, některý//. Mezi Int a Rel rozlišujeme tak, že za Int se to pokládá jen v přímých otázkách (v hlavní větě, s otazníkem), naopak v souvětích vždy Rel (např. i nevím/ptám se, kdo přišel.
-**Forma //ješto//** – pokud je to ve vztažné funkci (PRON), lemmatizujeme jako //jenžto//. Pokud se bude jednat o spojku (SCONJ), lemmatizujeme jako //ježto//. U zájmen s lemmatem //jenž// a //jenžto// anotujeme pád, číslo i rod+životnost bez ohledu na sklonnost/nesklonnost, pouze v případě přítomnosti resumptivního zájmena se tyto rysy neanotují (viz též tabulku dole).
+**Forma //ješto//** – pokud je to ve funkci vztažného zájmena (PRON), lemmatizujeme jako //jenžto//. Kromě toho se může jednat i o vztažné příslovce (ADV) nebo o podřadicí spojku (SCONJ), v obou těchto případech lemmatizujeme jako //ježto// (protože je to neohebné). U zájmen s lemmatem //jenž// a //jenžto// anotujeme pád, číslo i rod+životnost bez ohledu na sklonnost/nesklonnost, pouze v případě přítomnosti resumptivního zájmena se tyto rysy neanotují (viz též tabulku dole).
   * Důvod tohoto postupu je ten, že v případě přítomnosti resumptivního zájmena jsou pád, číslo a rod vyjádřeny právě tím resumptivním zájmenem, zatímco samotné //ješto// (stejně jako //co//, případně i //jenž//, které se tak taky někdy ve staré češtině chovalo) tyhle kategorie formálně nijak nevyjadřuje, tj. má ve všech případech stejnou formu. Diskutovala se v zásadě tři možná řešení, přičemž dvě z nich nám přišla nevyhovující. Jedno z nich bylo, že se pád bude anotovat podle syntaktického kontextu, což by znamenalo, že např. ve struktuře "setkal se s člověkem, co/jenž/ješto jsem mu to dal" bude u co/jenž/ješto anotován dativ, což se nám nelíbilo, protože to znamená tvrdit, že např. //co// je dativní forma, tj. tohle řešení není vyhovující formálně. Druhé řešení bylo, že se v těchto případech u toho co/jenž/ješto bude anotovat nominativ. To odpovídá formálně, ale zase ne syntakticky, protože v té příkladové struktuře žádný prostor pro nominativ není. Proto vyšlo jako nejlepší to třetí řešení, tedy tyto kategorie tam vůbec neanotovat. Nejenže tam nic s ničím pak nekoliduje, ale zároveň to odpovídá i té jazykové realitě, že prostě jsou tyto kategorie vyjadřovány jinde (tj. na tom resumptivním zájmenu).
@@ Řádek 58: / Řádek 58: @@
   * násobné
     * typu //-krát// POS=ADV, NumType=Mult
-    * //dvojí, trojí, čtverý// POS=ADJ, NumType=Mult
+    * //dvojí, trojí, čtverý, obojí// POS=ADJ, NumType=Mult
   * druhové
-    * //jedny, dvoje, troje, čtvery// POS=NUM, NumType=Sets
+    * //jedny, dvoje, troje, čtvery, oboje// POS=NUM, NumType=Sets
-    * //čtvero, patero, desatero// POS=NUM, NumType=Card
+    * //čtvero, patero, desatero, dvé, tré, obé// POS=NUM, NumType=Card
-  * NumType=Frac je definováno pro zlomky typu //-ina// (jmenovatel), ale v současných UD se používá nekonzistentně ([[https://github.com/UniversalDependencies/docs/issues/884#issuecomment-1193721487|viz diskusi zde]])
+  * NumType=Frac je teoreticky použitelné pro zlomky typu //-ina// (jmenovatel), ale v současných UD se používá nekonzistentně ([[https://github.com/UniversalDependencies/docs/issues/884#issuecomment-1193721487|viz diskusi zde]] a [[https://github.com/UniversalDependencies/docs/issues/1205|zde]]). Ve shodě s anotací v PDT-C budeme jmenovatele na //-ina// anotovat jako substantiva.
   * Výrazy jako //jednička, dvojka, trojka; dvojice, trojice// se považují za substantiva (POS=NOUN, žádný NumType), totéž platí pro výrazy typu //pět// (s významem pětice) v substantivní funkci (typ //neb tu pět k němu provrhu//).
   * Zájmenné číslovky (např. neurčité //několik, mnoho, málo, hodně// (komparativ //víc//); //několikátý; několikery; několikerý// ukazovací //tolik; tolikátý; tolikerý// tázací/vztažné //kolik; kolikátý; kolikerý// jsou POS=DET, mají vyplněný PronType i NumType.
@@ Řádek 105: / Řádek 105: @@
 ==== Cizí slova ====
-Zde máme na mysli nikoli slova přejatá z cizího jazyka (s těmi se zachází jako s každým jiným českým slovem), ale střídání kódů, tedy slova nebo fráze v cizím jazyce (např. v latině), která se ocitla uvnitř českého textu. UD umožňují [[https://universaldependencies.org/foreign.html|několik přístupů]], jak s takovým materiálem naložit. Na jednom konci škály je možnost anotovat cizí text podle gramatiky a anotačních pravidel cizího jazyka, na druhém konci pak možnost říct, že daný segment do hlavního jazyka textu nepatří, a více se jím nezabývat. My se přidržíme této druhé možnosti: Lemma je identické se slovním tvarem (<fc #ff0000>možná akorát převedené na malá písmena?</fc>), značka UPOS je ''X'', nejsou vyplněny žádné morfologické rysy s výjimkou ''Foreign=Yes''. <fc #ff0000>Ještě se musíme dohodnout, zda chceme ve sloupci MISC uchovávat kód jazyka (např. ''OrigLang=la'' pro latinu).</fc> Pravidla, jak rozhodnout, jestli je slovo ještě cizí, nebo už přejaté do češtiny, bude asi nutné v průběhu anotace dopracovat; zatím lze říct následující:
+Zde máme na mysli nikoli slova přejatá z cizího jazyka (s těmi se zachází jako s každým jiným českým slovem), ale střídání kódů, tedy slova nebo fráze v cizím jazyce (např. v latině), která se ocitla uvnitř českého textu. UD umožňují [[https://universaldependencies.org/foreign.html|několik přístupů]], jak s takovým materiálem naložit. Na jednom konci škály je možnost anotovat cizí text podle gramatiky a anotačních pravidel cizího jazyka, na druhém konci pak možnost říct, že daný segment do hlavního jazyka textu nepatří, a více se jím nezabývat. My se přidržíme této druhé možnosti: **Lemma je identické se slovním tvarem** (převedným na malá písmena, u vlastních jmen dáváme první velké)**, značka UPOS je ''X'', nejsou vyplněny žádné morfologické rysy s výjimkou ''Foreign=Yes''.** <fc #ff0000>Ještě se musíme dohodnout, zda chceme ve sloupci MISC uchovávat kód jazyka (např. ''OrigLang=la'' pro latinu).</fc> Pravidla, jak rozhodnout, jestli je slovo ještě cizí, nebo už přejaté do češtiny, bude asi nutné v průběhu anotace dopracovat; zatím lze říct následující:
   * Má-li slovo tvar ovlivněný českou morfologií, jde o slovo přejaté.
@@ Řádek 113: / Řádek 113: @@
   * Věty a delší fráze, které jsou citáty z cizojazyčných textů, jsou asi tím nejjasnějším příkladem materiálu, se kterým se má zacházet jako s cizím.
+Interpunkce zůstává interpunkcí, i pokud je obklopena cizojazyčným textem, tedy značka UPOS je ''PUNCT'' a rys ''Foreign=Yes'' se nedává.
 ===== Gramatické kategorie =====
@@ Řádek 204: / Řádek 205: @@
 | NUM Číslovka základní "tři, čtyři, pět, ..."    | NumType=Card, NumForm=Word, Number=Plur, Case | |
 | NUM Číslovka základní "půl"                     | NumType=Card, NumForm=Word | |
-| NUM Číslovka pro množiny "jedny, dvoje, troje, čtvery, ..." | NumType=Sets, NumForm=Word, Number=Plur, Case <fc #ff0000>**JP:** jak to lemmatizovat?</fc> **DZ:** Lemmatizoval bych to na nominativ toho duálu/plurálu, tj. na tvary uvedené zde jako příklady. Problém ale je, že celá tahle kategorie pochází z nějaké dávné konverzní tabulky a když jsem teď hledal příklady v datech, tak jich tam jednak je málo, jednak ta jejich anotace neodpovídá. Vypadá to, že //dvoje// je teď analyzováno jako variantní tvar číslovky //dvojí//. | |
+| NUM Číslovka "dvé, tré, čtvero, patero, ..."    | NumType=Card, NumForm=Word, Case | |
-| VERB/AUX Sloveso v infinitivu                   | VerbForm=Inf, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
+| NUM Číslovka "obé"                              | NumType=Card, NumForm=Word, PronType=Tot, Case | |
+| NUM Číslovka pro množiny "jedny, dvoje, troje, čtvery, ..." | NumType=Sets, NumForm=Word, Gender+Animacy, Number=Plur, Case <fc #ff0000>**JP:** jak to lemmatizovat?</fc> **DZ:** Lemmatizoval bych to na nominativ toho duálu/plurálu, tj. na tvary uvedené zde jako příklady. Problém ale je, že celá tahle kategorie pochází z nějaké dávné konverzní tabulky a když jsem teď hledal příklady v datech, tak jich tam jednak je málo, jednak ta jejich anotace neodpovídá. Vypadá to, že //dvoje// je teď analyzováno jako variantní tvar číslovky //dvojí//. | |
+| VERB/AUX Sloveso v infinitivu nebo supinu         | VerbForm=Inf resp. Sup, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
 | VERB/AUX Sloveso v přítomném tvaru (včetně dokonavých) | VerbForm=Fin, Mood=Ind, Tense=Pres, Voice=Act, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
 | AUX/VERB Sloveso v budoucím tvaru ("budu, půjdu") | VerbForm=Fin, Mood=Ind, Tense=Fut, Voice=Act, Person, Number, Polarity, Aspect=Imp | Vynechat Aspect u obouvidých sloves. |

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence