AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
hickok:stc_strdc_ud [2024/05/21 09:42] – [Problematická slova] jiriperglerhickok:stc_strdc_ud [2025/02/15 09:39] (aktuální) – [Cizí slova] jiripergler
Řádek 9: Řádek 9:
 ===== Odkazy na stránky s evidencí nejasností/problémů ===== ===== Odkazy na stránky s evidencí nejasností/problémů =====
  
 +  * [[hickok:problemy_tokenizace|problémy s tokenizací]]
   * [[hickok:problemy_morfologie|problémy s morfologickou anotací]]   * [[hickok:problemy_morfologie|problémy s morfologickou anotací]]
   * [[hickok:problemy_lemmatizace|problémy s lemmatizací]]   * [[hickok:problemy_lemmatizace|problémy s lemmatizací]]
Řádek 16: Řádek 16:
  
 [[hickok:anotace_v_tabulkovem_procesoru|Návod, jak anotovat v tabulkovém procesoru]] [[hickok:anotace_v_tabulkovem_procesoru|Návod, jak anotovat v tabulkovém procesoru]]
 +
 +[[hickok:poskozene_texty|Pravidla pro anotaci poškozených textů]]
  
 ===== Slovní druhy ===== ===== Slovní druhy =====
Řádek 43: Řádek 45:
 **Zájmena typu //kdo, co, který//** mohou být podle kontextu Int, Rel nebo Ind. Ind jsou tehdy, pokud je můžeme nahradit výrazy typu //někdo, něco, některý//. Mezi Int a Rel rozlišujeme tak, že za Int se to pokládá jen v přímých otázkách (v hlavní větě, s otazníkem), naopak v souvětích vždy Rel (např. i nevím/ptám se, kdo přišel.  **Zájmena typu //kdo, co, který//** mohou být podle kontextu Int, Rel nebo Ind. Ind jsou tehdy, pokud je můžeme nahradit výrazy typu //někdo, něco, některý//. Mezi Int a Rel rozlišujeme tak, že za Int se to pokládá jen v přímých otázkách (v hlavní větě, s otazníkem), naopak v souvětích vždy Rel (např. i nevím/ptám se, kdo přišel. 
  
-**Forma //ješto//** – pokud je to ve vztažné funkci, lemmatizujeme jako //jenžto//Anotuje se pád, číslo i rod+životnost bez ohledu na sklonnost/nesklonnost (pouze v případě přítomnosti resumptivního zájmena se tyto rysy neanotují). (Pokud se bude jednat o spojkulemmatizujeme jako //ježto//).+**Forma //ješto//** – pokud je to ve funkci vztažného zájmena (PRON), lemmatizujeme jako //jenžto//Kromě toho se může jednat i o vztažné příslovce (ADV) nebo o podřadicí spojku (SCONJ), v obou těchto případech lemmatizujeme jako //ježto// (protože je to neohebné). U zájmen s lemmatem //jenž// a //jenžto// anotujeme pád, číslo i rod+životnost bez ohledu na sklonnost/nesklonnostpouze v případě přítomnosti resumptivního zájmena se tyto rysy neanotují (viz též tabulku dole). 
 + 
 +  * Důvod tohoto postupu je ten, že v případě přítomnosti resumptivního zájmena jsou pád, číslo a rod vyjádřeny právě tím resumptivním zájmenem, zatímco samotné //ješto// (stejně jako //co//, případně i //jenž//, které se tak taky někdy ve staré češtině chovalo) tyhle kategorie formálně nijak nevyjadřuje, tj. má ve všech případech stejnou formu. Diskutovala se v zásadě tři možná řešení, přičemž dvě z nich nám přišla nevyhovující. Jedno z nich bylo, že se pád bude anotovat podle syntaktického kontextucož by znamenalo, že např. ve struktuře "setkal se s člověkem, co/jenž/ješto jsem mu to dal" bude u co/jenž/ješto anotován dativ, což se nám nelíbilo, protože to znamená tvrdit, že např. //co// je dativní forma, tj. tohle řešení není vyhovující formálně. Druhé řešení bylo, že se v těchto případech u toho co/jenž/ješto bude anotovat nominativ. To odpovídá formálně, ale zase ne syntakticky, protože v té příkladové struktuře žádný prostor pro nominativ není. Proto vyšlo jako nejlepší to třetí řešení, tedy tyto kategorie tam vůbec neanotovat. Nejenže tam nic s ničím pak nekoliduje, ale zároveň to odpovídá i té jazykové realitě, že prostě jsou tyto kategorie vyjadřovány jinde (tj. na tom resumptivním zájmenu).
  
 **Zájmeno //sám/samý//**: vždy PronType=Emp a vždy lemma //sám//; krátká forma //sám// je odlišena tagem "Short" **Zájmeno //sám/samý//**: vždy PronType=Emp a vždy lemma //sám//; krátká forma //sám// je odlišena tagem "Short"
Řádek 101: Řádek 105:
 ==== Cizí slova ==== ==== Cizí slova ====
  
-Zde máme na mysli nikoli slova přejatá z cizího jazyka (s těmi se zachází jako s každým jiným českým slovem), ale střídání kódů, tedy slova nebo fráze v cizím jazyce (např. v latině), která se ocitla uvnitř českého textu. UD umožňují [[https://universaldependencies.org/foreign.html|několik přístupů]], jak s takovým materiálem naložit. Na jednom konci škály je možnost anotovat cizí text podle gramatiky a anotačních pravidel cizího jazyka, na druhém konci pak možnost říct, že daný segment do hlavního jazyka textu nepatří, a více se jím nezabývat. My se přidržíme této druhé možnosti: Lemma je identické se slovním tvarem (<fc #ff0000>možná akorát evedené na malá písmena?</fc>), značka UPOS je ''X'', nejsou vyplněny žádné morfologické rysy s výjimkou ''Foreign=Yes''. <fc #ff0000>Ještě se musíme dohodnout, zda chceme ve sloupci MISC uchovávat kód jazyka (např. ''OrigLang=la'' pro latinu).</fc> Pravidla, jak rozhodnout, jestli je slovo ještě cizí, nebo už přejaté do češtiny, bude asi nutné v průběhu anotace dopracovat; zatím lze říct následující:+Zde máme na mysli nikoli slova přejatá z cizího jazyka (s těmi se zachází jako s každým jiným českým slovem), ale střídání kódů, tedy slova nebo fráze v cizím jazyce (např. v latině), která se ocitla uvnitř českého textu. UD umožňují [[https://universaldependencies.org/foreign.html|několik přístupů]], jak s takovým materiálem naložit. Na jednom konci škály je možnost anotovat cizí text podle gramatiky a anotačních pravidel cizího jazyka, na druhém konci pak možnost říct, že daný segment do hlavního jazyka textu nepatří, a více se jím nezabývat. My se přidržíme této druhé možnosti: **Lemma je identické se slovním tvarem** (převedným na malá písmena, u vlastních jmen dáváme první velké)**, značka UPOS je ''X'', nejsou vyplněny žádné morfologické rysy s výjimkou ''Foreign=Yes''.** <fc #ff0000>Ještě se musíme dohodnout, zda chceme ve sloupci MISC uchovávat kód jazyka (např. ''OrigLang=la'' pro latinu).</fc> Pravidla, jak rozhodnout, jestli je slovo ještě cizí, nebo už přejaté do češtiny, bude asi nutné v průběhu anotace dopracovat; zatím lze říct následující:
  
   * Má-li slovo tvar ovlivněný českou morfologií, jde o slovo přejaté.   * Má-li slovo tvar ovlivněný českou morfologií, jde o slovo přejaté.
Řádek 109: Řádek 113:
   * Věty a delší fráze, které jsou citáty z cizojazyčných textů, jsou asi tím nejjasnějším příkladem materiálu, se kterým se má zacházet jako s cizím.   * Věty a delší fráze, které jsou citáty z cizojazyčných textů, jsou asi tím nejjasnějším příkladem materiálu, se kterým se má zacházet jako s cizím.
  
 +Interpunkce zůstává interpunkcí, i pokud je obklopena cizojazyčným textem, tedy značka UPOS je ''PUNCT'' a rys ''Foreign=Yes'' se nedává.
 ===== Gramatické kategorie ===== ===== Gramatické kategorie =====
  
Řádek 134: Řádek 139:
  
   * Pokud jde o tvar specifický pro duál, anotovat jako duál.   * Pokud jde o tvar specifický pro duál, anotovat jako duál.
-  * Pokud jde o tvar společný pro duál a plurál (u přechodníků, případně někdy u substantiv stažených deklinačních typů), ale z okolního kontextu je zřejmé, že autor by duál použil (např. jde o přechodník odkazující na entitu, na kterou někde jinde v okolí autor odkazuje tvarem jasně duálovým), anotovat jako duál.+  * Pokud jde o tvar společný pro duál a plurál (u přechodníků, někdy též u substantiv stažených deklinačních typů, případně i jinde), ale z okolního kontextu je zřejmé, že autor by duál použil (např. jde o přechodník odkazující na entitu, na kterou někde jinde v okolí autor odkazuje tvarem jasně duálovým), anotovat jako duál.
   * V ostatních případech anotovat jako plurál.   * V ostatních případech anotovat jako plurál.
  
Řádek 162: Řádek 167:
 | NOUN Podstatné jméno obecné        | Gender+Animacy, Number, Case| | | NOUN Podstatné jméno obecné        | Gender+Animacy, Number, Case| |
 | NOUN Podstatné jméno slovesné (-ní, -nie, -tí, -tie) | VerbForm=Vnoun, Gender=Neut, Number, Case | | | NOUN Podstatné jméno slovesné (-ní, -nie, -tí, -tie) | VerbForm=Vnoun, Gender=Neut, Number, Case | |
-| PROPN Vlastní jméno                 | Gender+Animacy, Number, Case, Polarity | NameType |+| PROPN Vlastní jméno                 | Gender+Animacy, Number, Case | NameType |
 | ADJ Přídavné jméno (dlouhý tvar)  | Gender+Animacy, Number, Case, Degree, Polarity | | | ADJ Přídavné jméno (dlouhý tvar)  | Gender+Animacy, Number, Case, Degree, Polarity | |
 | ADJ Přídavné jméno (krátký tvar)  | Variant=Short, Gender+Animacy, Number, Case, Degree, Polarity  | | | ADJ Přídavné jméno (krátký tvar)  | Variant=Short, Gender+Animacy, Number, Case, Degree, Polarity  | |
Řádek 170: Řádek 175:
 | ADJ Dlouhý tvar činného příčestí (-cí, -ší) (nikoli -lý, taky to neplatí pro složeniny typu //všemohúcí//) | VerbForm=Part, Voice=Act, Aspect, Tense, Gender+Animacy, Number, Case, Polarity | | | ADJ Dlouhý tvar činného příčestí (-cí, -ší) (nikoli -lý, taky to neplatí pro složeniny typu //všemohúcí//) | VerbForm=Part, Voice=Act, Aspect, Tense, Gender+Animacy, Number, Case, Polarity | |
 | ADJ Dlouhý tvar trpného příčestí (-ný, -tý) | VerbForm=Part, Voice=Pass, Aspect, Gender+Animacy, Number, Case, Degree, Polarity | | | ADJ Dlouhý tvar trpného příčestí (-ný, -tý) | VerbForm=Part, Voice=Pass, Aspect, Gender+Animacy, Number, Case, Degree, Polarity | |
-| ADJ Krátký tvar trpného příčestí (-n, -t) | VerbForm=Part, Voice=Pass, Variant=Short, Aspect, Gender+Animacy, Number, Case, Polarity | | +| ADJ Krátký tvar trpného příčestí (-n, -t) | VerbForm=Part, Voice=Pass, Variant=Short, Aspect, Gender+Animacy, Number, Case, Degree (asi vždy =Pos), Polarity | | 
-| PRON Zájmeno osobní v 1. nebo 2. osobě | PronType=Prs, Person, Number, Case | Variant=Short (klitika) | +| PRON Zájmeno osobní v 1. nebo 2. osobě | PronType=Prs, Person, Number, Case | Variant=Short (klitika: pouze pro tvary //mě, mi, tě, ti//) | 
-| PRON Zájmeno osobní ve 3. osobě   | PronType=Prs, Person=3, Gender+Animacy, Number, Case | Variant=Short (klitika), PrepCase (povinné pro rozlišení "jeho/něho", nepoužívá se pro "on") | +| PRON Zájmeno osobní ve 3. osobě   | PronType=Prs, Person=3, Gender+Animacy, Number, Case | Variant=Short (klitika: pouze pro tvary //ho, mu//), PrepCase (povinné pro rozlišení "jeho/něho", nepoužívá se pro "on") | 
-| PRON Zájmeno zvratné              | PronType=Prs, Reflex=Yes, Case | Variant=Short (klitika) |+| PRON Zájmeno zvratné              | PronType=Prs, Reflex=Yes, Case | Variant=Short (klitika: pouze pro tvary //se, si//) |
 | PRON Zájmeno typu "kdo, kdož, někdo, nikdo" | PronType, Gender=Masc, Animacy=Anim, Case | | | PRON Zájmeno typu "kdo, kdož, někdo, nikdo" | PronType, Gender=Masc, Animacy=Anim, Case | |
 | PRON Zájmeno typu "co, což, něco, nic" | PronType, Case | | | PRON Zájmeno typu "co, což, něco, nic" | PronType, Case | |
Řádek 188: Řádek 193:
 | DET Zájmeno "všechen", "veš", "vešken", ... | PronType=Tot, Gender+Animacy, Number, Case (lemma je vždy //všechen//) | | | DET Zájmeno "všechen", "veš", "vešken", ... | PronType=Tot, Gender+Animacy, Number, Case (lemma je vždy //všechen//) | |
 | DET Zájmeno "sám, samý"           | PronType=Emp, Gender+Animacy, Number, Case | Variant=Short | | DET Zájmeno "sám, samý"           | PronType=Emp, Gender+Animacy, Number, Case | Variant=Short |
-| DET Zájmeno typu "jaký, který, čí, nějaký, ..." | PronType, Gender+Animacy, Number, Case | |+| DET Zájmeno typu "jaký, který, nějaký, některý, ..." | PronType, Gender+Animacy, Number, Case | | 
 +| DET Zájmeno typu "čí, něčí, ničí" | PronType, Poss=Yes, Gender+Animacy, Number, Case | |
 | DET Číslovka základní zájmenná ("kolik, mnoho") | PronType, NumType=Card, Case | | | DET Číslovka základní zájmenná ("kolik, mnoho") | PronType, NumType=Card, Case | |
 | DET Číslovka řadová zájmenná adjektivní ("kolikátý") | PronType, NumType=Ord, Gender+Animacy, Number, Case | | | DET Číslovka řadová zájmenná adjektivní ("kolikátý") | PronType, NumType=Ord, Gender+Animacy, Number, Case | |
Řádek 198: Řádek 204:
 | NUM Číslovka základní "oba, obě"                | NumType=Card, NumForm=Word, PronType=Tot, Gender, Number=<fc #ff0000>Dual/Plur???</fc>, Case | | | NUM Číslovka základní "oba, obě"                | NumType=Card, NumForm=Word, PronType=Tot, Gender, Number=<fc #ff0000>Dual/Plur???</fc>, Case | |
 | NUM Číslovka základní "tři, čtyři, pět, ..."    | NumType=Card, NumForm=Word, Number=Plur, Case | | | NUM Číslovka základní "tři, čtyři, pět, ..."    | NumType=Card, NumForm=Word, Number=Plur, Case | |
-| NUM Číslovka pro množiny "jedny, dvoje, troje, čtvery, ..." | NumType=Sets, NumForm=Word, Number=Plur, Case | | +| NUM Číslovka základní "půl"                     | NumType=Card, NumForm=Word | | 
-| VERB/AUX Sloveso v infinitivu                   | VerbForm=Inf, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |+| NUM Číslovka pro množiny "jedny, dvoje, troje, čtvery, ..." | NumType=Sets, NumForm=Word, Number=Plur, Case <fc #ff0000>**JP:** jak to lemmatizovat?</fc> **DZ:** Lemmatizoval bych to na nominativ toho duálu/plurálu, tj. na tvary uvedené zde jako příklady. Problém ale je, že celá tahle kategorie pochází z nějaké dávné konverzní tabulky a když jsem teď hledal příklady v datech, tak jich tam jednak je málo, jednak ta jejich anotace neodpovídá. Vypadá to, že //dvoje// je teď analyzováno jako variantní tvar číslovky //dvojí//| | 
 +| VERB/AUX Sloveso v infinitivu nebo supinu         | VerbForm=Inf resp. Sup, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
 | VERB/AUX Sloveso v přítomném tvaru (včetně dokonavých) | VerbForm=Fin, Mood=Ind, Tense=Pres, Voice=Act, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. | | VERB/AUX Sloveso v přítomném tvaru (včetně dokonavých) | VerbForm=Fin, Mood=Ind, Tense=Pres, Voice=Act, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
 | AUX/VERB Sloveso v budoucím tvaru ("budu, půjdu") | VerbForm=Fin, Mood=Ind, Tense=Fut, Voice=Act, Person, Number, Polarity, Aspect=Imp | Vynechat Aspect u obouvidých sloves. | | AUX/VERB Sloveso v budoucím tvaru ("budu, půjdu") | VerbForm=Fin, Mood=Ind, Tense=Fut, Voice=Act, Person, Number, Polarity, Aspect=Imp | Vynechat Aspect u obouvidých sloves. |
Řádek 210: Řádek 217:
 | VERB/AUX Přechodník v singuláru                 | VerbForm=Conv, Tense, Voice=Act, Gender+Animacy, Number=Sing, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. | | VERB/AUX Přechodník v singuláru                 | VerbForm=Conv, Tense, Voice=Act, Gender+Animacy, Number=Sing, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
 | VERB/AUX Přechodník v duálu/plurálu             | VerbForm=Conv, Tense, Voice=Act, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. | | VERB/AUX Přechodník v duálu/plurálu             | VerbForm=Conv, Tense, Voice=Act, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. |
-| ADV Příslovce stupňovatelné ("snadno"         | Degree, Polarity | | +| ADV Příslovce stupňovatelné ("snadno, snadněji, nejsnadněji") | Degree, Polarity | | 
-| ADV Příslovce zájmenné ("kde, kdy, někde, ...") | PronType         | |+| ADV Příslovce zájmenné kromě Tot ("kde, kdy, někde, ...") | PronType         | | 
 +| ADV Příslovce zájmenné totální ("vždy, nevždy, ...") | PronType=Tot, Degree=Pos, Polarity  | |
 | ADV Číslovka násobná adverbiální ("kolikrát"  | NumType=Mult | PronType | | ADV Číslovka násobná adverbiální ("kolikrát"  | NumType=Mult | PronType |
 | ADV Číslovka řadová adverbiální ("pokolikáté" | NumType=Ord  | PronType | | ADV Číslovka řadová adverbiální ("pokolikáté" | NumType=Ord  | PronType |
-| ADV Příslovce //lzě, nelzě// | Polarity  |  | +| ADV Příslovce ostatní ("snad, lzě, nelzě, velmi, ...") | Degree=Pos, Polarity |
-| ADV Příslovce ostatní ("snad, ..."            |<fc #ff0000>JZ: a pak jsou ještě příslovceu nichž se vyplní jen Polarity? třeba //velmi//, //vždy//?</fc>|+
 | ADP Předložka                                   | AdpType, Case | | | ADP Předložka                                   | AdpType, Case | |
 | CCONJ Spojka souřadicí                          | | | | CCONJ Spojka souřadicí                          | | |