| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
| hickok:problemy_morfologie [2025/09/11 11:15] – [Zatím nedořešené problémy] jiripergler | hickok:problemy_morfologie [2025/10/24 10:11] (aktuální) – [Zatím nedořešené problémy] jiripergler |
|---|
| |jz, 11. 6. 2025 ^ též | ADV, degree=pos, polarity=pos? (stejně jako také? i když větší smysl by dávalo ADV, prontype=dem?) **JP:** Pokud je to ve významu "také", tak bych to anotoval stejně. Určitě jsem ale narazil i na kontexty, kde to znamenalo "totéž", v takovém případě anotuji stejně jako //totéž//, tj. UPOS=DET, pád, číslo, rod, PronType=Dem. | | | |jz, 11. 6. 2025 ^ též | ADV, degree=pos, polarity=pos? (stejně jako také? i když větší smysl by dávalo ADV, prontype=dem?) **JP:** Pokud je to ve významu "také", tak bych to anotoval stejně. Určitě jsem ale narazil i na kontexty, kde to znamenalo "totéž", v takovém případě anotuji stejně jako //totéž//, tj. UPOS=DET, pád, číslo, rod, PronType=Dem. | | |
| |JP, 14. 7. 2025 ^ duál ve střední češtině | Jak zacházet s kategorií duálu ve střední češtině? Vzhledem k tomu, že tato kategorie z většiny zanikala už v průběhu 15. století, lze očekávat, že ve střední češtině už bude dost výjimečně. Jasně duálové tvary, které se do dnešní češtiny nedochovaly, samozřejmě budeme anotovat jako duálové. Ale co s tvary, které se do dnešní češtiny dochovaly? V dokumentaci k českému UD se píše, že duál se anotuje jednak u tvarů se zakončením -ma (dlouhýma nohama), jednak u číslovkového tvaru "stě". Ale: v Intercorpu vidím, že duál se anotuje jenom u toho prvního typu případů (-ma), ale "stě" je anotováno jako plurál. Jak s tím tedy zacházet? A dále: jak s tvary číslovky dva, oba? Od původu jsou to duálové tvary, ve stč. jsme je tak anotovali, ale ve střední češtině s nimi už asi můžeme zacházet stejně jako v nové češtině a v 19. století. Bude se tam dávát duál, nebo plurál? A dále: původně jsou duálové tvary částí těla nejen ty zakončené na -ma, ale i tvary "ruce", "rukou", "nohou", "ramenou" apod. Ve staré češtině jsme je samozřejmě brali jako duál, ale ve střední a dál už jako plurál? | | | |JP, 14. 7. 2025 ^ duál ve střední češtině | Jak zacházet s kategorií duálu ve střední češtině? Vzhledem k tomu, že tato kategorie z většiny zanikala už v průběhu 15. století, lze očekávat, že ve střední češtině už bude dost výjimečně. Jasně duálové tvary, které se do dnešní češtiny nedochovaly, samozřejmě budeme anotovat jako duálové. Ale co s tvary, které se do dnešní češtiny dochovaly? V dokumentaci k českému UD se píše, že duál se anotuje jednak u tvarů se zakončením -ma (dlouhýma nohama), jednak u číslovkového tvaru "stě". Ale: v Intercorpu vidím, že duál se anotuje jenom u toho prvního typu případů (-ma), ale "stě" je anotováno jako plurál. Jak s tím tedy zacházet? A dále: jak s tvary číslovky dva, oba? Od původu jsou to duálové tvary, ve stč. jsme je tak anotovali, ale ve střední češtině s nimi už asi můžeme zacházet stejně jako v nové češtině a v 19. století. Bude se tam dávát duál, nebo plurál? A dále: původně jsou duálové tvary částí těla nejen ty zakončené na -ma, ale i tvary "ruce", "rukou", "nohou", "ramenou" apod. Ve staré češtině jsme je samozřejmě brali jako duál, ale ve střední a dál už jako plurál? | | |
| |JP, 19. 7. 2025 ^ rod u číslovek typu Sets | Vím, že v pravidlech máme napsáno, že u číslovek typu jedny, dvoje, troje, čtvery, oboje se nemá anotovat rod a životnost. (Pokud to tam anotujeme, skript nám to hlásí jako chybu.) Ale nevím, jestli je to dobré řešení, protože ve starší češtině se ten rod rozlišoval, máme např. dvoji vs. dvoje, oboji vs. oboje apod. Navíc opozice jedni vs. jedny existuje i v současné češtině, nejen v té starší. Neměli bychom tedy ten rod anotovat? (Lemma máme podle současných pokynů dávat jako "jedny", "dvoje" apod., k tomu viz i zde níže.) | | | |
| |AM, 1. 8. 2025 ^ Number u číslovek //sto//, //tisíc// | V instrukcích stojí, že u číslovek základních „tři, čtyři, pět, …“ (tři tečky interpretuji jako atd.) se anotuje Number=Plur. Platí to ale i pro číslovky //sto// a //tisíc//? **JP:** Ty číslovky obecně nejsou moc dořešené, u //sto// a //tisíc// se téhle instrukce nedržím a Number anotuju různé, podle formy. | | | |AM, 1. 8. 2025 ^ Number u číslovek //sto//, //tisíc// | V instrukcích stojí, že u číslovek základních „tři, čtyři, pět, …“ (tři tečky interpretuji jako atd.) se anotuje Number=Plur. Platí to ale i pro číslovky //sto// a //tisíc//? **JP:** Ty číslovky obecně nejsou moc dořešené, u //sto// a //tisíc// se téhle instrukce nedržím a Number anotuju různé, podle formy. | | |
| |jz, 1. 8. 2025 ^ obyvatelská jména na //-ští// | //Perští//, //Macedonští//, //Indiští// atd. - PROPN Nat, nebo ADJ? **JP:** V dokumentaci k českému UD se píše: "Single-word named entities should be tagged PROPN even if they originate from a common noun." Pak tam jsou i nějaké odpovídající příklady. Z toho bych vyvozoval, že se to má anotovat jako PROPN. **JZ:** Super, taky jsem se přikláněla k téhle možnosti. Udělala jsem to tak. | | | |jz, 1. 8. 2025 ^ obyvatelská jména na //-ští// | //Perští//, //Macedonští//, //Indiští// atd. - PROPN Nat, nebo ADJ? **JP:** V dokumentaci k českému UD se píše: "Single-word named entities should be tagged PROPN even if they originate from a common noun." Pak tam jsou i nějaké odpovídající příklady. Z toho bych vyvozoval, že se to má anotovat jako PROPN. **JZ:** Super, taky jsem se přikláněla k téhle možnosti. Udělala jsem to tak. | | |
| |jz, 10. 9. 2025 ^ dvojtečka a hranice věty | To, co následuje za dvojtečkou, vždy patří do téže věty jako text před dvojtečkou - ať už je to přímá řeč, nebo něco jiného? Např.: //... tento odsudek zakládá se na tom, že dvuoj jest súd: M //(=textový orientátor)// Jeden súd jest pořádný, t. zahájený //(= přípisek)// jenž má den uložený, v kterýžto den od stara dávna zvykl jest súd bývati; jiný jest súd, jenž neslove pořádný, ...// (za středníkem už pak začíná nová věta) **JP:** Takové pravidlo myslím nikde není. Spojuju to do jedné věty jenom v případě, že je to přímá řeč (i když tam nejsou uvozovky) nebo že je to něco, co se přímé řeči nějak podobá (tam ty hranice jsou velmi neostré, můžou to být různé citace z jiných textů apod., jako kritérium si zkouším říct, jestli by se tam daly použít uvozovky nebo ne). V citovém dokladu to myslím s přímou řečí nemá společného vůbec nic, takže pokud to UDPipe rozdělil, nechal bych to rozdělené. | | | |jz, 10. 9. 2025 ^ dvojtečka a hranice věty | To, co následuje za dvojtečkou, vždy patří do téže věty jako text před dvojtečkou - ať už je to přímá řeč, nebo něco jiného? Např.: //... tento odsudek zakládá se na tom, že dvuoj jest súd: M //(=textový orientátor)// Jeden súd jest pořádný, t. zahájený //(= přípisek)// jenž má den uložený, v kterýžto den od stara dávna zvykl jest súd bývati; jiný jest súd, jenž neslove pořádný, ...// (za středníkem už pak začíná nová věta) **JP:** Takové pravidlo myslím nikde není. Spojuju to do jedné věty jenom v případě, že je to přímá řeč (i když tam nejsou uvozovky) nebo že je to něco, co se přímé řeči nějak podobá (tam ty hranice jsou velmi neostré, můžou to být různé citace z jiných textů apod., jako kritérium si zkouším říct, jestli by se tam daly použít uvozovky nebo ne). V citovém dokladu to myslím s přímou řečí nemá společného vůbec nic, takže pokud to UDPipe rozdělil, nechal bych to rozdělené. | | |
| | jz, 10. 9. 2025 ^ //nikoli// | upos=part? **JP:** U toho postupuju stejně jako u //ne//, tj. většinou PART, pouze pokud by to bylo jako samostatná výpověď (prototypicky v odpovědi na otázku, případně v nějakém podobném kontextu), tak INTJ. | | | | jz, 10. 9. 2025 ^ //nikoli// | upos=part? **JP:** U toho postupuju stejně jako u //ne//, tj. většinou PART, pouze pokud by to bylo jako samostatná výpověď (prototypicky v odpovědi na otázku, případně v nějakém podobném kontextu), tak INTJ. | | |
| | |jz, 16. 10. 2025 ^ //jedno// ve významu "zaprvé" | //Ale tovařišie jeho jedno pro strach, druhé hladem navrátili se zase a přijeli do královstvie aragonského.// (Vespucci); //jedno// - UPOS=ADV, NumType=Card? Nebo jinak? **JP:** Pokud vím, číslovky jako //zaprvé//, //zadruhé// apod. by měly mít UPOS=ADV, NumType=Ord. Totéž platí i tehdy, pokud je v této funkci //druhé//, k tomu viz starší dotaz zde v tabulce níže. To //jedno// jsem na daném místě anotoval taky tak. **JZ:** Já jsem to nakonec označila jako Card - kvůli formě a protože mi připadá, že ten "řadový" význam tam možná nemusel být tak silný (srov. //Domyslet se je jedna věc , mluvit na rovinu druhá .// - InterCorp). Každopádně jeden z nás bude mít možnost rozhodnout to v porovnání rozdílů :-) | | |
| | |jz, 21. 10. 2025 ^ //nynie// | ADV Dem? (má to tak InterCorp) **JP:** Já to tak nechávám, ano. | | |
| | |JP, 23. 10. 2025 ^ číslovka //pár// | Jak anotovat? Podle UDPipu je to bráno jako běžná základní číslovka (tak i v Intercorpu), ale mnohem větší smysl by mi dávalo brát to jako zájmennou číslovku neurčitou, protože to znamená v zásadě totéž co "několik". | | |
| | |JP, 24. 10. 2025 ^ číslovka //čtvrt// | Jak anotovat? Stejně jako //půl//, tj. jen Card, Word, nebo jako jiné základní číslovky, tj. i číslo a pád? Případně ještě jinak? | | |
| ===== Vyřešené problémy ===== | ===== Vyřešené problémy ===== |
| |
| | JP, 6. 1. 2025 ^ spojování vět v kombinaci s multiword tokenem | Mám v tabulce větu, která začíná multiword tokenem ("pročs"), ten už je od UDPipu správně rozdělen. Tuto větu chci spojit s předchozí větou. Do kterého řádku mám vyplnit hodnotu "spojit": k tomu "pročs", nebo až k tomu "proč"? <fc #008000>**DZ:** Tak tahle otázka mě zaskočila, protože na to jsem při navrhování mechanismu nepomyslel. Koukal jsem se teď do skriptů a myslím si, že lepší bude dát to až k tomu "proč", tam vidím větší šanci, že to skripty zpracují správně :-) </fc> **JP:** OK, dal jsem to tam, tak uvidíme :) (Mám to dvakrát v textu PasMuzA. **edit:** Už jsem na to narazil i v několika dalších edicích.) <fc #008000>**DZ:** Zafungovalo to.</fc> | Hodnotu "spojit" vložit až k tomu "proč". | | | JP, 6. 1. 2025 ^ spojování vět v kombinaci s multiword tokenem | Mám v tabulce větu, která začíná multiword tokenem ("pročs"), ten už je od UDPipu správně rozdělen. Tuto větu chci spojit s předchozí větou. Do kterého řádku mám vyplnit hodnotu "spojit": k tomu "pročs", nebo až k tomu "proč"? <fc #008000>**DZ:** Tak tahle otázka mě zaskočila, protože na to jsem při navrhování mechanismu nepomyslel. Koukal jsem se teď do skriptů a myslím si, že lepší bude dát to až k tomu "proč", tam vidím větší šanci, že to skripty zpracují správně :-) </fc> **JP:** OK, dal jsem to tam, tak uvidíme :) (Mám to dvakrát v textu PasMuzA. **edit:** Už jsem na to narazil i v několika dalších edicích.) <fc #008000>**DZ:** Zafungovalo to.</fc> | Hodnotu "spojit" vložit až k tomu "proč". | |
| | JP, 18. 2. 2025 ^ zkratka cizího slova (//etc.//) | Jak zacházet s výrazem //etc.//? Bral bych to jako cizí slovo v našem pojetí, zároveň je to zkratka. Nabízí se tedy nechat lemma "etc", dát POS=X a Foreign=Yes (jako u cizích slov), zároveň vyplnit i Abbr=Yes. Ale bylo by to v rozporu s instrukcí, že u cizích slov se žádné jiné rysy než Foreign=Yes nevyplňují. Jak to tedy řešit? <fc #008000>**DZ:** Pokud s tím zacházíme jako s cizím slovem, tak není důvod anotovat zkratku. (Resp. ten důvod není o nic větší, než by byl důvod anotovat rod, číslo a pád u latinského substantiva.) Akorát je otázka, zda to nemohlo být dočasně v češtině zdomácnělé, než to vytlačila česká zkratka //atd.//? Např. v anglických UD se to za zdomácnělé považuje, protože se to tam používá dodneška, přestože je to z latiny.</fc> **JP:** Mně přijde, že by se to klidně dalo považovat za zdomácnělé i v současné češtině. Ale v té staré nevím, třeba slovník staré češtiny (ESSČ) to neuvádí, takže to asi za zdomácnělé úplně nepovažuje. Každopádně by v tom případě vyvstala otázka, jak to anotovat. Takže je potřeba buď stanovit, že to budeme brát jako běžné cizí slovo a Abbr nevyplňovat, nebo si říct, že je to zdomácnělé, a pak stanovit, jak to anotovat. <fc #008000>**DZ:** Mně by taky nevadilo považovat to za zdomácnělé i v nové češtině, ale když jsem hledal výskyty v UD treebancích, tak jsem akorát zjistil, že existuje nějaká kapela, co se jmenuje ETC, to je vše. Pokud to budeme anotovat jako zdomácnělé, pak mi přijde nejpřirozenější dělat to stejně jako //atd.//, což znamená UPOS=ADV, Abbr=Yes.</fc> **JP:** No a asi ještě Degree a Polarity, když tu děláme u všech adverbií kromě zájmenných a číslovkových, ne? A lemma "etc"? <fc #008000>**DZ:** Lemma "etc" asi ano. O tom Degree a Polarity nejsem přesvědčen (protože jiným zkratkám taky často chybí rysy, které se u nezkráceného slova vyskytují), ale klidně ho tam teď anotujme, ono to stejně bude vždycky Degree=Pos a Polarity=Pos. Nevím z hlavy, jestli to kontrolní skript bude vyžadovat nebo naopak zakazovat, ale pokud na to narazíme, tak mi to určitě připomeneš a já to nějak vyřeším.</fc> | Značit jako ADV. | | | JP, 18. 2. 2025 ^ zkratka cizího slova (//etc.//) | Jak zacházet s výrazem //etc.//? Bral bych to jako cizí slovo v našem pojetí, zároveň je to zkratka. Nabízí se tedy nechat lemma "etc", dát POS=X a Foreign=Yes (jako u cizích slov), zároveň vyplnit i Abbr=Yes. Ale bylo by to v rozporu s instrukcí, že u cizích slov se žádné jiné rysy než Foreign=Yes nevyplňují. Jak to tedy řešit? <fc #008000>**DZ:** Pokud s tím zacházíme jako s cizím slovem, tak není důvod anotovat zkratku. (Resp. ten důvod není o nic větší, než by byl důvod anotovat rod, číslo a pád u latinského substantiva.) Akorát je otázka, zda to nemohlo být dočasně v češtině zdomácnělé, než to vytlačila česká zkratka //atd.//? Např. v anglických UD se to za zdomácnělé považuje, protože se to tam používá dodneška, přestože je to z latiny.</fc> **JP:** Mně přijde, že by se to klidně dalo považovat za zdomácnělé i v současné češtině. Ale v té staré nevím, třeba slovník staré češtiny (ESSČ) to neuvádí, takže to asi za zdomácnělé úplně nepovažuje. Každopádně by v tom případě vyvstala otázka, jak to anotovat. Takže je potřeba buď stanovit, že to budeme brát jako běžné cizí slovo a Abbr nevyplňovat, nebo si říct, že je to zdomácnělé, a pak stanovit, jak to anotovat. <fc #008000>**DZ:** Mně by taky nevadilo považovat to za zdomácnělé i v nové češtině, ale když jsem hledal výskyty v UD treebancích, tak jsem akorát zjistil, že existuje nějaká kapela, co se jmenuje ETC, to je vše. Pokud to budeme anotovat jako zdomácnělé, pak mi přijde nejpřirozenější dělat to stejně jako //atd.//, což znamená UPOS=ADV, Abbr=Yes.</fc> **JP:** No a asi ještě Degree a Polarity, když tu děláme u všech adverbií kromě zájmenných a číslovkových, ne? A lemma "etc"? <fc #008000>**DZ:** Lemma "etc" asi ano. O tom Degree a Polarity nejsem přesvědčen (protože jiným zkratkám taky často chybí rysy, které se u nezkráceného slova vyskytují), ale klidně ho tam teď anotujme, ono to stejně bude vždycky Degree=Pos a Polarity=Pos. Nevím z hlavy, jestli to kontrolní skript bude vyžadovat nebo naopak zakazovat, ale pokud na to narazíme, tak mi to určitě připomeneš a já to nějak vyřeším.</fc> | Značit jako ADV. | |
| | |JP, 19. 7. 2025 ^ rod u číslovek typu Sets | Vím, že v pravidlech máme napsáno, že u číslovek typu jedny, dvoje, troje, čtvery, oboje se nemá anotovat rod a životnost. (Pokud to tam anotujeme, skript nám to hlásí jako chybu.) Ale nevím, jestli je to dobré řešení, protože ve starší češtině se ten rod rozlišoval, máme např. dvoji vs. dvoje, oboji vs. oboje apod. Navíc opozice jedni vs. jedny existuje i v současné češtině, nejen v té starší. Neměli bychom tedy ten rod anotovat? (Lemma máme podle současných pokynů dávat jako "jedny", "dvoje" apod., k tomu viz i zde níže.) | U NumType=Sets anotovat Gender (+Animacy v případě Gender=Masc). | |
| |