AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
hickok:problemy_morfologie [2025/09/09 15:49] – [Zatím nedořešené problémy] jiriperglerhickok:problemy_morfologie [2025/10/24 10:11] (aktuální) – [Zatím nedořešené problémy] jiripergler
Řádek 9: Řádek 9:
 |jz, 11. 6. 2025 ^ též | ADV, degree=pos, polarity=pos? (stejně jako také? i když větší smysl by dávalo ADV, prontype=dem?) **JP:** Pokud je to ve významu "také", tak bych to anotoval stejně. Určitě jsem ale narazil i na kontexty, kde to znamenalo "totéž", v takovém případě anotuji stejně jako //totéž//, tj. UPOS=DET, pád, číslo, rod, PronType=Dem.  | |  |jz, 11. 6. 2025 ^ též | ADV, degree=pos, polarity=pos? (stejně jako také? i když větší smysl by dávalo ADV, prontype=dem?) **JP:** Pokud je to ve významu "také", tak bych to anotoval stejně. Určitě jsem ale narazil i na kontexty, kde to znamenalo "totéž", v takovém případě anotuji stejně jako //totéž//, tj. UPOS=DET, pád, číslo, rod, PronType=Dem.  | | 
 |JP, 14. 7. 2025 ^ duál ve střední češtině | Jak zacházet s kategorií duálu ve střední češtině? Vzhledem k tomu, že tato kategorie z většiny zanikala už v průběhu 15. století, lze očekávat, že ve střední češtině už bude dost výjimečně. Jasně duálové tvary, které se do dnešní češtiny nedochovaly, samozřejmě budeme anotovat jako duálové. Ale co s tvary, které se do dnešní češtiny dochovaly? V dokumentaci k českému UD se píše, že duál se anotuje jednak u tvarů se zakončením -ma (dlouhýma nohama), jednak u číslovkového tvaru "stě". Ale: v Intercorpu vidím, že duál se anotuje jenom u toho prvního typu případů (-ma), ale "stě" je anotováno jako plurál. Jak s tím tedy zacházet? A dále: jak s tvary číslovky dva, oba? Od původu jsou to duálové tvary, ve stč. jsme je tak anotovali, ale ve střední češtině s nimi už asi můžeme zacházet stejně jako v nové češtině a v 19. století. Bude se tam dávát duál, nebo plurál? A dále: původně jsou duálové tvary částí těla nejen ty zakončené na -ma, ale i tvary "ruce", "rukou", "nohou", "ramenou" apod. Ve staré češtině jsme je samozřejmě brali jako duál, ale ve střední a dál už jako plurál?   | |  |JP, 14. 7. 2025 ^ duál ve střední češtině | Jak zacházet s kategorií duálu ve střední češtině? Vzhledem k tomu, že tato kategorie z většiny zanikala už v průběhu 15. století, lze očekávat, že ve střední češtině už bude dost výjimečně. Jasně duálové tvary, které se do dnešní češtiny nedochovaly, samozřejmě budeme anotovat jako duálové. Ale co s tvary, které se do dnešní češtiny dochovaly? V dokumentaci k českému UD se píše, že duál se anotuje jednak u tvarů se zakončením -ma (dlouhýma nohama), jednak u číslovkového tvaru "stě". Ale: v Intercorpu vidím, že duál se anotuje jenom u toho prvního typu případů (-ma), ale "stě" je anotováno jako plurál. Jak s tím tedy zacházet? A dále: jak s tvary číslovky dva, oba? Od původu jsou to duálové tvary, ve stč. jsme je tak anotovali, ale ve střední češtině s nimi už asi můžeme zacházet stejně jako v nové češtině a v 19. století. Bude se tam dávát duál, nebo plurál? A dále: původně jsou duálové tvary částí těla nejen ty zakončené na -ma, ale i tvary "ruce", "rukou", "nohou", "ramenou" apod. Ve staré češtině jsme je samozřejmě brali jako duál, ale ve střední a dál už jako plurál?   | | 
-|JP, 19. 7. 2025 ^ rod u číslovek typu Sets | Vím, že v pravidlech máme napsáno, že u číslovek typu jedny, dvoje, troje, čtvery, oboje se nemá anotovat rod a životnost. (Pokud to tam anotujeme, skript nám to hlásí jako chybu.) Ale nevím, jestli je to dobré řešení, protože ve starší češtině se ten rod rozlišoval, máme např. dvoji vs. dvoje, oboji vs. oboje apod. Navíc opozice jedni vs. jedny existuje i v současné češtině, nejen v té starší. Neměli bychom tedy ten rod anotovat? (Lemma máme podle současných pokynů dávat jako "jedny", "dvoje" apod., k tomu viz i zde níže.)  | |  
 |AM, 1. 8. 2025 ^ Number u číslovek //sto//, //tisíc// | V instrukcích stojí, že u číslovek základních „tři, čtyři, pět, …“ (tři tečky interpretuji jako atd.) se anotuje Number=Plur. Platí to ale i pro číslovky //sto// a //tisíc//? **JP:** Ty číslovky obecně nejsou moc dořešené, u //sto// a //tisíc// se téhle instrukce nedržím a Number anotuju různé, podle formy.  | |  |AM, 1. 8. 2025 ^ Number u číslovek //sto//, //tisíc// | V instrukcích stojí, že u číslovek základních „tři, čtyři, pět, …“ (tři tečky interpretuji jako atd.) se anotuje Number=Plur. Platí to ale i pro číslovky //sto// a //tisíc//? **JP:** Ty číslovky obecně nejsou moc dořešené, u //sto// a //tisíc// se téhle instrukce nedržím a Number anotuju různé, podle formy.  | | 
 |jz, 1. 8. 2025 ^ obyvatelská jména na //-ští// | //Perští//, //Macedonští//, //Indiští// atd. - PROPN Nat, nebo ADJ? **JP:** V dokumentaci k českému UD se píše: "Single-word named entities should be tagged PROPN even if they originate from a common noun." Pak tam jsou i nějaké odpovídající příklady. Z toho bych vyvozoval, že se to má anotovat jako PROPN. **JZ:** Super, taky jsem se přikláněla k téhle možnosti. Udělala jsem to tak.  | | |jz, 1. 8. 2025 ^ obyvatelská jména na //-ští// | //Perští//, //Macedonští//, //Indiští// atd. - PROPN Nat, nebo ADJ? **JP:** V dokumentaci k českému UD se píše: "Single-word named entities should be tagged PROPN even if they originate from a common noun." Pak tam jsou i nějaké odpovídající příklady. Z toho bych vyvozoval, že se to má anotovat jako PROPN. **JZ:** Super, taky jsem se přikláněla k téhle možnosti. Udělala jsem to tak.  | |
-|jz, 7. 8. 2025 ^ grafické signály členění textu | V PrávJihlA jsou v rkp. marginální přípisky - velká písmena abecedně jdoucí po sobě - která mají nejspíš usnadnit orientaci v textu. Editor tyto přípisky zahrnuje do textu a značí stylem "textový orientátor". V textu, se kterým pracujeme my, ovšem rozdíly mezi styly mizí a tato písmena se stávají součástí textu. UDPipe to s nimi zkouší různě, někdy je pojímá jako samostatnou větu a někdy ne, lemmatizuje jako velké či malé písmeno, přiřazuje upos noun, cconj, x... Co s nimi chceme dělat my? Aneb Jak se jich elegantně zbavit? **JP:** UPOS asi nedává smysl nic jiného než X, ne? A dával bych je asi jako samostatnou větu, aby to v nějaké jiné větě nedělalo bordel. Jak lemmatizovat, nevím, asi bych dával spíš malé písmeno. **JZ:** Dám UPOS=X a dám to jako samostatnou větu. Jako lemma bych dala spíš velké písmeno, když i u cizích slov a porušených slov necháváme velká/malá písmena tak, jak jsou v textu. **JZ:** Narazila jsem na případ, kdy je toto písmeno uvnitř věty. V tomto případě bych to nedávala jako samostatnou větu, protože by to znamenalo roztrhnout větu, do níž je to vloženo, na dva kusy. **JP:** No u té lemmatizace ale pozor, u cizích slov by to snad mělo být tak, že to převádíme na malá písmena, výjimkou jsou pouze případy, že jsme si jisti, že jde o vlastní jméno, v tom případě necháváme první velké.  | | +|jz, 7. 8. 2025 ^ grafické signály členění textu | V PrávJihlA jsou v rkp. marginální přípisky - velká písmena abecedně jdoucí po sobě - která mají nejspíš usnadnit orientaci v textu. Editor tyto přípisky zahrnuje do textu a značí stylem "textový orientátor". V textu, se kterým pracujeme my, ovšem rozdíly mezi styly mizí a tato písmena se stávají součástí textu. UDPipe to s nimi zkouší různě, někdy je pojímá jako samostatnou větu a někdy ne, lemmatizuje jako velké či malé písmeno, přiřazuje upos noun, cconj, x... Co s nimi chceme dělat my? Aneb Jak se jich elegantně zbavit? **JP:** UPOS asi nedává smysl nic jiného než X, ne? A dával bych je asi jako samostatnou větu, aby to v nějaké jiné větě nedělalo bordel. Jak lemmatizovat, nevím, asi bych dával spíš malé písmeno. **JZ:** Dám UPOS=X a dám to jako samostatnou větu. Jako lemma bych dala spíš velké písmeno, když i u cizích slov a porušených slov necháváme velká/malá písmena tak, jak jsou v textu. **JZ:** Narazila jsem na případ, kdy je toto písmeno uvnitř věty. V tomto případě bych to nedávala jako samostatnou větu, protože by to znamenalo roztrhnout větu, do níž je to vloženo, na dva kusy. **JP:** No u té lemmatizace ale pozor, u cizích slov by to snad mělo být tak, že to převádíme na malá písmena, výjimkou jsou pouze případy, že jsme si jisti, že jde o vlastní jméno, v tom případě necháváme první velké. **JZ:** Tak jo, tak to lemma změním na malé písmeno. Ale trochu si dělám naděje, že to z toho textu nakonec zmizí, srov. následující dotaz. | | 
-|jz, 3. 9. 2025 ^ marginální přípisek začleněný editorem do textu | Pakli se brání, __hledaj 4__ dostatečni sú svědkové věrohodní kteracíkolivěk. PrávJihlA 17v, rkp. zde: https://www.manuscriptorium.com/apps/index.php?direct=record&pid=AIPDIG-NMP___IV_B_10_____46DOU54-cs#search. Podtržená pasáž (hledaj 4) je v rkp. in margine, editor ji začlenil do textu a označil kódem "přípisek marginální soudobou rukou". My ovšem v textu ty kódy nemáme. Jak s tím zacházet? Prostě to nechat jako součást věty? | | +|jz, 3. 9. 2025 ^ marginální přípisek začleněný editorem do textu | Pakli se brání, __hledaj 4__ dostatečni sú svědkové věrohodní kteracíkolivěk. PrávJihlA 17v, rkp. zde: https://www.manuscriptorium.com/apps/index.php?direct=record&pid=AIPDIG-NMP___IV_B_10_____46DOU54-cs#search. Podtržená pasáž (hledaj 4) je v rkp. in margine, editor ji začlenil do textu a označil kódem "přípisek marginální soudobou rukou". My ovšem v textu ty kódy nemáme. Jak s tím zacházet? Prostě to nechat jako součást věty? **JP:** No asi jo, jinou možnost myslím nemáme. A morfologickou anotaci to může mít normálně. **JZ:** Mluvila jsem o tom s Ondrou. Říkal, že tady nastala chyba při generování textu, že ty přípisky se měly vyhodit (a stejně tak textové orientátory, kterých se týká předchozí dotaz) a že by to snad mohlo jít vyhodit i dodatečně.| | 
-|jz, 3. 9. 2025 ^ //prvnější// | //poněvadž skrze potomnější skutek zdvižen bývá prvnější//: u slova //prvnější// patrně anotovat degree=cmp - a v tom případě anotovat i numtype=ord, nebo ne? | | +|jz, 3. 9. 2025 ^ //prvnější// | //poněvadž skrze potomnější skutek zdvižen bývá prvnější//: u slova //prvnější// patrně anotovat degree=cmp - a v tom případě anotovat i numtype=ord, nebo ne? **JP:** To je asi dotaz hlavně na Dana, ale skoro bych předpokládal, že v tomto případě bude potřeba rezignovat na tu číslovkovost a dát Degree=Cmp, Polarity=Pos, zatímco NumType nedávat. **JZ:** Nebo povolit kombinaci Degree=Cmp a NumType=Ord? :-) | | 
-|jz, 3. 9. 2025 ^ //tehda//, //tehdy// | ADV prontype=dem, nebo ADV degree=pos polarity=pos? | | +|jz, 3. 9. 2025 ^ //tehda//, //tehdy// | ADV prontype=dem, nebo ADV degree=pos polarity=pos? **JP:** Dělám to prvním způsobem, tj. PronType=Dem, tak je to i v InterCorpu. Jiná věc je, že někdy je to ve funkci //tedy//, resp. že formy //tedy// a //tehdy// se používají v obou dnešních funkcích, tak k tomu se snažím přihlížet. Pokud to jen trochu jde, beru to jako to ADV. **JZ:** Taky to dělám tím prvním způsobem. A dávám teda vždy upos=adv. | |  
 +|jz, 10. 9. 2025 ^ dvojtečka a hranice věty | To, co následuje za dvojtečkou, vždy patří do téže věty jako text před dvojtečkou - ať už je to přímá řeč, nebo něco jiného? Např.: //... tento odsudek zakládá se na tom, že dvuoj jest súd:  M //(=textový orientátor)// Jeden súd jest pořádný, t. zahájený //(= přípisek)// jenž má den uložený, v kterýžto den od stara dávna zvykl jest súd bývati; jiný jest súd, jenž neslove pořádný, ...// (za středníkem už pak začíná nová věta) **JP:** Takové pravidlo myslím nikde není. Spojuju to do jedné věty jenom v případě, že je to přímá řeč (i když tam nejsou uvozovky) nebo že je to něco, co se přímé řeči nějak podobá (tam ty hranice jsou velmi neostré, můžou to být různé citace z jiných textů apod., jako kritérium si zkouším říct, jestli by se tam daly použít uvozovky nebo ne). V citovém dokladu to myslím s přímou řečí nemá společného vůbec nic, takže pokud to UDPipe rozdělil, nechal bych to rozdělené.  | | 
 +| jz, 10. 9. 2025 ^ //nikoli// | upos=part? **JP:** U toho postupuju stejně jako u //ne//, tj. většinou PART, pouze pokud by to bylo jako samostatná výpověď (prototypicky v odpovědi na otázku, případně v nějakém podobném kontextu), tak INTJ. | | 
 +|jz, 16. 10. 2025 ^ //jedno// ve významu "zaprvé" | //Ale tovařišie jeho jedno pro strach, druhé hladem navrátili se zase a přijeli do královstvie aragonského.// (Vespucci); //jedno// - UPOS=ADV, NumType=Card? Nebo jinak? **JP:** Pokud vím, číslovky jako //zaprvé//, //zadruhé// apod. by měly mít UPOS=ADV, NumType=Ord. Totéž platí i tehdy, pokud je v této funkci //druhé//, k tomu viz starší dotaz zde v tabulce níže. To //jedno// jsem na daném místě anotoval taky tak. **JZ:** Já jsem to nakonec označila jako Card - kvůli formě a protože mi připadá, že ten "řadový" význam tam možná nemusel být tak silný (srov. //Domyslet se je jedna věc , mluvit na rovinu druhá .// - InterCorp). Každopádně jeden z nás bude mít možnost rozhodnout to v porovnání rozdílů :-)  | |  
 +|jz, 21. 10. 2025 ^ //nynie// | ADV Dem? (má to tak InterCorp) **JP:** Já to tak nechávám, ano. | | 
 +|JP, 23. 10. 2025 ^ číslovka //pár// | Jak anotovat? Podle UDPipu je to bráno jako běžná základní číslovka (tak i v Intercorpu), ale mnohem větší smysl by mi dávalo brát to jako zájmennou číslovku neurčitou, protože to znamená v zásadě totéž co "několik". | | 
 +|JP, 24. 10. 2025 ^ číslovka //čtvrt// | Jak anotovat? Stejně jako //půl//, tj. jen Card, Word, nebo jako jiné základní číslovky, tj. i číslo a pád? Případně ještě jinak?  | |
 ===== Vyřešené problémy ===== ===== Vyřešené problémy =====
  
Řádek 92: Řádek 97:
 | JP, 6. 1. 2025 ^ spojování vět v kombinaci s multiword tokenem | Mám v tabulce větu, která začíná multiword tokenem ("pročs"), ten už je od UDPipu správně rozdělen. Tuto větu chci spojit s předchozí větou. Do kterého řádku mám vyplnit hodnotu "spojit": k tomu "pročs", nebo až k tomu "proč"? <fc #008000>**DZ:** Tak tahle otázka mě zaskočila, protože na to jsem při navrhování mechanismu nepomyslel. Koukal jsem se teď do skriptů a myslím si, že lepší bude dát to až k tomu "proč", tam vidím větší šanci, že to skripty zpracují správně :-) </fc> **JP:** OK, dal jsem to tam, tak uvidíme :) (Mám to dvakrát v textu PasMuzA. **edit:** Už jsem na to narazil i v několika dalších edicích.) <fc #008000>**DZ:** Zafungovalo to.</fc> | Hodnotu "spojit" vložit až k tomu "proč". | | JP, 6. 1. 2025 ^ spojování vět v kombinaci s multiword tokenem | Mám v tabulce větu, která začíná multiword tokenem ("pročs"), ten už je od UDPipu správně rozdělen. Tuto větu chci spojit s předchozí větou. Do kterého řádku mám vyplnit hodnotu "spojit": k tomu "pročs", nebo až k tomu "proč"? <fc #008000>**DZ:** Tak tahle otázka mě zaskočila, protože na to jsem při navrhování mechanismu nepomyslel. Koukal jsem se teď do skriptů a myslím si, že lepší bude dát to až k tomu "proč", tam vidím větší šanci, že to skripty zpracují správně :-) </fc> **JP:** OK, dal jsem to tam, tak uvidíme :) (Mám to dvakrát v textu PasMuzA. **edit:** Už jsem na to narazil i v několika dalších edicích.) <fc #008000>**DZ:** Zafungovalo to.</fc> | Hodnotu "spojit" vložit až k tomu "proč". |
 | JP, 18. 2. 2025 ^ zkratka cizího slova (//etc.//) | Jak zacházet s výrazem //etc.//? Bral bych to jako cizí slovo v našem pojetí, zároveň je to zkratka. Nabízí se tedy nechat lemma "etc", dát POS=X a Foreign=Yes (jako u cizích slov), zároveň vyplnit i Abbr=Yes. Ale bylo by to v rozporu s instrukcí, že u cizích slov se žádné jiné rysy než Foreign=Yes nevyplňují. Jak to tedy řešit? <fc #008000>**DZ:** Pokud s tím zacházíme jako s cizím slovem, tak není důvod anotovat zkratku. (Resp. ten důvod není o nic větší, než by byl důvod anotovat rod, číslo a pád u latinského substantiva.) Akorát je otázka, zda to nemohlo být dočasně v češtině zdomácnělé, než to vytlačila česká zkratka //atd.//? Např. v anglických UD se to za zdomácnělé považuje, protože se to tam používá dodneška, přestože je to z latiny.</fc> **JP:** Mně přijde, že by se to klidně dalo považovat za zdomácnělé i v současné češtině. Ale v té staré nevím, třeba slovník staré češtiny (ESSČ) to neuvádí, takže to asi za zdomácnělé úplně nepovažuje. Každopádně by v tom případě vyvstala otázka, jak to anotovat. Takže je potřeba buď stanovit, že to budeme brát jako běžné cizí slovo a Abbr nevyplňovat, nebo si říct, že je to zdomácnělé, a pak stanovit, jak to anotovat. <fc #008000>**DZ:** Mně by taky nevadilo považovat to za zdomácnělé i v nové češtině, ale když jsem hledal výskyty v UD treebancích, tak jsem akorát zjistil, že existuje nějaká kapela, co se jmenuje ETC, to je vše. Pokud to budeme anotovat jako zdomácnělé, pak mi přijde nejpřirozenější dělat to stejně jako //atd.//, což znamená UPOS=ADV, Abbr=Yes.</fc> **JP:** No a asi ještě Degree a Polarity, když tu děláme u všech adverbií kromě zájmenných a číslovkových, ne? A lemma "etc"? <fc #008000>**DZ:** Lemma "etc" asi ano. O tom Degree a Polarity nejsem přesvědčen (protože jiným zkratkám taky často chybí rysy, které se u nezkráceného slova vyskytují), ale klidně ho tam teď anotujme, ono to stejně bude vždycky Degree=Pos a Polarity=Pos. Nevím z hlavy, jestli to kontrolní skript bude vyžadovat nebo naopak zakazovat, ale pokud na to narazíme, tak mi to určitě připomeneš a já to nějak vyřeším.</fc> | Značit jako ADV. | | JP, 18. 2. 2025 ^ zkratka cizího slova (//etc.//) | Jak zacházet s výrazem //etc.//? Bral bych to jako cizí slovo v našem pojetí, zároveň je to zkratka. Nabízí se tedy nechat lemma "etc", dát POS=X a Foreign=Yes (jako u cizích slov), zároveň vyplnit i Abbr=Yes. Ale bylo by to v rozporu s instrukcí, že u cizích slov se žádné jiné rysy než Foreign=Yes nevyplňují. Jak to tedy řešit? <fc #008000>**DZ:** Pokud s tím zacházíme jako s cizím slovem, tak není důvod anotovat zkratku. (Resp. ten důvod není o nic větší, než by byl důvod anotovat rod, číslo a pád u latinského substantiva.) Akorát je otázka, zda to nemohlo být dočasně v češtině zdomácnělé, než to vytlačila česká zkratka //atd.//? Např. v anglických UD se to za zdomácnělé považuje, protože se to tam používá dodneška, přestože je to z latiny.</fc> **JP:** Mně přijde, že by se to klidně dalo považovat za zdomácnělé i v současné češtině. Ale v té staré nevím, třeba slovník staré češtiny (ESSČ) to neuvádí, takže to asi za zdomácnělé úplně nepovažuje. Každopádně by v tom případě vyvstala otázka, jak to anotovat. Takže je potřeba buď stanovit, že to budeme brát jako běžné cizí slovo a Abbr nevyplňovat, nebo si říct, že je to zdomácnělé, a pak stanovit, jak to anotovat. <fc #008000>**DZ:** Mně by taky nevadilo považovat to za zdomácnělé i v nové češtině, ale když jsem hledal výskyty v UD treebancích, tak jsem akorát zjistil, že existuje nějaká kapela, co se jmenuje ETC, to je vše. Pokud to budeme anotovat jako zdomácnělé, pak mi přijde nejpřirozenější dělat to stejně jako //atd.//, což znamená UPOS=ADV, Abbr=Yes.</fc> **JP:** No a asi ještě Degree a Polarity, když tu děláme u všech adverbií kromě zájmenných a číslovkových, ne? A lemma "etc"? <fc #008000>**DZ:** Lemma "etc" asi ano. O tom Degree a Polarity nejsem přesvědčen (protože jiným zkratkám taky často chybí rysy, které se u nezkráceného slova vyskytují), ale klidně ho tam teď anotujme, ono to stejně bude vždycky Degree=Pos a Polarity=Pos. Nevím z hlavy, jestli to kontrolní skript bude vyžadovat nebo naopak zakazovat, ale pokud na to narazíme, tak mi to určitě připomeneš a já to nějak vyřeším.</fc> | Značit jako ADV. |
 +|JP, 19. 7. 2025 ^ rod u číslovek typu Sets | Vím, že v pravidlech máme napsáno, že u číslovek typu jedny, dvoje, troje, čtvery, oboje se nemá anotovat rod a životnost. (Pokud to tam anotujeme, skript nám to hlásí jako chybu.) Ale nevím, jestli je to dobré řešení, protože ve starší češtině se ten rod rozlišoval, máme např. dvoji vs. dvoje, oboji vs. oboje apod. Navíc opozice jedni vs. jedny existuje i v současné češtině, nejen v té starší. Neměli bychom tedy ten rod anotovat? (Lemma máme podle současných pokynů dávat jako "jedny", "dvoje" apod., k tomu viz i zde níže.)  | U NumType=Sets anotovat Gender (+Animacy v případě Gender=Masc). |