Problémy anotace morfologie (POS, features)

Tabulka slouží k zapisování, diskusi a řešení nejasností/problémů při anotaci slovních druhů (POS) a morfologických rysů (features) v staročeském a středněčeském UD etalonu. Vyřešené problémy budou průběžně doplňovány do základní dokumentace.

Zatím nedořešené problémy

Autor, datum	Název	Popis problému, diskuse	Řešení
AM, 27. 2. 2025	Očividné chyby?	Ve ŠtíKlem mám tuto větu s překlepem: Ale v domiech svých, a když kvasíte spolu, a jsú liť dnie krátci, ale v nocp aby duchovnie perly u pokladiech srdce svého schovali. Chyb je v té edice víc, ale zde u toho „nocp“ je to vyloženě překlep. Jak přistupovat k anotaci u takového případu? DZ: Na to nemám řešení . Podle pravidel UD by se mělo do morfologických rysů přidat Typo=Yes, jenže na to jsem nepřipravil v tabulce sloupec. Kromě toho lze diskutovat o tom, že u novodobých edicí staročeských textů nemá smysl překlepy zachovávat, byť označené, a bylo by možná lepší je prostě opravit, jenže to při anotacích dělat nemůžete, protože by pak nefungovalo přebírání anotací z tabulky zpět do souboru CoNLL-U. JP: Souhlasím, že by bylo lepší opravovat, ale s tím už teď asi nic nenaděláme. Kdybych na to narazil, asi bych se to snažil anotovat tak, jako by tam překlep nebyl, ale pak asi není ideální, když se na tom má něco trénovat. Já jsem třeba řešil ještě jinak problematickou chybu, a to tu, že tvar, který evidentně měl být v edici transkribovaný v podobě jiej (což je zájmenný tvar pro dativ feminina), tam byl opakovaně transkribovaný jako jej, což je tvar pro akuzativ maskulina. Taky mi přišlo, že to nemá žádné dobré řešení, anotoval jsem to jako ten dativ feminina, protože to bylo to jediné, co v daném syntaktickém kontextu dávalo smysl. DZ: Ještě mě napadá, že by se dal využít sloupec MISC a připsat do něj např. „CorrectForm=jiej“. Musel bych upravit přebírací skript, aby se po tom koukal. K tomu, co už vám prošlo rukama a je převzaté a schválené, bych se nevracel. A tak jako tak bych anotace dělal takové, jaké by to dostalo, kdyby tam překlep nebyl. JP: Dobře, závěr tedy je, že to budeme anotovat tak, jako by tam chyba nebyla, a časem třeba získáme možnost někam to správné znění uvést. Akorát tu asi už budeme moct případně využít jen pro středněčeský etalon. JZ: Aha! Já jsem doteď měla odlišnou strategii - chybné tvary jsem anotovala podle formy, i když to syntakticky nedávalo smysl - právě kvůli tomu trénování. Mám teda změnit přístup? JP: Asi změň, no. Jde asi o to, jestli to syntakticky fakt vůbec nedává smysl, někdy to třeba aspoň trochu smysl dávat může, tak pak je to asi lepší vyjít z té formy, ale když je to vyloženě blbost, tak ne. Třeba to jej místo jiej v HradMagd fakt smysl nedává.
jz, 11. 6. 2025	též	ADV, degree=pos, polarity=pos? (stejně jako také? i když větší smysl by dávalo ADV, prontype=dem?) JP: Pokud je to ve významu „také“, tak bych to anotoval stejně. Určitě jsem ale narazil i na kontexty, kde to znamenalo „totéž“, v takovém případě anotuji stejně jako totéž, tj. UPOS=DET, pád, číslo, rod, PronType=Dem.
JP, 14. 7. 2025	duál ve střední češtině	Jak zacházet s kategorií duálu ve střední češtině? Vzhledem k tomu, že tato kategorie z většiny zanikala už v průběhu 15. století, lze očekávat, že ve střední češtině už bude dost výjimečně. Jasně duálové tvary, které se do dnešní češtiny nedochovaly, samozřejmě budeme anotovat jako duálové. Ale co s tvary, které se do dnešní češtiny dochovaly? V dokumentaci k českému UD se píše, že duál se anotuje jednak u tvarů se zakončením -ma (dlouhýma nohama), jednak u číslovkového tvaru „stě“. Ale: v Intercorpu vidím, že duál se anotuje jenom u toho prvního typu případů (-ma), ale „stě“ je anotováno jako plurál. Jak s tím tedy zacházet? A dále: jak s tvary číslovky dva, oba? Od původu jsou to duálové tvary, ve stč. jsme je tak anotovali, ale ve střední češtině s nimi už asi můžeme zacházet stejně jako v nové češtině a v 19. století. Bude se tam dávát duál, nebo plurál? A dále: původně jsou duálové tvary částí těla nejen ty zakončené na -ma, ale i tvary „ruce“, „rukou“, „nohou“, „ramenou“ apod. Ve staré češtině jsme je samozřejmě brali jako duál, ale ve střední a dál už jako plurál?
AM, 1. 8. 2025	Number u číslovek sto, tisíc	V instrukcích stojí, že u číslovek základních „tři, čtyři, pět, …“ (tři tečky interpretuji jako atd.) se anotuje Number=Plur. Platí to ale i pro číslovky sto a tisíc? JP: Ty číslovky obecně nejsou moc dořešené, u sto a tisíc se téhle instrukce nedržím a Number anotuju různé, podle formy.
jz, 1. 8. 2025	obyvatelská jména na -ští	Perští, Macedonští, Indiští atd. - PROPN Nat, nebo ADJ? JP: V dokumentaci k českému UD se píše: „Single-word named entities should be tagged PROPN even if they originate from a common noun.“ Pak tam jsou i nějaké odpovídající příklady. Z toho bych vyvozoval, že se to má anotovat jako PROPN. JZ: Super, taky jsem se přikláněla k téhle možnosti. Udělala jsem to tak.
jz, 7. 8. 2025	grafické signály členění textu	V PrávJihlA jsou v rkp. marginální přípisky - velká písmena abecedně jdoucí po sobě - která mají nejspíš usnadnit orientaci v textu. Editor tyto přípisky zahrnuje do textu a značí stylem „textový orientátor“. V textu, se kterým pracujeme my, ovšem rozdíly mezi styly mizí a tato písmena se stávají součástí textu. UDPipe to s nimi zkouší různě, někdy je pojímá jako samostatnou větu a někdy ne, lemmatizuje jako velké či malé písmeno, přiřazuje upos noun, cconj, x… Co s nimi chceme dělat my? Aneb Jak se jich elegantně zbavit? JP: UPOS asi nedává smysl nic jiného než X, ne? A dával bych je asi jako samostatnou větu, aby to v nějaké jiné větě nedělalo bordel. Jak lemmatizovat, nevím, asi bych dával spíš malé písmeno. JZ: Dám UPOS=X a dám to jako samostatnou větu. Jako lemma bych dala spíš velké písmeno, když i u cizích slov a porušených slov necháváme velká/malá písmena tak, jak jsou v textu. JZ: Narazila jsem na případ, kdy je toto písmeno uvnitř věty. V tomto případě bych to nedávala jako samostatnou větu, protože by to znamenalo roztrhnout větu, do níž je to vloženo, na dva kusy. JP: No u té lemmatizace ale pozor, u cizích slov by to snad mělo být tak, že to převádíme na malá písmena, výjimkou jsou pouze případy, že jsme si jisti, že jde o vlastní jméno, v tom případě necháváme první velké. JZ: Tak jo, tak to lemma změním na malé písmeno. Ale trochu si dělám naděje, že to z toho textu nakonec zmizí, srov. následující dotaz.
jz, 3. 9. 2025	marginální přípisek začleněný editorem do textu	Pakli se brání, hledaj 4 dostatečni sú svědkové věrohodní kteracíkolivěk. PrávJihlA 17v, rkp. zde: https://www.manuscriptorium.com/apps/index.php?direct=record&pid=AIPDIG-NMP___IV_B_10_____46DOU54-cs#search. Podtržená pasáž (hledaj 4) je v rkp. in margine, editor ji začlenil do textu a označil kódem „přípisek marginální soudobou rukou“. My ovšem v textu ty kódy nemáme. Jak s tím zacházet? Prostě to nechat jako součást věty? JP: No asi jo, jinou možnost myslím nemáme. A morfologickou anotaci to může mít normálně. JZ: Mluvila jsem o tom s Ondrou. Říkal, že tady nastala chyba při generování textu, že ty přípisky se měly vyhodit (a stejně tak textové orientátory, kterých se týká předchozí dotaz) a že by to snad mohlo jít vyhodit i dodatečně.
jz, 3. 9. 2025	tehda, tehdy	ADV prontype=dem, nebo ADV degree=pos polarity=pos? JP: Dělám to prvním způsobem, tj. PronType=Dem, tak je to i v InterCorpu. Jiná věc je, že někdy je to ve funkci tedy, resp. že formy tedy a tehdy se používají v obou dnešních funkcích, tak k tomu se snažím přihlížet. Pokud to jen trochu jde, beru to jako to ADV. JZ: Taky to dělám tím prvním způsobem. A dávám teda vždy upos=adv.
jz, 10. 9. 2025	dvojtečka a hranice věty	To, co následuje za dvojtečkou, vždy patří do téže věty jako text před dvojtečkou - ať už je to přímá řeč, nebo něco jiného? Např.: … tento odsudek zakládá se na tom, že dvuoj jest súd: M (=textový orientátor) Jeden súd jest pořádný, t. zahájený (= přípisek) jenž má den uložený, v kterýžto den od stara dávna zvykl jest súd bývati; jiný jest súd, jenž neslove pořádný, … (za středníkem už pak začíná nová věta) JP: Takové pravidlo myslím nikde není. Spojuju to do jedné věty jenom v případě, že je to přímá řeč (i když tam nejsou uvozovky) nebo že je to něco, co se přímé řeči nějak podobá (tam ty hranice jsou velmi neostré, můžou to být různé citace z jiných textů apod., jako kritérium si zkouším říct, jestli by se tam daly použít uvozovky nebo ne). V citovém dokladu to myslím s přímou řečí nemá společného vůbec nic, takže pokud to UDPipe rozdělil, nechal bych to rozdělené.
jz, 10. 9. 2025	nikoli	upos=part? JP: U toho postupuju stejně jako u ne, tj. většinou PART, pouze pokud by to bylo jako samostatná výpověď (prototypicky v odpovědi na otázku, případně v nějakém podobném kontextu), tak INTJ.
jz, 16. 10. 2025	jedno ve významu „zaprvé“	Ale tovařišie jeho jedno pro strach, druhé hladem navrátili se zase a přijeli do královstvie aragonského. (Vespucci); jedno - UPOS=ADV, NumType=Card? Nebo jinak? JP: Pokud vím, číslovky jako zaprvé, zadruhé apod. by měly mít UPOS=ADV, NumType=Ord. Totéž platí i tehdy, pokud je v této funkci druhé, k tomu viz starší dotaz zde v tabulce níže. To jedno jsem na daném místě anotoval taky tak. JZ: Já jsem to nakonec označila jako Card - kvůli formě a protože mi připadá, že ten „řadový“ význam tam možná nemusel být tak silný (srov. Domyslet se je jedna věc , mluvit na rovinu druhá . - InterCorp). Každopádně jeden z nás bude mít možnost rozhodnout to v porovnání rozdílů
jz, 21. 10. 2025	nynie	ADV Dem? (má to tak InterCorp) JP: Já to tak nechávám, ano.
JP, 23. 10. 2025	číslovka pár	Jak anotovat? Podle UDPipu je to bráno jako běžná základní číslovka (tak i v Intercorpu), ale mnohem větší smysl by mi dávalo brát to jako zájmennou číslovku neurčitou, protože to znamená v zásadě totéž co „několik“.
JP, 24. 10. 2025	číslovka čtvrt	Jak anotovat? Stejně jako půl, tj. jen Card, Word, nebo jako jiné základní číslovky, tj. i číslo a pád? Případně ještě jinak?
jz, 16. 1. 2026	přitom	ADV Dem, nebo ADV Pos Pos (jako potom?)

Vyřešené problémy

Autor, datum	Název	Popis problému, diskuse	Řešení
JP, 5. 3. 2024	všechen	Bere se všechen jako zájmeno, nebo jako zájmenná číslovka? Tj. vyplňuje se u něj NumType? (Předpokládám, že POS je každopádně DET.)	Ano, POS je DET. NumType se nevyplňuje. Zde jsou vidět současné anotace ve FicTree.
JP, 5. 3. 2024	segmentace	Jsou nějak daná pravidla segmentace na věty? Jak postupovat při přímé řeči, máme-li uvozovací větu, pak dvojtečku a pak přímou řeč? Zatím se mi zdá, že to UDPipe nerozděluje, ale intuitivně bych to spíš dělil.	Sepsaná ta pravidla asi nejsou, resp. nevím o tom. Nicméně uvozovací věta, dvojtečka a první věta přímé řeči se podle mě přinejmenším v českých treebancích zpracovávají jako jedno souvětí. Pokud má přímá řeč více než jednu větu, ocitnou se koncové uvozovky v jiné větě než ty počáteční. JP: OK, držím se toho.
DZ, 5. 3. 2024	kondicionál	Kondicionál	Vyřešeno na samostatné stránce. DZ: Uvedené rozhodnutí se kvůli konzistenci promítne i do stávajících českých treebanků v UD. Změna na GitHubu provedena 2.9.2024, projeví se ve vydání 2.15 v listopadu. Dosud mělo _by_ v některých případech uvedenu 3. osobu, v jiných žádnou, nyní zůstane osoba u tohoto tvaru vždy neuvedena.
JP, 7. 3. 2024	tudiež	Ve významu „tam“ bych to považoval za zájmenné příslovce, tj. POS=ADV a PronType=Dem, šlo by to? Např. ve větě Ač vstúp̕u na nebe, ty tam jsi, ač sstúp̕u do pekla, tudiež* jsi.* (Ps 138,8)	DZ: Souhlasím. V PDT se vyskytuje pouze jako CCONJ, ale taky nepředpokládám, že by kdekoliv mělo význam tam.
JZ, 7. 3. 2024	kajúcích, milým	Jde o substantivizovaná adjektiva. Přesto POS=ADJ?	JP: Ano, substantiva s adjektivní formou anotujeme zpravidla jako adjektiva, tj. POS=ADJ. Výjimkou jsou pouze substantiva, která už v souč. češtině vůbec jako adjektiva nefungují, např. průvodčí.
JP, 8. 3. 2024	ijeden	Jak toto anotovat? Navrhuju takto: POS=DET, Gender+Animacy, Number, Case, PronType=Neg. Šlo by?	DZ: Šlo by. Pokud tedy z kontextu správně odhaduju, že to znamená žádný – pak by to logicky mělo mít obdobnou anotaci.
JP, 8. 3. 2024	li ve funkci spojky	Jak anotovat POS? Na webu UD se uvádí PART, tak to udělal i UDPipe, ale píše se tam, že do budoucna možná SCONJ. A v Intercorpu v13 UD je to zřejmě jako SCONJ. To mi dává větší smysl. JZ: Souhlasím, že spojkové užití bude asi většinou SCONJ. Nicméně v ModlKunhA (v. 140) jsem narazila na užití li, ktere mi připadalo adekvátní označit jako CCONJ. JP: Ve funkci tázací částice bych ale dával PART, podobně tak i třeba u zdali. DZ: Přiznám se, že nejsem příliš velký fanoušek kontextového škatulkování jednoho funkčního slova do několika různých POS kategorií, takže bych úplně nezavrhoval možnost mít pro li vždy stejnou značku (a s ohledem na tu tázací funkci je pak otázka, jestli by to nemělo být PART). V UD se ovšem argumentuje tím, že není potřeba důsledně duplikovat informaci, kterou stejně uvidíme v syntaktické anotaci (podřadicí spojky jsou zavěšené jako mark, souřadicí jako cc, tázací částice nemají úplně jasná pravidla, ale nejspíš prostě advmod). Data z Hičkoku zatím syntaktickou anotaci mít nebudou, takže by tam tohle rozlišení chybělo. Ale pokud rozhodneme, že takové rozlišení je otázkou syntaxe, tak je to možná v pořádku.	Rozhodnuto: Rozlišovat SCONJ, CCONJ, PART (to poslední jen u otázky v hlavní větě).
JZ, 8. 3. 2024	všemohúcí, vševidúcí	složená slova obsahující verbální adj. - vyplňovat VerbForm, Tense, Aspect, Voice? DZ: Nemám nijak vyhraněný názor, ale mírně se kloním k nevyplňování, pokud se nejdřív změnilo VERB na ADJ a až ten výsledek vstoupil do složeného slova. Jelikož (myslím) neexistují slovesa „všemoci“ a „vševidět“, tak už bych zde slovesné rysy nevyplňoval.	Rozhodnuto: Neznačit slovesné rysy.
JZ, 11. 3. 2024	jeden, nejeden	vyplňovat Polarity? (jeden – nejeden) DZ: V PDT Polarity vyplněna není, možná proto, že číslovky obecně negovat nejde. Stejně tak není polarita anotována u nejednou, které v UD má POS=ADV (a příslovce by negované být mohlo), ale v PDT to původně byla číslovka. Nemám jasno, zda to chceme měnit. Pokud ano, tak by se to muselo změnit i v novočeských treebancích.	Rozhodnuto: „nejeden“ je lemma, Polarity neznačit. Značka je DET (ne NUM). Asi budeme chtít ve výsledku PronType=Ind, ale ručně neanotovat, to půjde doplnit skriptem.
JP, 13. 3. 2024	víceznačnosti	Je třeba vyřešit, jak obecně postupovat při víceznačnostech. V některých případech není z kontextu jasné, o jaký jde pád (např. Acc vs. Gen, Nom vs. Voc), někdy není jasný rod nebo i číslo, případně další kategorie nebo i slovní druh, není to zdaleka výjimečný jev. Tak jestli to prostě řešit tak, že vybereme interpretaci, která nám v tu chvíli bude připadat nejpravděpodobnější, nebo to budeme řešit systematičtěji. Ta pravděpodobnost se přitom může leckdy lišit, např. mé ledvie (Acc) je možné chápat jako fem. pl. i neut. sg., ale vzhledem k tomu, že to neutrum je průkazně doložené až v 15. stol, to lze v ŽaltU spíš brát jako fem. pl. apod. Řada struktur je syntakticky nejasných. DZ: Tohle by si asi zasloužilo svou vlastní stránku. U pádů bych to viděl na nějakou hierarchii výchozích hodnot, u rodů to asi povede na samostatné instrukce pro každé slovo.	U tvaru, u něhož nelze jednoznačně určit např. rod nebo pád > 1) rozhodneme podle kontextu anotovaného textu (dané slovo se tam vyskytuje v jasně identifikovatelném tvaru v nějakém rodu, který v textu převažuje – vybereme ho i pro nejasný tvar); 2) pokud nepomůže kontext anotovaného textu, řídíme se obecným názorem v gramatikách a slovnících.
JZ, 15. 3. 2024	hoditi - vid	hoditi má významy, v nichž se chová jako dok., a významy, v nichž se chová jako nedok. Přiřadit jeden vid v souladu s významem, nebo označit jako biaspektuální?	DZ: V tomto případě se rozlišuje vid podle významu: hodit se je Aspect=Imp, hodit něco někam je Aspect=Perf. V UD-PDT to vychází na 4:6 výskytů. Jsou to dva různé lexémy, které v původním PDT mají lemmata hodit-1 (dokonavé) a hodit-2 (nedokonavé), ale v UD se tahle skutečnost poněkud ztrácí, protože tam musí být lemma pouze „hodit“, takže původní „hodit-1“ a „hodit-2“ bylo odsunuto do sloupce MISC jako atribut LId (a my v Hičkoku nic takového neanotujeme). Je možné, že v podobné situaci budou i další slovesa.
JP, 25. 3. 2024	stupňování u participiálních adjektiv	Nabízí se otázka, jestli neanotovat „degree“ i u participiálních adjektiv. I v současné češtině se dají stupňovat, např. dodělanější apod. DZ: Já jsem pro.	Ano, u trpných participiálních adjektiv typu dodělaný anotujeme degree.
JP, 26. 3. 2024	lexikalizovaný zápor	Je asi třeba stanovit nějak hranice toho, kde zápor řešit v rámci „Polarity“ (tj. polarity=neg a lemma bez prefixu ne-), a kde naopak ne (tj. polarity=pos a lemma negované). Předpokládám, že slova typu nepřítel jsou druhý případ? I když ve stč. to může být někdy trochu jiné než v nč., např. neskonánie může mít význam „nedokonalost“, tj. není to opak skonání, dále např. ke slovesu nenáviděti existuje i náviděti (i když slovník je uvádí zvlášť), dále neroditi, nečest apod. DZ: Pro inspiraci tady je dotaz, který ukazuje „kladná slova na ne-“ v PDT.	Řešíme (tvar-lemma-tag) takto: 1) substantiva: nepřítel-nepřítel-v tagu se nic neznačí; 2) slovesa: nekoupí-koupit-negace součástí tagu; 3) adjektiva a adverbia (odvozená od adjektiv): nevelký-velký-negace součástí tagu (stejně jako u sloves). Tedy: u substantiv se kategorií Polarity vůbec nepracuje, u sloves, adjektiv a deadjektivních adverbií ano, přičemž lemma je bez záporky. DZ: Výše uvedené rozhodnutí z porady 16.5.2024 se kvůli konzistenci promítne i do stávajících českých treebanků v UD. Změna na GitHubu provedena 1.9.2024, projeví se ve vydání 2.15 v listopadu. Dosud spíše nekonzistentní označování negativních substantiv tedy z českých UD úplně zmizí.
JP, 16. 4. 2024	číslo: hodnoty Coll, Ptan	Máme při anotaci čísla používat také tyto dvě hodnoty? Případně kde / v jaké míře? Zdá se mi, že třeba v korpusu Intercorp v13UD vůbec nejsou, taky v těch předanotovaných datech jsem na ně nenarazil. DZ: UD sice má tyto hodnoty k dispozici, ale v žádných českých datech je anotované nemáme (mohli bychom, ale prostě se to neanotovalo). S ohledem na konzistenci napříč češtinou bych se jim spíš asi vyhnul.	Tyto hodnoty nepoužíváme. Používáme pouze Sing, Dual a Plur.
JP, 17. 4. 2024	zájmeno an	Jak ho klasifikovat? V tabulce v základní dokumentaci momentálně máme, že jako Rel(ativum), tak se toho držím, ale nevím, jestli je to ve všech kontextech adekvátní, např. v kontextu když ho žena jme tresktati, nedadúc jmu v kostky jhráti, an sě rozhněvajě z toho, častoť jiej přibíjie mnoho. Nabízelo by se to brát taky jako ukazovací, případně osobní (?), v závislosti na kontextu. Ale nevím, jak moc spolehlivé by to rozlišování podle kontextu mohlo být, možná je s ohledem na konzistentnost lepší to brát všude jako Rel? JZ: V navazovací funkci by se dalo uvažovat o rozdělení do dvou řádků - a + on, tj. CCONJ + PRON Prs. JP: Tyjo, ještě toho trochu :D	Pokud je to zájmeno, vždy PronType=Rel. Kromě zájmena to ale taky může být SCONJ (ekvivalent když nebo protože).
JP, 17. 4. 2024	mnoho ve fci příslovce	V dokumentaci máme uveden výraz mnoho jen jako zájmennou číslovku (mnoho lidí apod.). Ve stč. ale funguje i jako příslovce (častoť jiej přibíjie mnoho), tady bych to anotoval jako běžné stupňovatelné příslovce, tj. vyplňoval POS=ADV a dále jen degree a polarity, šlo by? DZ: Asi šlo, to slovo jde napříč kategoriemi, stejně jako hodně a více. Tady je dotaz, který ukazuje současnou situaci v PDT. Už teď je tam mnoho dvakrát jako příslovce. Naopak hodně je vždy příslovce (i když někdy se stupněm a někdy bez, ale to je asi chyba), přestože někdy může taky fungovat jako neurčitá číslovka (hodně prodavaček); totéž více. Ovšem ve FicTree je to trochu jinak (dotaz zde).	Ano, podle kontextu řešit buď jako (zájmennou) číslovku (POS=DET), nebo jako příslovce (POS=ADV).
JP, 17. 4. 2024	obouvidovost	Platí, že u všech sloves, která mohou být potenciálně obouvidová, se vid neuvádí, i když je v daném kontextu jasný? Ve stč. jde např. o slovesa jako řéci, ráčiti apod. JZ: Já bych se nesnažila určovat vid podle kontextu, jasných případů je podle mě spíš menšina. Potenciálně obouvidová slovesa bych hodnotila jako obouvidová. Ale nemáme pro ně k dispozici nějakou lepší značku než prázdné okénko (které může signalizovat i to, že daná kategorie vůbec není relevantní? JP: V prázdném okénku bych až takový problém neviděl, protože to, pro jaké tvary je vid relevantní, je snad jasně dáno. Ale tak nebránil bych se tomu, jde o to, jak se to řeší jinde, resp. v nč. DZ: Platí, že vid se nerozlišuje podle kontextu, zachází se s ním jako s lexikálním rysem. U obouvidových se neuvádí (ano, technicky by bylo možné dodefinovat třeba hodnotu BiAsp, ale podle UD guidelines se to tak dělat nemá). ALE! Je třeba odlišit obouvidá slovesa od homonym (někde výše v tomhle seznamu problémů se probírá rozdíl mezi hodit se někomu a hodit něco někam). V případě homonym se podle kontextu rozliší nikoli vid jako takový, ale celý lexém; ten už pak dostane svůj lexikální vid.	U obouvidových sloves anotujeme vid tam, kde je z kontextu jasný. Pokud z kontextu jasný není, tak ho nevyplňujeme. (Na to, kdy je to jasné a kdy ne, ale můžou být různé názory.) Pokud nejde o obouvidové sloveso, ale o dvě homonymní slovesa lišící se videm (tj. při změně vidu se podstatně mění i význam), vid se normálně anotuje.
JP, 22. 4. 2024	viec ve funkci zájmenné číslovky	Anotovat komparativ? (Pokud lemmatizujeme jako hodně). Jinak předpokládám, že PronType=Ind, NumType=Card, plus se anotuje pád. (Naopak ve významu „nadále“ anotovat pozitiv, nedávat NumType ani PronType a lemmatizovat jako více?)	Pracujeme s celkem 3 typy viec: 1) viec-hodně-číslovka (POS=DET) a komparativ v tagu (přišlo víc lidí); 2) viec-hodně-adverbium a komparativ v tagu (tohle nás bavilo víc); 3) viec-více-adverbium a pozitiv v tagu (víc o tom nemluvil).
JP, 22. 4. 2024	pět v platnosti substantiva	V kontextu nebť tu pět k ňemu provrhu – přišlo by mi asi nejlepší to anotovat jako číslovku, ale na rozdíl od běžné číslovky pět je tu potřeba anotovat singulár, taky to evidentně vyjadřuje rod. Nebo to dát jako substantivum, tj. stejně jako ekvivalentní pětice?	V těchto případech řešíme jako běžné substantivum, nikoli číslovku (nemá NumType ani NumForm, jen pád, číslo, rod).
JP, 23. 4. 2024	nic v platnosti adverbia	Např. Ty neroď na to nic tbáti: brát jako POS=ADV?	Ano, v těchto případech ADV.
JP, 30. 4. 2024	Int, Rel	Předpokládám správně, že to u zájmenných slov máme zjednoznačňovat? Ovšem jaká jsou kritéria pro vzájemné rozlišování? Tohle bývá asi v různých mluvnicích různě. A ještě souvisejíí věc: v řadě kontextů taková slova fungují jako indefinita, pak předpokládám anotujeme Ind, i když tam taky nejsou moc jasné hranice..	Ano, Int a Rel rozlišujeme, přičemž za Int se to pokládá jen v přímých otázkách (v hlavní větě, s otazníkem), naopak v souvětích vždy Rel (např. i nevím/ptám se, kdo přišel. A ano, podle kontextu to může být i Ind (jde-li to nahradit výrazy typu někdo).
JP, 30. 4. 2024	Nesklonné jenž	Co s ním? Předpokládám, že bychom měli postupovat analogicky jako u nesklonného ješto, tj. pokud je jenž prokazatelně nesklonné, neuvádět pád, číslo ani rod.	Podle nové dohody se pád, číslo i rod anotují i u nesklonných vztažných zájmen (s výjimkou případů s resumptivním zájmenem, např. jenž ho, co ho apod., resumptivní zájmeno je podle mě zde: jáz vy vystřiehaji z toho, byste sě chovali toho, ješto mnozí to činíte), tj. sklonnost/nesklonnost nehraje roli. (Podobně se nově anotuje pád číslo rod i u posesivních zájmen typu jeho, jejich, jich apod.)
JZ, 3. 5. 2024	lzě, nelzě	POS=ADV? Dále uvádíme Polarity? (Intercorp má lze i nelze jako slovesa.)	Ano. Tj. jsou to adverbia a mají následující trojkombinaci: lzě-lze-adverbium afirmativ; nelzě-lze-adverbium negace. Tj. u obou se uvádí lemma „lze“ a u obou se značí Polarity.
JP, 9. 5. 2024	byť ve funkci spojky	Např. v kontextu byť věděl, žeť jmu žebrati. Navrhoval bych asi řešit podobně jako aby, tj. rozdělit to na dva tokeny: spojku (SCONJ) byť a kondicionálové by. Druhou možností by bylo se na spojku vykašlat a brát to jako kondicionálové by + částici ť. Ale v nč. se patrně byť bere jako spojka, takže s tím by bylo kompatibilnější to první řešení, jako spojku to bere i ESSČ. (Pokud by někde bylo spojení byť by (jako v nč.), pak by se byť bralo čistě jako spojka.	Platí druhé řešení, tj. dělíme to na by (AUX, lemma být) a ť (PART), se spojkovou interpretací se nepočítá (za spojku bychom pokládali celé byť pouze v případě, že by to bylo ve spojení byť by.
JP, 10. 5 2024	druhé ve fci „zadruhé“	POS=ADV, NumType=Ord ? A lemma „druhé“?	Ano, v dané funkci anotovat takto.
jz, 20. 5. 2024	přědeň	přědeň se automaticky rozkládá na přěd + něj; nebylo by lepší přěde + něj - aby se neztratila vokalizovanost předložky? JP: To by asi bylo lepší. Já mám teda v těchhle případech hlavně pocit, že by bylo nejlepší jako tu druhou část psát jen ň, ale to je myslím neprůchodné vzhledem ke konzistenci s nč. DZ: Ony tyhle rozklady nejsou koncipované tak, že se má zachovat povrchová forma těch částí – je to úmyslně navržené tak, aby povrchový token nemusel být prostým sřetězením forem částí. Formy částí jsou hypotetické, jak by se to asi řeklo, kdyby to nebylo stažené do jednoho tokenu – což je taky důvod, proč zmizela vokalizace. Ten původní nerozložený token je v datech zachován, což se v UD považuje za dostatečné, aby se neztratila informace. UD ovšem neumožňují přidávat k tomu původnímu tokenu anotace, což je někdy trochu problém. U syntaxe a u UPOS značek to dává smysl, u morfologie a potažmo fonologie už je to diskutabilnější, ale tak to je. MS: Kdybych si mohl vybírat, tak bych to chtěl mít zpracované, jak navrhuje Jirka:) Ale chápu všechny Danovy argumenty, takže to bude podle Dana!	Nově viz samostatný dokument Tokenizace a slovní segmentace.
jz, 20. 5. 2024	vždy - Polarity?	zápis z porady: „3) adjektiva a adverbia (odvozená od adjektiv): nevelký-velký-negace součástí tagu“: proč je „odvozená od adjektiv“ v závorce? Mám se tím důsledně řídit, nebo ne? U vždy se nabízí vyplnit Polarity=Pos (vzhledem k nevždy) - ale vyplňovat to nemám, protože to není deadjektivní? JP: To je otázka, no, na té předposlední schůzi se dohodlo, že by to šlo, ale ta poslední lecjaké dohody zrušila :) Já bych byl pro to dělat i s ohledem na to, že z té schůze vyplynulo to, že se Polarity značí třeba i u toho „viece“ nebo „lzě“, což taky není deadjektivní. DZ: Novočeský tagset má ne zcela malou množinu příslovcí, u kterých neuvádí polaritu a stupeň. To, že nejsou deadjektivní, je zřejmě rozumné přibližné vymezení té množiny, ale nejsem si 100% jist, že je přesné. Můžu případně vytáhnout z treebanků jejich seznam. Je mezi nimi i několik takových, která vypadají jako stupňovaná nebo negovaná, ale místo příslušných rysů je tam prostě lemma s ne(j)- na začátku: nejen, nejprve, nepříliš, netřeba, nefér, netoliko. V UD navíc máme u některých příslovcí rys PronType, který v původním úfalím tagsetu nebyl. Neprázdný PronType má malá podmnožina té množiny příslovcí bez polarity a stupně. Ty je snadnější vymezit a vždy je jedno z nich, takže bych ho nechal bez Polarity. MS: Matně si vzpomínám, že na schůzi ten důvod závorky u „odvozená od adjektiv“ tkvěl v tom, že některá ADV předpokládáme odvozená od sloves, ale když vidím i ty ostatní příklady u Dana, tak nejen od nich. V takových případech jsme patrně polaritu nechtěli. Má to logiku a opodstatnění. Ale když koukám na praxi u anotace 19. stol., tak zaznamenáváme polaritu všude, nevždy má polaritu N a vždy A, pod. nefér - fér. Ale máme v tom taky nedůslednosti: nejen má sice značenou polaritu, ale nedobře má A a lemma nejen. Buď bych všude značil polaritu, nebo, pokud by to byl zásah do UD a nelíbilo se Vám to, tak bych se řídil tím případně vytaženým sezmamem z treebanků, kde by se polarita neznačila. DZ: Důvod, proč se zde s polaritou nepočítalo, je možná i ten, že v nové češtině by se ne vždy psalo jako dvě slova. Takže další možnost je, když se někde objeví nevždy psané dohromady, zacházet s tím jako s víceslovným tokenem, viz problémy tokenizace.	Řešení: Všechna nezájmenná příslovce a ze zájmenných navíc ta, která mají `PronType=Tot` (tedy i vždy) budou mít vyplněn rys `Polarity`. Změní se to i v novočeských datech, takže to bude konzistentní.
jz, 21. 5. 2024	NumForm	návod: „Feature of cardinal and ordinal numbers.“ - vztahuje se jen na určité číslovky, nebo i na neurčité (u nichž by se asi všude vyplňovalo „Word“)? A máme to vůbec vyplňovat u řadových číslovek - když to není v tabulce v našem návodu („ADJ Řadová číslovka adjektivní („druhý“): NumType=Ord, Gender+Animacy, Number, Case“)? JP: Nevím, ale předpokládám, že ani u neurčitých, ani u řadových by se to teda dělat nemělo. Já myslím, že zrovna v tomhle se asi celkem můžeme opřít o to, co se tam generuje automaticky..	DZ: Pouze u určitých a v češtině pouze u základních (UPOS tag NUM, NumType=Card), tak se to dělá v novočeských datech.
jz, 21. 5. 2024	jedni - druzí	podlé cěst sě všudy zřiedie, jedni lehú, druzí sedie: jedni UPOS=NUM, NumType=Card, NumForm=Word, druzí UPOS=ADJ, NumType=Ord? Na (spíše pronominální) funkci nehledíme? Nebo lze vyplnit něco jako PronType=Dem? JP: Já bych to viděl takto, PronType bych nedělal. DZ: Já bych PronType taky nedělal, druzí bych anotoval jako normální řadovou číslovku (tj. UPOS=ADJ, NumType=Ord). Jedni jsou složitější. Koukal jsem se do PDT v UD, takhle v plurálu to tam není anotováno jako základní číslovka. Je to rovněž ADJ a NumType=Mult,Sets, což mi přijde zvláštní, já bych dal jenom NumType=Sets, ale tohle je asi důsledek nedokonalé konverze z úfalího tagsetu (značka CdMP1———-). Lemma zde není jeden a dokonce ani jedni (což bych dal já), ale jedny. Tohle by asi zasloužilo nějakou revizi, ale případná změna se stejně bude muset provést skriptem i v novočeských datech, takže v tuhle chvíli bych to asi ve staročeských datech anotoval stejně.	Na funkci nehledíme, PronType nevyplňujeme.
jz, 21. 5. 2024	PrepCase	by za mirtvým otcem v stáňú nešly [děti] podlé jeho [otce] za ňú [matkou]: Tady se zdá, že je forma j- po předložce podlé. Roli snad může hrát, že jde o sekundární předložku vzniklou nejspíš ze substantiva (srov. StčS s. v. podlé). Značit jako Pre (je to po předložce), nebo jako Npr (je to forma, která se typicky používá jindy než po předložce)? Nebo se tady snad jeho dá interpretovat jako posesivum a tím pádem se problému zbavit? (Mně se taková interpretace nezdá.) JP: Já bych to spíš dělal podlé té formy, tj. Npr, protože právě kvůli té formě se to anotuje (u zájmen, která to formálně nerozlišují, se ten rys neuvádí vůbec).	DZ: Podle formy, tj. PrepCase=Npr. To, že tam ve skutečnosti předložka byla, lze zjistit z kontextu (zejména až jednou bude i syntaktická anotace) a pak právě bude možné si vyhledat zajímavé případy, kde tvar byl Npr, ale přesto se vyskytl po předložce.
JP, 23. 5. 2024	výraz páně	Jak anotujeme? V Intercorpu je to jako substantivum, ale to mi nepřijde náležité. Navrhoval bych dávat lemma „páně“ (dle nč.) a rysy anotovat jako u jiných poses. adj., tj. POS=ADJ, Poss=Yes, Gender[psor]=Masc, Gender+Animacy, Number, Case. DZ: A jak by vypadalo adjektivní skloňování? V PDT je páně NOUN, lemma pán, Number=Sing, Case=Gen (5 výskytů). MS: Tohle je zas ten rozpor formy a funkce: navrhoval bych lemma „páně“ a rysy podle poses. adj. Mělo by to kompletní paradigma, jen by to mělo ve všech pádech týž tvar (jako jiná nesklonná adj, např. nč. „nóbl“ „extra“ JP: Ono je to původně adjektivum v krátkém (tj. jmenném) tvaru (slovotvorně něco jako v nové češtině třeba adj. havraní od přísl. substantiva, jenomže to už má dnes jenom tvary „dlouhé“). Pokud se to shodovalo se substantivem v nom. sg. m., původně ten tvar byl páň. </fc> MS: Dohodneme se tedy na ustrnulém lemmatu „páně“ a adjektivním (posesivním) skloňování - stejný tvar pro všechny pády a čísla i rody.	lemma „páně“, Pos=ADJ, Gender+Animacy, Number, Case (v těchto kategoriích shoda s řídícím jménem), Poss=Yes, Gender[psor]=Masc.
jz, 23. 5. 2024	nikdy - Polarity?	Navrhuju dát lemma nikdy a polaritu nevyplňovat, údaj o negativním významu už je stejně obsažen v PronType=Neg. JP: Ano, tak i v Intercorpu.	Ano, PronType=Neg už se nekombinuje s Polarity=Neg.
jz, 23. 5. 2024	mnoho - Degree? Polarity?	Navrhuju Degree=Pos, Polarity=Pos. JP: Takhle to dělám v případě, že jde o adverbium (viz výše). V kontextech, kde jde o číslovku, se držím instrukcí v tabulce a anotuju jen Case, PronType a NumType. DZ: mnoho viz též 17.4.2024 nahoře.	Jako příslovce má Degree=Pos, Polarity=Pos (a žádný PronType). Jako číslovka má UPOS=DET, NumType=Card, PronType=Ind, žádné Degree ani Polarity, zato má vyplněný Case.
JP, 24. 5. 2024	nikakež	Může být rozhodně záporné adverbium („nijak“). Ale co když je to samostatná výpověď? Např. Nikakež, ale krále ustav nad námi. StčS to hodnotí jako částici, ale v zásadě je to podobné jako samostatné „ne“ v odpovědi na otázku, což má být INTJ. Takže bych dával takto. (A lemmatizuju jako „nikakž“.) DZ: Na to nemám jasný názor. Pokud funguje jako záporná odpověď na otázku, INTJ by mělo být v pořádku. Ale umím si představit, že bychom ho nechali všude jako záporné ADV. MS: V odpovědi na otázku bysme to v 19. stol. hodnotili jako částici, ale taky nemám problém, když to bude všude záporné ADV
JP, 24. 5. 2024	NameType	V případech jako země/krajiny Benjamin dávám u Benjamin „Geo“, u pokolenie Benjamin dávám „Sur“, ale moc nadšený z toho nejsem :D	Takhle je to OK. Rys NameType má okrajový význam, v PDT zůstal, aby se neztrácela informace, ale spíš než do sloupce FEATS by patřil do samostatné anotace entit. Zatím ale zůstává tady a UDPipe ho predikuje, tak jsem tam ten sloupeček kvůli konzistenci nechal.
JP, 29. 5. 2024	tak	Musí to být vždy ADV, nebo podle kontextu i CCONJ? Např. zde: A nynie král chodí před vámi, ale já sem se sstaral a ošedivěl, jistě synové moji s vámi jsú, a tak* obcovav před vámi od mladosti mé až do dne tohoto, aj hotov sem. Případně by někde šlo i jako PART? DZ: Určitě nemusí, v PDT je 2337 výskytů jako ADV a 404 výskytů jako CCONJ. PART bych se raději vyhnul, v PDT se to sice jednou taky vyskytlo, ale podle mě by to klidně mohlo být CCONJ (je to na začátku věty, v podobné pozici se nám běžně vyskytují i spojky A a Ale, 32 dalších podobných výskytů Tak* je značkováno jako CCONJ).	Může být ADV i CCONJ.
JP, 3. 6. 2024	aniž	Dávám jako souřadicí spojku. V nč. ale podřadicí. DZ: K tomu se neumím vyjádřit, já ji znám jako podřadicí MS: V 19. století při desambiguaci bohužel jak podřadící, tak souřadící:)
jz, 12. 7. 2024	jak, jakžto, jako v přirovnávací funkci	Ten pro zběstvo, pro chudobu sěm hi tamo točě sobú jakžto* trest, jam vieter pochýlí, tam taký člověk sě schýlí.* UPOS=SCONJ? ADV? Pokud ADV, vyplňujeme PronType? Pokud ano, jak? JP: To bych viděl dost jasně jako spojku (SCONJ), i když vidím, že ESSČ to má zřejmě jako adverbium, ale moc nerozumím proč.	DZ: SCONJ stejně jako jakožto, které v novočeských datech máme.
AM, 18. 7. 2024	bliz	Není bliz komparativ? Lemmatizovat jako blízko? V ESSČ informace, že „nelze vždy odlišit komp. adv. bliz (bliž) od komp. adv. blízko (blíž/e/)“… JP: Moc tomu nerozumím, ale dle slovníků by komparativ musel být se „ž“, ne? Tedy bliž. Jiná věc je kontext, v AlxH 23 by ten komparativ docela seděl. Nicméně pokud je to z kontextu jasně pozitiv (AlxH 19), lemmatizoval bych asi jako bliz. DZ: Taky tomu nerozumím, ale to, co říká Jirka, mi zní rozumně MS: Souhlasím s Vámi oběma:)
jz, 7. 8. 2024	prvé ve významu ,dříve, předtím‘	anotovat NumType=Ord, nebo ne? (spíše bych to nedělala, jen bych označila UPOS=ADV - a nic dalšího). DZ: Já v tom slyším novočeské prve, které má dva výskyty v PDT, je značeno jako ADV bez jakýchkoli dalších rysů.	Ano, pouze UPOS=ADV.
JP, 9. 9. 2024	AdpType u skrzě, skrz, skrze	Jestli tomu dobře rozumím, v nové češtině se podoba skrze pokládá za vokalizovanou variantu slova skrz, tj. lemma je skrz a AdpType je Voc. Historicky to tak ovšem nevzniklo, což se ve staré češtině odráží v tom, že ta „delší“ varianta má původně podobu skrzě, nikoli skrze, což neodpovídá standardnímu způsobu vokalizace předložek. Jak tyto případy řešit? Brát to jako vokalizovanou variantu, i když to místo -e končí na -ě, abychom byli aspoň trochu konzistentní s novou češtinou? DZ: S ohledem na podobnost s novočeským skrze se přikláním k AdpType=Voc. MS: Souhlasím s AdpType=Voc, tak je to uvedeno i v tabulce na Wiki.	Rozhodnuto: `AdpType=Voc`.
AM, 10. 9. 2024	Zkrácený auxiliár jest	V případě zkrácené podoby auxiliáru „jest“ (např. „(…) a mú bolest pohlédajte, kde j’ jiej rovna, znamenajte (…)“ jsem dávala tag Variant=Short. Je v pořádku to takto značit? Nebo jestli vůbec podobné případy značit? JP: Podobným případem je taky zkrácené že > ž’, to máme v etalonu dvakrát v AlxH. DZ: Já bych to nijak neznačil. Přijde mi, že vzhledem k množství dubletních tvarů u některých slov stejně nemůžeme držet zlaté pravidlo morfologie. A navíc validační skripty očekávají Variant=Short pouze v případech, kde už se používalo dřív, a někde podle něj dokonce rozhodují, jaké další rysy jsou přípustné nebo vyžadované. Když ho začneme používat jinde, tak se to rozbije. MS: Souhlasím s Danovým řešením.	Rozhodnuto: Nijak neznačit. `Variant=Short` obecně dávat pouze slovům, která už ho dostávají v novočeských datech.
AM, 10. 9. 2024	NameType u Kristus	Dohodli jsme se, jak anotovat „Kristus“? Nakonec jsem dávala NameType=Sur, ale přijde mi, že by klidně šlo i NameType=Giv…	Ano, NameType=Sur.
AM, 10. 9. 2024	UPOS u amen	U „amen“ dávám UPOS=INTJ podle staročeských slovníků, je to tak ok?	Ano, INTJ, v novočeských datech je to také tak (1 výskyt).
JP, 21. 10. 2024	kdokoli ve vztažné větě: Ind, nebo Rel?	Zájmena typu kdokoli se běžně vyskytují ve vztažných větách, např. ktožkoli má k bohu čest, ten je hřiechem jako svázán. Anotujeme zde Prontype Ind, nebo Rel? Předpokládám, že spíš Ind. A doplňující dotaz: Co v případě, že je to koli samostatným slovem? Např. Kto by koli nevyšel a nešel za Saulem a Samuelem, tak se stane volóm jeho. Tady k tomu kto dát taky Ind, nebo Rel?	DZ: Ano, `PronType=Ind` bez ohledu na kontext. Pokud je to ale roztrženo na dvě slova, kdo a koli, to první slovo už zase dostane jen `PronType=Rel` (protože neurčité zájmeno z toho vznikne až po přidání toho koli).
JP, 21. 10. 2024	zájmeno čí: posesivita?	U tohoto zájmena by se dost nabízelo vyplňovat Poss=Yes, ale tuším, že se to patrně nedělá. Nestálo by to za to?	DZ: Stálo a dělá se to, ale při sestavování tabulky rysů jsem na to zapomněl (už opraveno).
AM, 22. 10. 2024	UPOS u sto, tisíc	Jak anotovat číslovky sto a tisíc, pokud jsou v jiném tvaru než v základní podobě? S JP jsme řešili, že by možná šlo dávat UPOS=NUM u základních podob a UPOS=NOUN, když je to jiný tvar, podobně je to i v intercorpu. Anebo to řešit nějak jinak jednotně? :) JP: Ještě je ale potřeba vyřešit, jak tam anotovat (a jaké) rysy. Dosavadní instrukce u základních číslovek od tři výš je, že se má anotovat Number=Plur. U sto a tisíc se ale nabízí číslo rozlišovat podle kontextu, např. „sto“ vs. „stě“ vs. „sta“, podobně tisíc. A taky se nabízí anotovat rod (sto jako neutrum, tisíc jako neživotné maskulinum). Máme to dělat? Obecně by bylo dobré pro ty číslovky trochu zexplicitnit tu dokumentaci.	DZ: Sto je UPOS=NUM ve všech tvarech (set, sta, stě, stech, sto, stu, stům, sty). Tisíc jsem ve starších verzích PDT určitě viděl někdy jako NUM, někdy jako NOUN a pravidla se zdála nejasná; nicméně se zdá, že v současné verzi už je to taky konzistentně NUM ve všech tvarech. Totéž milión a miliarda. (V Intercorpu to asi může být ještě postaru, protože současný model UDPipe je natrénovaný ještě na staré verzi PDT.) JP: Rod se neanotuje.
DZ, 23. 10. 2024	Supinum	České UD (a potažmo validační skripty) zatím nedovolují značit supinum pomocí `VerbForm=Sup` (příklad: Nalezeny sú oslice, jíchžtos byl šel hledat.) To se dá zařídit a zdokumentovat na stránkách UD. Ale je tu otázka: Umíme říct, odkdy už to není supinum a je to infinitiv? JP: Ve staré češtině je ještě supinum běžné. Ustupuje až ve střední češtině, ale ještě v 16. století asi taky není nijak výjimečné, spíš asi až v 17. a 18. století. Jiná věc je, že ne vždy jde spolehlivě poznat z formy. Původně to bylo odlišné od infinitivu (ten končil na -ti, supinum na -t), ale když se začal používat i infinitiv zakončený na -t (to se dělo už ve staré češtině), tak to u některých sloves může vypadat stejně (ale ne u všech, infinitiv a supinum se mohou lišit i kvantitou nebo kvalitou vokálů). MS: Vzhledem k tomu, že je to formálně přetěžko podchytitelná morf. kategorie a víceméně homonymní s infinitivem a už v době staročeské ustupující jakožto systémová, tak bych se vzdal ambice ji v UD značkování vůbec značit. Vyhnem se tak množství neadekvátních interpretací. JP: To mi zas přijde trochu škoda. DZ: Pro mě je samozřejmě nejjednodušší, když se budeme tvářit, že supinum neexistuje (jak navrhuje Martin), ale netrvám na tom. Jen bych v tom druhém případě potřeboval znát kritéria, podle kterých to rozhodujeme, a potřeboval bych je uvést i v dokumentaci na stránkách UD, nejen tady.	Supinum povoleno. Prozatím s dovětkem, že ho rozlišujeme ve staročeském období. Kritérium je, že tvar formálně odpovídá supinu (tj. především končí na -t/-c) a zároveň se vyskytuje ve struktuře se slovesem pohybu (to může být případně i implicitní).
JP, 29. 10. 2024	tě interpretovatelné jako ť + je	V některých kontextech se nabízí výraz tě interpretovat jako spojené ť + je. Např. v RadaOtcR máme jakž tě má viera k tobě a čest tě tak svědomá. Na takovou interpretaci ukazují i variantní rukopisy, např. RadaOtcK má jakž jest má viera k tobě. Budeme s tím takto pracovat? V tom případě je tedy třeba to považovat za multiword token, rozdělit to na ť (PART) a je (AUX, lemma být). Alternativou je to neřešit a brát to prostě jako částici tě s tím, že je tam elidovaná spona (tak to ve své anotaci řešila JZ). Je to spíš asi lingvistická otázka, jak tohle interpretovat, a tomu, jak na ni odpovíme, je třeba přizpůsobit anotační pravidla.. MS: Přikláním se k řešení s elidovanou sponou (částice tě). Zacházel bych s tím totožně jako s oním toť ve větě typu: Totě/Toť Jan Křtitel DZ: Souhlas.	Rozhodnuto: Neřešit to.
JP, 11. 12. 2024	potom: zájmenné příslovce?	Slovo potom by se nabízelo brát jako zájmenné příslovce (PronType=Dem), ale zdá se, že UDPipe to tak nebere a není to tak ani v InterCorpu. Máme ho tedy brát jako normální příslovce a vyplňovat jen Degree a Polarity? DZ: Ano, udělal bych to stejně jako v novočeských datech (i když souhlasím, že zájmenné příslovce by dávalo smysl, ale nechci narušovat konzistenci).	Bereme to jako standardní (nezájmenné) příslovce.
JP, 11. 12. 2024	také	V nč. je to předpokládám vždy ADV s rysy Degree=Pos a Polarity=Pos. Jak s tím máme nakládat ve staré češtině? Od původu je to zájmenné příslovce, ve slovníku je uveden jak význam odpovídající novočeskému (též, rovněž), tak význam právě tak, stejně, který by odpovídal té funkci zájmenného příslovce. Máme se snažit to nějak rozlišovat? DZ: V nč. je to vždy ADV a nemá žádné rysy. Vím, že jsme řekli, že Degree a Polarity teď bude skoro všude, a nevím, jestli je to tady porušeno, protože jsme to řekli až po vydání UD 2.15, nebo protože jsem to zapomněl do novočeských dat promítnout, popř. ta implementace má nějakou chybu. Ale k té otázce: Nerozlišoval bych to.	Nerozlišujeme, vždy se anotuje pouze Degree a Polarity (tj. nikdy se to neinterpretuje jako zájmenné).
JP, 11. 12. 2024	dřieve	Jak anotovat? Brát to paušálně jako komparativ od brzy, nebo se snažit to nějak rozlišovat podle kontextu a někde to dávat jako pozitiv od lemmatu dříve? DZ: Určitě bych to nerozlišoval podle kontextu. Pravděpodobně jsem na nějaké schůzi souhlasil, ne-li dokonce navrhoval lemma brzy. Teď jsem ovšem zjistil, že v novočeských UD to máme nekonzistentní napříč treebanky. V PDT je lemma dříve (ale je to stále značeno jako komparativ; pozitiv neexistuje, ale existuje superlativ nejdříve). Zato ve FicTree, který pochází z ÚČNK/ÚTKL, je lemma brzy.	Vždy lemma brzy, Degree=Cmp, Polarity=Pos.
JP, 29. 10. 2024	UPOS u již	PART, nebo ADV? Nebo se to nějak snažit rozlišovat podle kontextu?? MS: u anotace v 19. stol. lišíme podle kontextu PART a ADV, ale jsou to věčné boje, jak to kdo interpretuje. Přesto bych zkusil interpretovat. Máme pravidlo, že když je ve větě přítomen jiný časový výraz ještě krom „již“, třeba „dávno“ ap. (např.: již dávno jsem to věděl), tak je „již“ PART, pokud je „již“ jediným časovým výrazem ve větě, je to pak ADV. Můžeme se takhle dohodnout? JZ: Martinův návrh je podle mě v rozporu s pokyny na hlavní stránce wiki: „Slova vyjadřující postoj autora ke sdělení věty (např. bohužel) jsou anotována jako příslovce (POS=ADV). … pro každý jazyk bude v dokumentaci vyjmenováno, která slova dostávají POS=PART a proč“. Podle těchto pokynů jsem dosud anotovala jako ADV i výrazy, které bych normálně měla za částici, mezi nimi i „již“ ve všech kontextech. Nedává mi smysl rozlišovat ADV/PART u „již“ podle kontextu, pokud „bohužel“ je ADV. Pokud bychom ADV/PART u „již“ rozlišovat chtěli, je podle mě potřeba přehodnotit koncepci částic. (P. S.: Nemám samozřejmě nic proti rozlišování samotnému, to je smysluplné - ale vadí mi ta nekonzistence.) DZ: Podle pravidel UD by mělo být všude ADV, bohužel je to ale zatím nekonzistentní i v novočeských UD. Je to jedno z mnoha míst, kde se pravidla UD střetávají s tradičním českým pojetím, v tomto případě s pojetím částice jako slovního druhu. Anotace PDT před konverzí taky odlišuje částice od příslovcí a konverze se s tím v současné verzi neumí dobře vypořádat. Moje představa do budoucna je, že PART u slov, která mohou být i ADV, vymýtím, ale ten rozdíl, jak ho viděli anotátoři PDT, zachovám v syntaktické anotaci (místo závislosti `advmod` tam bude podtyp `advmod:part`). Tady ale syntaktickou anotaci zatím neděláme.	Vždy UPOS=ADV, anotujeme Degree, Polarity.
JP, 28. 11. 2024	kritická chyba v edici	Vzhledem k tomu, že když něco v edici považujeme za chybu editora, nemůžeme ji opravovat (do textu edice nezasahujeme), snažíme se v těchto případech text anotovat v souladu s tím chybným zněním edice. Někdy je ale ta chyba taková, že ten text s ní ani při nejlepší vůli nemůže dávat smysl. Např. v edici HradMar je toto: skrzě uši již svě lejě, vcházejě v dóm srdce jejie, ovšem svě lejě je chyba, evidentně má jít o komparativ adverbia světlejie. Co v takovém případě? Navrhoval bych postupovat tak, jako by šlo o poškozená slova, tj. anotovat u nich jen lemma shodné s formou a UPOS=X a dál neřešit, nic jiného podle mě nedává moc smysl. DZ: Nevím. To je další místo, kde máme problém, že neděláme syntaktickou anotaci, protože v UD stromech se takto roztržená slova spojují pomocí pseudo-závislostního vztahu `goeswith`. Jenže pak se u toho prvního kusu anotuje plnohodnotné LEMMA, UPOS a FEATS toho celku.	Pokud text lze nějak interpretovat tak, jak je transkribovaný, snažíme se ho anotovat v souladu s transkripcí. Pokud transkripce vůbec nedává smysl, dáváme k nesmyslným slovům UPOS=X, lemma shodné s tvarem a nic dalšího neanotujeme.
JP, 22. 11. 2024	ovšem ve funkci příslovce	UPOS=ADV, PronType=Tot? Např. Hlavu dosti velikú jměl, a tváří ovšem bieše biel. DZ: Já bych myslel ADV bez PronTypu, ovšem v PDT je ovšem… PART. Bez výjimky.	Vždy UPOS=ADV, vyplňujeme Degree, Polarity. (Nebereme to tedy jako zájmenné příslovce.) Nikdy to nepovažujeme za spojku ani partikuli.
JP, 11. 11. 2024	co ve významu „proč“	Např. vecechu města k césaři: Co se zde meškáme, proč nechvátame. Jak anotovat? Nabízelo by se ADV, ale vidím, že v Intercorpu bývá asi PART, což udělal i UDPipe. DZ: co může být řada věcí – kromě zájmena i ADV, SCONJ a PART. SCONJ jsem podrobněji nezkoumal, ale prvních pár výskytů jsou spojení poté co. ADV jsou v drtivé většině spojení typu co nej…(později), pak je tam vícero příkladů typu měsíc co měsíc, co chvíli, stůj co stůj; častější je co do činění, no a nakonec jsem jednou viděl také není se co divit, což je asi nejblíže významu proč, ale je otázka, jestli to byl záměr, nebo omyl. Těch PART je celkově velmi málo (desetkrát míň než ADV), většina z nich ve spojení co když, co kdyby, pak je tam taky co takhle, a co více, a také jedno co se divíte? Ani tady by mi nevadilo prostě těm PART dát do budoucna ADV.	Pokud je to ve funkci „proč“, anotujeme stejně, tj. UPOS=ADV a vyplňujeme PronType (Int nebo Rel).
JP, 18. 12. 2024	jenž(to) ve funkci přívlastku	Jak takové případy anotovat? Např. byl vévodú i starostú nad velikým svatým sborem, jenž sbor slovieše Thebeorum. Odpovídá to funkčně např. výrazu kterýžto. Nabízelo by se to brát jako UPOS=DET, šlo by to? A jinak anotovat Gender+Animacy, Number, Case, PronType, PrepCase. Znamenalo by to mj. pracovat s kategorií PrepCase i u kategorie DET, dosud to asi bývá jen u PRON. DZ: Ono by možná stačilo nechat tohle rozlišení funkce na syntaktickou anotaci. V UD lze použít závislost „det“, když závislý uzel má UPOS DET nebo PRON. JP: OK, tak to můžeme nechat na syntax a v morfologii to brát jako PRON.	Anotovat jako PRON bez ohledu na funkci.
JZ, 2. 1. 2025	interpunkce v lat. textu	Mercator, non respondit Rubinus: (MastMuz), Rubíne, vo pystu? (MastMuz) – jaký POS má mít interpunkce v cizojazyčném textu? PUNCT? JP: Asi bych to tak dělal, ale je to spíš otázka na Dana.	DZ: Interpunkce je vždycky PUNCT.
JP, 10. 1. 2025	výraz čtvrt	Jak ho anotovat? Příklad zde: Dřieve ve třech dnech na vojnu vstaniechu, tehdy přěd čtvrtí* léta na vojnu zapovědiechu.* Předpokládám, že bychom to měli brát jako základní číslovku, tj. anotovat NUM, Card, Word. A jelikož se to pravidelně skloňuje, nabízí se anotovat též pád, číslo, rod. DZ: Ano. Ten pád se (mnohdy, ne vždy) anotuje i v novočeských datech, přestože tam to skloňování spíš vymizelo, říká se před čtvrt stoletím, nikoli před čtvrtí století.	NUM NumType=Card NumForm=Word Gender=Fem Number Case
JP, 20. 1. 2025	výraz obojí	Jak anotovat? Vzhledem k analogiím k číslovkám typu dvojí a k číslovce oba se mi jeví logicky anotovat UPOS=ADJ, NumType=Mult, Gender+Animacy, Number, Case, PronType=Tot.	DZ: Ano, přesně tak.
JP, 18. 12. 2024	adverbiální ješto	Co když ješto funguje jako vztažné příslovce, můžeme ho tak anotovat (UPOS=ADV, PronType=Rel)? Např. poslasta po všěch vlastech, tu ješto křestěné bydléchu, listy takét. A v tom případě je ještě otázka, jaké dávat lemma. Navrhoval bych ježto, analogicky podle toho, když je to spojka. DZ: Nevím, jestli té větě správně rozumím (musel jsem si ji přečíst několikrát). Vztažná věta je „ješto křestěné bydléchu“? A rozvíjí ukazovací příslovce „tu“? Takže to znamená něco jako poslali takové listy po všech vlastech, tam, kde bydleli křesťané? V tom případě bych asi značku ADV použil. Je to zdánlivě v rozporu s tím, co jsem napsal o (ne)rozlišování PRON a DET u jenž, ale v tomto případě nám budoucí syntaktická anotace nepomůže, protože spojky se v UD od vztažných slov (zájmen nebo příslovcí) striktně odlišují. JP: Ano, takhle té větě rozumím, ješto tu funguje podobně, jako by fungovalo kdy. Tak to tedy podle toho budeme anotovat.	V případě, kdy ješto funguje jako vztažné zájmené příslovce, anotujeme POS=ADV, PronType=Rel. Lemma je ježto(!).
JZ, 2. 1. 2025	lemma výrazů UPOS = X	V návodu máme napsáno: Lemma je identické se slovním tvarem (možná akorát převedené na malá písmena?) Převádíme teda na malá písmena, nebo ne? Mají mít propria, která jsou součástí cizojazyčného textu, lemma s malým písmenem, nebo s velkým? JP: U proprií jsem dával velké, jinak malé. DZ: Já napsal možná, protože v UD na to jednotné pravidlo není a svým názorem jsem si nebyl jistý. Převedení na malá písmena je motivováno hlavně tím, že nechceme v lemmatu zachovávat velké písmeno, které je důsledkem nějakých okolností vně toho slova (zejména začátek věty). Vlastní jména obecně mají mít lemma s velkým písmenem na začátku, protože to je kanonická pravopisná forma jejich nominativu. Jenže pokud jsme schopni/ochotni říct, že jde o vlastní jméno, nabízí se otázka, proč jsme mu dali značku X a ne PROPN. Uvnitř normální české věty bychom s vlastním jménem určitě zacházeli jako s českým slovem, i kdyby bylo cizího (hebrejského, latinského atd.) původu a neneslo známky české morfologie. Uvnitř vložené cizojazyčné fráze naopak asi dává smysl předpokládat, že vlastní jméno je také cizí (vůči češtině; ono to může být hebrejské jméno uvnitř latinské fráze, dokonce by to mohlo být i české jméno uvnitř latinské fráze). Nicméně mi ale připadá jako přijatelné a rozumně aplikovatelné pravidlo, že pokud jsme schopni v cizojazyčném textu rozpoznat, že slovo začínající velkým písmenem je vlastní jméno, pak mu velké písmeno na začátku zachováme i v lemmatu. JP: Souhlasím.	Propria v cizojazyčném textu mají mít lemma s velkým počátečním písmenem. Apelativa převádíme na malá písmena.
jz, 31. 1. 2025	obklíčený	Nevzbojím sě tisúcóv lidí obklíčených mne. (ŽaltWittb) Departicipiální adj s „pasivní“ formou má aktivní význam - anotujeme Act, nebo Pass? Srov. StčS s. v. obkľúčený. DZ: Asi bych se držel formy a doufal, že takové případy nebudou příliš časté. Každopádně existují precedenty pro to, že featura, používaná pro označení určité formy, vystihuje její přibližný a/nebo častý význam, ale používá se i v případech, kde tento význam neplatí. JP: Taky bych se držel formy.	Držíme se formy, bereme to jako běžný případ ajektiva od pasivního participia.
JP, 20. 12. 2024	nepředložkové kromě	Jak zacházet s kromě, které má podobnou funkci jako předložkové kromě, ale následuje za ním věta uvozená podřadicí spojkou? Např. kto by byl na to hlédal, kromě ač by kamenné srdce jměl, musil by zaplakati. Buď se nabízí vycházet z ESSČ a brát to jako ADV, nebo to brát jako SCONJ. To první je asi rozumnější, ale to druhé se mi líbí víc :) Ještě v téhle souvislosti upozorňuju, že v novočeských korpusech se to bere víceméně paušálně jako předložka, a to i v případech, kdy za tím následuje předložková fráze (např. kromě za účelem), což mi přijde docela problematické (s tímhle přístupem bychom mohli i ty výše uvedené stč. případy chápat jako ADP). DZ: Příslovce bych nedával. Nechat všude ADP by mi nevadilo, na syntaktické úrovni jde i tak odlišit závislost typu `case` (předložka pod substantivem) od `mark` (pod vedlejší větou). V PDT se to párkrát objevuje u konstrukce místo aby…. Nicméně pokud se dohodneme, že v takových případech chceme SCONJ, tak mi to nevadí.	Anotujeme, jako by i v těchto kontextech šlo o předložku, tj. UPOS=ADP.
JP, 27. 2. 2025	krátký tvar adjektivní násobné číslovky	Mám kontext: pošli nadeň sedmer* duch tvój. Zdá se mi nejvhodnější interpretovat výraz sedmer* jako číslovku typu dvojí v krátkém tvaru (protože ve stejném kontextu by patrně mohlo být i „sedmerý“). V tom případě by to podle návodu mělo mít POS=ADJ, NumType=Mult, Gender+Animacy, Number, Case. Ale přišlo by mi vhodné anotovat i Variant=Short, aby se to odlišilo od toho „sedmerý“. Šlo by to takto? Nebo jinak? Případně to brát jako jiný typ číslovky (druhová)? DZ: Jo, to by asi šlo. Možná bude potřeba upravit validační skripty, které budou řvát kvůli kombinaci Variant=Short s číslovkou, ale to budem řešit, až na to narazíme.	UPOS=ADJ, Gender+Animacy, Number, Case, NumType=Mult, Variant=Short.
AM, 27. 2. 2025	Všaký podle jmenné deklinace	Ve ŠtíKlem se několikrát objevuje krátký tvar „všaký“ podle jmenné deklinace, např. Protož že na však* den řiekáme ji, znamenajme z nie asa něco. Přidávám tedy Variant=Short, jako by to bylo u anotace adjektiv, ačkoli anotuju UPOS=DET. JP:* Je to asi podobný případ jako to „sedmer“ výše. DZ: Podobný případ to sice je, ale ten rozdíl ve slovním druhu je podstatný. Sedmer má UPOS=ADJ, tam neočekávám nijak závažné komplikace, ale u PRON a DET prosím žádné nové případy Variant=Short nepřidávat.	Nedávat Variant=Short.
AM, 07. 04. 2025	Symbol # v edici	Ve ZrcSpasK se někde v textu objevuje symbol # na místě, kde je v rukopisné předloze obrázek či jiný grafický prvek (např. Prvá radost matky božie: zvěstovánie#), zjevně se jednalo o záměrné editorské rozhodnutí to označovat. Automaticky se tam vygeneruje UPOS=NUM, Lemma=&camount, NumType=Card, NumForm=Digit. Zatím nechávám tuto anotaci, ale nebylo by lepší to řešit stejně jako chyby v edici, tj. pokud transkripce nedává smysl? DZ: Odhaduju, že ta číslovková anotace se tam objevuje proto, že v UD_Czech-CAC (na kterém se UDPipe taky trénoval) chybí číselné výrazy a jsou nahrazovány právě symbolem #. Tady je určitě tahle anotace špatně. Vzhledem k tomu, že jde o mimojazykový obsah, tak bych tomu symbolu dával značku PUNCT.	Anotujeme, jako by šlo o interpunkci, tj. UPOS=PUNCT.
JP, 9. 1. 2025	jména typu Čechy, Sasy apod.	Předpokládám, že lemma má být plurálové. A jaký anotujeme rod? Pro starou češtinu je asi namístě Gender=Masc, Animacy=Inan. DZ: Plurálové lemma Čechy má k sobě Gender=Fem. Asi bych to zachoval i ve staré češtině, pokud se neobjeví tvar, který je jasně mužský. A pak by tedy byla otázka, zda nemá být spíš životný, protože tipuju, že z označení národnosti je to odvozené, ne? JP: Od národností to sice je, ale právě to měnilo ten rod z životného na neživotný (proto je NOM ty Čechy, podobně jako ty hrady). Dnes se to bere jako ženský rod, ale jen kvůli těm koncovkám (např. Čechám), podle jiného kritéria to ani nejde, protože ve skutečnosti v plurálu v češtině rozdíl mezi mužským neživotným a ženským rodem neexistuje. A tvar Čechám je běžný už ve stč., přesto to ale z nějakého důvodu slovníky berou jako maskulinum, a to dokonce až do 20. stol.: PSJČ to má ještě jako maskulinum, SSJČ už jako femininum. Takže je možnost brát to už ve stč. jako feminina, čímž by odpadl problém stanovení hranice, odkdy to feminina jsou. Na druhou stranu je problém, že různá jména se v tomto i v současné češtině chovají různě, např. Sasy a Rakousy patrně nemají v LOC koncovku -ách, takže se asi i v nč. interpretují jako maskulina. Takže bychom to pro různá jména tohoto typu museli řešit zvlášť, což mi zní docela šíleně, jednodušší by bylo brát je paušálně jako neživotná maskulina. Tak nevím. DZ: Nečekal jsem to, ale v PDT je jeden výskyt v Rakousích. Má lemma „Rakousy“ a je to Gender=Masc, Animacy=Inan. Ovšem hned si říkám, co by se stalo, kdyby tam bylo do Rakous. To zas vypadá jako femininum, u maskulina bych očekával koncovku -ů. JP: A v tomhle je mimochodem rozdíl mezi starou a novou češtinou, protože ve stč. mohla být v genitivu plurálu ta nulová koncovka ještě i u maskulin (to je původní stav). Co jsem se teď tak díval, zdá se, že ve stč. je důsledně v Čechách, ale stejně důsledně v Uhřiech (jako dnešní lesích). A zajímavé je, že PSJČ, který u Čech uvádí -ách a bere to jako maskulinum, bere Uhry naopak jako femininum, přestože tam uvádí nejen -ách, ale zastarale i -ích, to asi není moc konzistentní přístup. DZ: Je v tom binec a nevidím z něj takovou cestu ven, která by byla na všechny strany správně. Takže je mi to skoro jedno. Asi to ve staročeštině klidně může být vždy neživotné maskulinum. JP: Souhlasím, řešme to tedy ve stč. (i střdč.) jako neživotné maskulinum.	U tohoto typu geografických jmen anotujeme mužský neživotný rod. (Lemma mají plurálové.) Jinak se řeší jména národností (Čech, Sas), ta mají lemma singulárové a rod mužský životný.
AM, 27. 2. 2025	točíš ve významu totiž	Nejsem si jistá, jestli se to zde již neřešilo, ale jak zacházet s „točíš“ ve významu „totiž“ (např. ŠtítKlem: A zlý starý had diábel pustil jed závisti své v jich ruku, točíš jich účinek zlých lidí závistí leptal)? Momentálně anotuji jako UPOS=ADV a vyplňuji Polarity a Degree, lemmatizuji jako „točíš“. JP: Podle mě není důvod to lemmatizovat jinak než jako „totiž“, jsou to snad jen hláskové změny, takže bych použil pravidlo, že u slov dochovaných do současné češtiny se použije současněčeská podoba. Jiná věc je ta morfologie, to bude asi hlavně otázka na Dana. Taky jsem to někde měl a díval se do Intercorpu, kde je to většinou jako PART, méně často jako CCONJ, asi se tam dá vysledovat nějaký funkční rozdíl, ale hledat přesnou hranici asi není reálné, dával jsem to jako PART (bez dalších rysů). JZ: Dávám jako CCONJ - v dokladech, které jsem měla (a podobně i v dokladu, který zde uvádí AM), se mi zdá důležitý vztah ekvivalence mezi spojovanými částmi věty/souvětí DZ: V PDT výrazně vede CCONJ (775 výskytů, vs. PART 106 výskytů). A nevadilo by mi, kdyby to bylo všude CCONJ.	Ve všech variantách lemmatizujeme jako totiž a vždy interpretujeme jako CCONJ.
JP, 23. 5. 2025	Řadová číslovka zapsaná římskými číslicemi	Mám doklad: léta Páně, anno Domini XXXIIho. Poslední výraz zde vzhledem k zapsané koncovce jednoznačně označuje řadovou číslovku („dvaatřicátého“). V dokumentaci se předpokládá, že římskými číslicemi mohou být psány jenom základní číslovky, což ale této situaci neodpovídá. Jak s tím naložit? Nevidím lepší možnost než to anotovat jako řadovou číslovku, tj. Pos=ADJ, Gender, Number, Case, NumType=Ord, a dále NumForm=Roman, lemma „XXXII“. Nebo by byl lepší jiný postup?	Ano, řadová číslovka.
JP, 26. 2. 2025	čas u výrazu budoucí	Předpokládám, že s výrazem budoucí se zachází jako s dlouhým tvarem činného příčestí, tj. anotuje se POS=ADJ, VerbForm=Part, Voice=Act, Aspect, Tense, Gender+Animacy, Number, Case, Polarity. Jaký ale má být čas? Může být Fut? To by mi přišlo logické, když je to od slovesa být, od něhož by příslušné příčestí v prézentu bylo „jsoucí“. Nebo se má forma na -cí brát paušálně jako prézens? DZ: Přišlo by mi to taky logické, ale v novočeských datech tohle adjektivum vůbec nemá anotovaný `VerbForm`, natož `Tense`, `Aspect` nebo `Voice`. V rámci konzistence bychom to tedy měli dělat stejně. JP: Aha, no to mi ale přijde jako docela hodně nešťastné řešení, protože tohle je přece tvořené naprosto paradigmaticky, formálně je to úplně stejné jako např. adjektivum vedoucí, odpovídá to snad i funkčně, až tedy na ten čas, což je ale prostě specifikum toho slovesa být jako takového… DZ: OK, chtěl jsem si ušetřit práci, nevyšlo to Nechme tu tedy tenhle řádek otevřený, abych nezapomněl, že je potřeba upravit moje skripty na konverzi PDT do UD, aby to do toho PDT přidala. Momentálně je budoucí asi nejpodivnější případ, další -cí bez VerbForm=Part jsou sestupně podle četnosti domácí, sdělovací, stávající, žádoucí, vzdělávací, jednací, vyrovnávací… Dotaz zde. JP: Takže jestli to chápu dobře, můžeme to tedy anotovat jako participiální adjektivum. A tedy Tense=Fut? DZ: Ano.	`VerbForm=Part Voice=Act Tense=Fut Aspect=Imp`
JP, 6. 1. 2025	spojování vět v kombinaci s multiword tokenem	Mám v tabulce větu, která začíná multiword tokenem („pročs“), ten už je od UDPipu správně rozdělen. Tuto větu chci spojit s předchozí větou. Do kterého řádku mám vyplnit hodnotu „spojit“: k tomu „pročs“, nebo až k tomu „proč“? DZ: Tak tahle otázka mě zaskočila, protože na to jsem při navrhování mechanismu nepomyslel. Koukal jsem se teď do skriptů a myslím si, že lepší bude dát to až k tomu „proč“, tam vidím větší šanci, že to skripty zpracují správně JP: OK, dal jsem to tam, tak uvidíme :) (Mám to dvakrát v textu PasMuzA. edit: Už jsem na to narazil i v několika dalších edicích.) DZ: Zafungovalo to.	Hodnotu „spojit“ vložit až k tomu „proč“.
JP, 18. 2. 2025	zkratka cizího slova (etc.)	Jak zacházet s výrazem etc.? Bral bych to jako cizí slovo v našem pojetí, zároveň je to zkratka. Nabízí se tedy nechat lemma „etc“, dát POS=X a Foreign=Yes (jako u cizích slov), zároveň vyplnit i Abbr=Yes. Ale bylo by to v rozporu s instrukcí, že u cizích slov se žádné jiné rysy než Foreign=Yes nevyplňují. Jak to tedy řešit? DZ: Pokud s tím zacházíme jako s cizím slovem, tak není důvod anotovat zkratku. (Resp. ten důvod není o nic větší, než by byl důvod anotovat rod, číslo a pád u latinského substantiva.) Akorát je otázka, zda to nemohlo být dočasně v češtině zdomácnělé, než to vytlačila česká zkratka atd.? Např. v anglických UD se to za zdomácnělé považuje, protože se to tam používá dodneška, přestože je to z latiny. JP: Mně přijde, že by se to klidně dalo považovat za zdomácnělé i v současné češtině. Ale v té staré nevím, třeba slovník staré češtiny (ESSČ) to neuvádí, takže to asi za zdomácnělé úplně nepovažuje. Každopádně by v tom případě vyvstala otázka, jak to anotovat. Takže je potřeba buď stanovit, že to budeme brát jako běžné cizí slovo a Abbr nevyplňovat, nebo si říct, že je to zdomácnělé, a pak stanovit, jak to anotovat. DZ: Mně by taky nevadilo považovat to za zdomácnělé i v nové češtině, ale když jsem hledal výskyty v UD treebancích, tak jsem akorát zjistil, že existuje nějaká kapela, co se jmenuje ETC, to je vše. Pokud to budeme anotovat jako zdomácnělé, pak mi přijde nejpřirozenější dělat to stejně jako atd., což znamená UPOS=ADV, Abbr=Yes. JP: No a asi ještě Degree a Polarity, když tu děláme u všech adverbií kromě zájmenných a číslovkových, ne? A lemma „etc“? DZ: Lemma „etc“ asi ano. O tom Degree a Polarity nejsem přesvědčen (protože jiným zkratkám taky často chybí rysy, které se u nezkráceného slova vyskytují), ale klidně ho tam teď anotujme, ono to stejně bude vždycky Degree=Pos a Polarity=Pos. Nevím z hlavy, jestli to kontrolní skript bude vyžadovat nebo naopak zakazovat, ale pokud na to narazíme, tak mi to určitě připomeneš a já to nějak vyřeším.	Značit jako ADV.
JP, 19. 7. 2025	rod u číslovek typu Sets	Vím, že v pravidlech máme napsáno, že u číslovek typu jedny, dvoje, troje, čtvery, oboje se nemá anotovat rod a životnost. (Pokud to tam anotujeme, skript nám to hlásí jako chybu.) Ale nevím, jestli je to dobré řešení, protože ve starší češtině se ten rod rozlišoval, máme např. dvoji vs. dvoje, oboji vs. oboje apod. Navíc opozice jedni vs. jedny existuje i v současné češtině, nejen v té starší. Neměli bychom tedy ten rod anotovat? (Lemma máme podle současných pokynů dávat jako „jedny“, „dvoje“ apod., k tomu viz i zde níže.)	U NumType=Sets anotovat Gender (+Animacy v případě Gender=Masc).
jz, 3. 9. 2025	prvnější	poněvadž skrze potomnější skutek zdvižen bývá prvnější: u slova prvnější patrně anotovat degree=cmp - a v tom případě anotovat i numtype=ord, nebo ne? JP: To je asi dotaz hlavně na Dana, ale skoro bych předpokládal, že v tomto případě bude potřeba rezignovat na tu číslovkovost a dát Degree=Cmp, Polarity=Pos, zatímco NumType nedávat. JZ: Nebo povolit kombinaci Degree=Cmp a NumType=Ord?	Anotujeme jako řadovou číslovku a navíc rys Degree=Cmp. Podobně najprvnější je řadová číslovka a Degree=Sup. (Kombinace Degree a NumType=Ord byla povolena.)

Historie: • problemy_morfologie

Obsah

Problémy anotace morfologie (POS, features)

Zatím nedořešené problémy

Vyřešené problémy

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence