JP, 5. 3. 2024 | všechen | Bere se všechen jako zájmeno, nebo jako zájmenná číslovka? Tj. vyplňuje se u něj NumType? (Předpokládám, že POS je každopádně DET.) | Ano, POS je DET. NumType se nevyplňuje. Zde jsou vidět současné anotace ve FicTree. |
JP, 5. 3. 2024 | segmentace | Jsou nějak daná pravidla segmentace na věty? Jak postupovat při přímé řeči, máme-li uvozovací větu, pak dvojtečku a pak přímou řeč? Zatím se mi zdá, že to UDPipe nerozděluje, ale intuitivně bych to spíš dělil. | Sepsaná ta pravidla asi nejsou, resp. nevím o tom. Nicméně uvozovací věta, dvojtečka a první věta přímé řeči se podle mě přinejmenším v českých treebancích zpracovávají jako jedno souvětí. Pokud má přímá řeč více než jednu větu, ocitnou se koncové uvozovky v jiné větě než ty počáteční. JP: OK, držím se toho. |
DZ, 5. 3. 2024 | kondicionál | Kondicionál | Vyřešeno na samostatné stránce. DZ: Uvedené rozhodnutí se kvůli konzistenci promítne i do stávajících českých treebanků v UD. Změna na GitHubu provedena 2.9.2024, projeví se ve vydání 2.15 v listopadu. Dosud mělo _by_ v některých případech uvedenu 3. osobu, v jiných žádnou, nyní zůstane osoba u tohoto tvaru vždy neuvedena. |
JP, 7. 3. 2024 | tudiež | Ve významu „tam“ bych to považoval za zájmenné příslovce, tj. POS=ADV a PronType=Dem, šlo by to? Např. ve větě Ač vstúp̕u na nebe, ty tam jsi, ač sstúp̕u do pekla, tudiež jsi. (Ps 138,8) | DZ: Souhlasím. V PDT se vyskytuje pouze jako CCONJ, ale taky nepředpokládám, že by kdekoliv mělo význam tam. |
JZ, 7. 3. 2024 | kajúcích, milým | Jde o substantivizovaná adjektiva. Přesto POS=ADJ? | JP: Ano, substantiva s adjektivní formou anotujeme zpravidla jako adjektiva, tj. POS=ADJ. Výjimkou jsou pouze substantiva, která už v souč. češtině vůbec jako adjektiva nefungují, např. průvodčí. |
JP, 8. 3. 2024 | ijeden | Jak toto anotovat? Navrhuju takto: POS=DET, Gender+Animacy, Number, Case, PronType=Neg. Šlo by? | DZ: Šlo by. Pokud tedy z kontextu správně odhaduju, že to znamená žádný – pak by to logicky mělo mít obdobnou anotaci. |
JP, 8. 3. 2024 | li ve funkci spojky | Jak anotovat POS? Na webu UD se uvádí PART, tak to udělal i UDPipe, ale píše se tam, že do budoucna možná SCONJ. A v Intercorpu v13 UD je to zřejmě jako SCONJ. To mi dává větší smysl. JZ: Souhlasím, že spojkové užití bude asi většinou SCONJ. Nicméně v ModlKunhA (v. 140) jsem narazila na užití li, ktere mi připadalo adekvátní označit jako CCONJ. JP: Ve funkci tázací částice bych ale dával PART, podobně tak i třeba u zdali. DZ: Přiznám se, že nejsem příliš velký fanoušek kontextového škatulkování jednoho funkčního slova do několika různých POS kategorií, takže bych úplně nezavrhoval možnost mít pro li vždy stejnou značku (a s ohledem na tu tázací funkci je pak otázka, jestli by to nemělo být PART). V UD se ovšem argumentuje tím, že není potřeba důsledně duplikovat informaci, kterou stejně uvidíme v syntaktické anotaci (podřadicí spojky jsou zavěšené jako mark, souřadicí jako cc, tázací částice nemají úplně jasná pravidla, ale nejspíš prostě advmod). Data z Hičkoku zatím syntaktickou anotaci mít nebudou, takže by tam tohle rozlišení chybělo. Ale pokud rozhodneme, že takové rozlišení je otázkou syntaxe, tak je to možná v pořádku. | Rozhodnuto: Rozlišovat SCONJ, CCONJ, PART (to poslední jen u otázky v hlavní větě). |
JZ, 8. 3. 2024 | všemohúcí, vševidúcí | složená slova obsahující verbální adj. - vyplňovat VerbForm, Tense, Aspect, Voice? DZ: Nemám nijak vyhraněný názor, ale mírně se kloním k nevyplňování, pokud se nejdřív změnilo VERB na ADJ a až ten výsledek vstoupil do složeného slova. Jelikož (myslím) neexistují slovesa „všemoci“ a „vševidět“, tak už bych zde slovesné rysy nevyplňoval. | Rozhodnuto: Neznačit slovesné rysy. |
JZ, 11. 3. 2024 | jeden, nejeden | vyplňovat Polarity? (jeden – nejeden) DZ: V PDT Polarity vyplněna není, možná proto, že číslovky obecně negovat nejde. Stejně tak není polarita anotována u nejednou, které v UD má POS=ADV (a příslovce by negované být mohlo), ale v PDT to původně byla číslovka. Nemám jasno, zda to chceme měnit. Pokud ano, tak by se to muselo změnit i v novočeských treebancích. | Rozhodnuto: „nejeden“ je lemma, Polarity neznačit. Značka je DET (ne NUM). Asi budeme chtít ve výsledku PronType=Ind, ale ručně neanotovat, to půjde doplnit skriptem. |
JP, 13. 3. 2024 | víceznačnosti | Je třeba vyřešit, jak obecně postupovat při víceznačnostech. V některých případech není z kontextu jasné, o jaký jde pád (např. Acc vs. Gen, Nom vs. Voc), někdy není jasný rod nebo i číslo, případně další kategorie nebo i slovní druh, není to zdaleka výjimečný jev. Tak jestli to prostě řešit tak, že vybereme interpretaci, která nám v tu chvíli bude připadat nejpravděpodobnější, nebo to budeme řešit systematičtěji. Ta pravděpodobnost se přitom může leckdy lišit, např. mé ledvie (Acc) je možné chápat jako fem. pl. i neut. sg., ale vzhledem k tomu, že to neutrum je průkazně doložené až v 15. stol, to lze v ŽaltU spíš brát jako fem. pl. apod. Řada struktur je syntakticky nejasných. DZ: Tohle by si asi zasloužilo svou vlastní stránku. U pádů bych to viděl na nějakou hierarchii výchozích hodnot, u rodů to asi povede na samostatné instrukce pro každé slovo. | U tvaru, u něhož nelze jednoznačně určit např. rod nebo pád > 1) rozhodneme podle kontextu anotovaného textu (dané slovo se tam vyskytuje v jasně identifikovatelném tvaru v nějakém rodu, který v textu převažuje – vybereme ho i pro nejasný tvar); 2) pokud nepomůže kontext anotovaného textu, řídíme se obecným názorem v gramatikách a slovnících. |
JZ, 15. 3. 2024 | hoditi - vid | hoditi má významy, v nichž se chová jako dok., a významy, v nichž se chová jako nedok. Přiřadit jeden vid v souladu s významem, nebo označit jako biaspektuální? | DZ: V tomto případě se rozlišuje vid podle významu: hodit se je Aspect=Imp, hodit něco někam je Aspect=Perf. V UD-PDT to vychází na 4:6 výskytů. Jsou to dva různé lexémy, které v původním PDT mají lemmata hodit-1 (dokonavé) a hodit-2 (nedokonavé), ale v UD se tahle skutečnost poněkud ztrácí, protože tam musí být lemma pouze „hodit“, takže původní „hodit-1“ a „hodit-2“ bylo odsunuto do sloupce MISC jako atribut LId (a my v Hičkoku nic takového neanotujeme). Je možné, že v podobné situaci budou i další slovesa. |
JP, 25. 3. 2024 | stupňování u participiálních adjektiv | Nabízí se otázka, jestli neanotovat „degree“ i u participiálních adjektiv. I v současné češtině se dají stupňovat, např. dodělanější apod. DZ: Já jsem pro. | Ano, u trpných participiálních adjektiv typu dodělaný anotujeme degree. |
JP, 26. 3. 2024 | lexikalizovaný zápor | Je asi třeba stanovit nějak hranice toho, kde zápor řešit v rámci „Polarity“ (tj. polarity=neg a lemma bez prefixu ne-), a kde naopak ne (tj. polarity=pos a lemma negované). Předpokládám, že slova typu nepřítel jsou druhý případ? I když ve stč. to může být někdy trochu jiné než v nč., např. neskonánie může mít význam „nedokonalost“, tj. není to opak skonání, dále např. ke slovesu nenáviděti existuje i náviděti (i když slovník je uvádí zvlášť), dále neroditi, nečest apod. DZ: Pro inspiraci tady je dotaz, který ukazuje „kladná slova na ne-“ v PDT. | Řešíme (tvar-lemma-tag) takto: 1) substantiva: nepřítel-nepřítel-v tagu se nic neznačí; 2) slovesa: nekoupí-koupit-negace součástí tagu; 3) adjektiva a adverbia (odvozená od adjektiv): nevelký-velký-negace součástí tagu (stejně jako u sloves). Tedy: u substantiv se kategorií Polarity vůbec nepracuje, u sloves, adjektiv a deadjektivních adverbií ano, přičemž lemma je bez záporky. DZ: Výše uvedené rozhodnutí z porady 16.5.2024 se kvůli konzistenci promítne i do stávajících českých treebanků v UD. Změna na GitHubu provedena 1.9.2024, projeví se ve vydání 2.15 v listopadu. Dosud spíše nekonzistentní označování negativních substantiv tedy z českých UD úplně zmizí. |
JP, 16. 4. 2024 | číslo: hodnoty Coll, Ptan | Máme při anotaci čísla používat také tyto dvě hodnoty? Případně kde / v jaké míře? Zdá se mi, že třeba v korpusu Intercorp v13UD vůbec nejsou, taky v těch předanotovaných datech jsem na ně nenarazil. DZ: UD sice má tyto hodnoty k dispozici, ale v žádných českých datech je anotované nemáme (mohli bychom, ale prostě se to neanotovalo). S ohledem na konzistenci napříč češtinou bych se jim spíš asi vyhnul. | Tyto hodnoty nepoužíváme. Používáme pouze Sing, Dual a Plur. |
JP, 17. 4. 2024 | zájmeno an | Jak ho klasifikovat? V tabulce v základní dokumentaci momentálně máme, že jako Rel(ativum), tak se toho držím, ale nevím, jestli je to ve všech kontextech adekvátní, např. v kontextu když ho žena jme tresktati, nedadúc jmu v kostky jhráti, an sě rozhněvajě z toho, častoť jiej přibíjie mnoho. Nabízelo by se to brát taky jako ukazovací, případně osobní (?), v závislosti na kontextu. Ale nevím, jak moc spolehlivé by to rozlišování podle kontextu mohlo být, možná je s ohledem na konzistentnost lepší to brát všude jako Rel? JZ: V navazovací funkci by se dalo uvažovat o rozdělení do dvou řádků - a + on, tj. CCONJ + PRON Prs. JP: Tyjo, ještě toho trochu :D | Pokud je to zájmeno, vždy PronType=Rel. Kromě zájmena to ale taky může být SCONJ (ekvivalent když nebo protože). |
JP, 17. 4. 2024 | mnoho ve fci příslovce | V dokumentaci máme uveden výraz mnoho jen jako zájmennou číslovku (mnoho lidí apod.). Ve stč. ale funguje i jako příslovce (častoť jiej přibíjie mnoho), tady bych to anotoval jako běžné stupňovatelné příslovce, tj. vyplňoval POS=ADV a dále jen degree a polarity, šlo by? DZ: Asi šlo, to slovo jde napříč kategoriemi, stejně jako hodně a více. Tady je dotaz, který ukazuje současnou situaci v PDT. Už teď je tam mnoho dvakrát jako příslovce. Naopak hodně je vždy příslovce (i když někdy se stupněm a někdy bez, ale to je asi chyba), přestože někdy může taky fungovat jako neurčitá číslovka (hodně prodavaček); totéž více. Ovšem ve FicTree je to trochu jinak (dotaz zde). | Ano, podle kontextu řešit buď jako (zájmennou) číslovku (POS=DET), nebo jako příslovce (POS=ADV). |
JP, 17. 4. 2024 | obouvidovost | Platí, že u všech sloves, která mohou být potenciálně obouvidová, se vid neuvádí, i když je v daném kontextu jasný? Ve stč. jde např. o slovesa jako řéci, ráčiti apod. JZ: Já bych se nesnažila určovat vid podle kontextu, jasných případů je podle mě spíš menšina. Potenciálně obouvidová slovesa bych hodnotila jako obouvidová. Ale nemáme pro ně k dispozici nějakou lepší značku než prázdné okénko (které může signalizovat i to, že daná kategorie vůbec není relevantní? JP: V prázdném okénku bych až takový problém neviděl, protože to, pro jaké tvary je vid relevantní, je snad jasně dáno. Ale tak nebránil bych se tomu, jde o to, jak se to řeší jinde, resp. v nč. DZ: Platí, že vid se nerozlišuje podle kontextu, zachází se s ním jako s lexikálním rysem. U obouvidových se neuvádí (ano, technicky by bylo možné dodefinovat třeba hodnotu BiAsp, ale podle UD guidelines se to tak dělat nemá). ALE! Je třeba odlišit obouvidá slovesa od homonym (někde výše v tomhle seznamu problémů se probírá rozdíl mezi hodit se někomu a hodit něco někam). V případě homonym se podle kontextu rozliší nikoli vid jako takový, ale celý lexém; ten už pak dostane svůj lexikální vid. | U obouvidových sloves anotujeme vid tam, kde je z kontextu jasný. Pokud z kontextu jasný není, tak ho nevyplňujeme. (Na to, kdy je to jasné a kdy ne, ale můžou být různé názory.) Pokud nejde o obouvidové sloveso, ale o dvě homonymní slovesa lišící se videm (tj. při změně vidu se podstatně mění i význam), vid se normálně anotuje. |
JP, 22. 4. 2024 | viec ve funkci zájmenné číslovky | Anotovat komparativ? (Pokud lemmatizujeme jako hodně). Jinak předpokládám, že PronType=Ind, NumType=Card, plus se anotuje pád. (Naopak ve významu „nadále“ anotovat pozitiv, nedávat NumType ani PronType a lemmatizovat jako více?) | Pracujeme s celkem 3 typy viec: 1) viec-hodně-číslovka (POS=DET) a komparativ v tagu (přišlo víc lidí); 2) viec-hodně-adverbium a komparativ v tagu (tohle nás bavilo víc); 3) viec-více-adverbium a pozitiv v tagu (víc o tom nemluvil). |
JP, 22. 4. 2024 | pět v platnosti substantiva | V kontextu nebť tu pět k ňemu provrhu – přišlo by mi asi nejlepší to anotovat jako číslovku, ale na rozdíl od běžné číslovky pět je tu potřeba anotovat singulár, taky to evidentně vyjadřuje rod. Nebo to dát jako substantivum, tj. stejně jako ekvivalentní pětice? | V těchto případech řešíme jako běžné substantivum, nikoli číslovku (nemá NumType ani NumForm, jen pád, číslo, rod). |
JP, 23. 4. 2024 | nic v platnosti adverbia | Např. Ty neroď na to nic tbáti: brát jako POS=ADV? | Ano, v těchto případech ADV. |
JP, 30. 4. 2024 | Int, Rel | Předpokládám správně, že to u zájmenných slov máme zjednoznačňovat? Ovšem jaká jsou kritéria pro vzájemné rozlišování? Tohle bývá asi v různých mluvnicích různě. A ještě souvisejíí věc: v řadě kontextů taková slova fungují jako indefinita, pak předpokládám anotujeme Ind, i když tam taky nejsou moc jasné hranice.. | Ano, Int a Rel rozlišujeme, přičemž za Int se to pokládá jen v přímých otázkách (v hlavní větě, s otazníkem), naopak v souvětích vždy Rel (např. i nevím/ptám se, kdo přišel. A ano, podle kontextu to může být i Ind (jde-li to nahradit výrazy typu někdo). |
JP, 30. 4. 2024 | Nesklonné jenž | Co s ním? Předpokládám, že bychom měli postupovat analogicky jako u nesklonného ješto, tj. pokud je jenž prokazatelně nesklonné, neuvádět pád, číslo ani rod. | Podle nové dohody se pád, číslo i rod anotují i u nesklonných vztažných zájmen (s výjimkou případů s resumptivním zájmenem, např. jenž ho, co ho apod., resumptivní zájmeno je podle mě zde: jáz vy vystřiehaji z toho, byste sě chovali toho, ješto mnozí to činíte), tj. sklonnost/nesklonnost nehraje roli. (Podobně se nově anotuje pád číslo rod i u posesivních zájmen typu jeho, jejich, jich apod.) |
JZ, 3. 5. 2024 | lzě, nelzě | POS=ADV? Dále uvádíme Polarity? (Intercorp má lze i nelze jako slovesa.) | Ano. Tj. jsou to adverbia a mají následující trojkombinaci: lzě-lze-adverbium afirmativ; nelzě-lze-adverbium negace. Tj. u obou se uvádí lemma „lze“ a u obou se značí Polarity. |
JP, 9. 5. 2024 | byť ve funkci spojky | Např. v kontextu byť věděl, žeť jmu žebrati. Navrhoval bych asi řešit podobně jako aby, tj. rozdělit to na dva tokeny: spojku (SCONJ) byť a kondicionálové by. Druhou možností by bylo se na spojku vykašlat a brát to jako kondicionálové by + částici ť. Ale v nč. se patrně byť bere jako spojka, takže s tím by bylo kompatibilnější to první řešení, jako spojku to bere i ESSČ. (Pokud by někde bylo spojení byť by (jako v nč.), pak by se byť bralo čistě jako spojka. | Platí druhé řešení, tj. dělíme to na by (AUX, lemma být) a ť (PART), se spojkovou interpretací se nepočítá (za spojku bychom pokládali celé byť pouze v případě, že by to bylo ve spojení byť by. |
JP, 10. 5 2024 | druhé ve fci „zadruhé“ | POS=ADV, NumType=Ord ? A lemma „druhé“? | Ano, v dané funkci anotovat takto. |
jz, 20. 5. 2024 | přědeň | přědeň se automaticky rozkládá na přěd + něj; nebylo by lepší přěde + něj - aby se neztratila vokalizovanost předložky? JP: To by asi bylo lepší. Já mám teda v těchhle případech hlavně pocit, že by bylo nejlepší jako tu druhou část psát jen ň, ale to je myslím neprůchodné vzhledem ke konzistenci s nč. DZ: Ony tyhle rozklady nejsou koncipované tak, že se má zachovat povrchová forma těch částí – je to úmyslně navržené tak, aby povrchový token nemusel být prostým sřetězením forem částí. Formy částí jsou hypotetické, jak by se to asi řeklo, kdyby to nebylo stažené do jednoho tokenu – což je taky důvod, proč zmizela vokalizace. Ten původní nerozložený token je v datech zachován, což se v UD považuje za dostatečné, aby se neztratila informace. UD ovšem neumožňují přidávat k tomu původnímu tokenu anotace, což je někdy trochu problém. U syntaxe a u UPOS značek to dává smysl, u morfologie a potažmo fonologie už je to diskutabilnější, ale tak to je. MS: Kdybych si mohl vybírat, tak bych to chtěl mít zpracované, jak navrhuje Jirka:) Ale chápu všechny Danovy argumenty, takže to bude podle Dana! | Nově viz samostatný dokument Tokenizace a slovní segmentace. |
jz, 20. 5. 2024 | vždy - Polarity? | zápis z porady: „3) adjektiva a adverbia (odvozená od adjektiv): nevelký-velký-negace součástí tagu“: proč je „odvozená od adjektiv“ v závorce? Mám se tím důsledně řídit, nebo ne? U vždy se nabízí vyplnit Polarity=Pos (vzhledem k nevždy) - ale vyplňovat to nemám, protože to není deadjektivní? JP: To je otázka, no, na té předposlední schůzi se dohodlo, že by to šlo, ale ta poslední lecjaké dohody zrušila :) Já bych byl pro to dělat i s ohledem na to, že z té schůze vyplynulo to, že se Polarity značí třeba i u toho „viece“ nebo „lzě“, což taky není deadjektivní. DZ: Novočeský tagset má ne zcela malou množinu příslovcí, u kterých neuvádí polaritu a stupeň. To, že nejsou deadjektivní, je zřejmě rozumné přibližné vymezení té množiny, ale nejsem si 100% jist, že je přesné. Můžu případně vytáhnout z treebanků jejich seznam. Je mezi nimi i několik takových, která vypadají jako stupňovaná nebo negovaná, ale místo příslušných rysů je tam prostě lemma s ne(j)- na začátku: nejen, nejprve, nepříliš, netřeba, nefér, netoliko. V UD navíc máme u některých příslovcí rys PronType, který v původním úfalím tagsetu nebyl. Neprázdný PronType má malá podmnožina té množiny příslovcí bez polarity a stupně. Ty je snadnější vymezit a vždy je jedno z nich, takže bych ho nechal bez Polarity. MS: Matně si vzpomínám, že na schůzi ten důvod závorky u „odvozená od adjektiv“ tkvěl v tom, že některá ADV předpokládáme odvozená od sloves, ale když vidím i ty ostatní příklady u Dana, tak nejen od nich. V takových případech jsme patrně polaritu nechtěli. Má to logiku a opodstatnění. Ale když koukám na praxi u anotace 19. stol., tak zaznamenáváme polaritu všude, nevždy má polaritu N a vždy A, pod. nefér - fér. Ale máme v tom taky nedůslednosti: nejen má sice značenou polaritu, ale nedobře má A a lemma nejen. Buď bych všude značil polaritu, nebo, pokud by to byl zásah do UD a nelíbilo se Vám to, tak bych se řídil tím případně vytaženým sezmamem z treebanků, kde by se polarita neznačila. DZ: Důvod, proč se zde s polaritou nepočítalo, je možná i ten, že v nové češtině by se ne vždy psalo jako dvě slova. Takže další možnost je, když se někde objeví nevždy psané dohromady, zacházet s tím jako s víceslovným tokenem, viz problémy tokenizace. | Řešení: Všechna nezájmenná příslovce a ze zájmenných navíc ta, která mají PronType=Tot (tedy i vždy) budou mít vyplněn rys Polarity . Změní se to i v novočeských datech, takže to bude konzistentní. |
jz, 21. 5. 2024 | NumForm | návod: „Feature of cardinal and ordinal numbers.“ - vztahuje se jen na určité číslovky, nebo i na neurčité (u nichž by se asi všude vyplňovalo „Word“)? A máme to vůbec vyplňovat u řadových číslovek - když to není v tabulce v našem návodu („ADJ Řadová číslovka adjektivní („druhý“): NumType=Ord, Gender+Animacy, Number, Case“)? JP: Nevím, ale předpokládám, že ani u neurčitých, ani u řadových by se to teda dělat nemělo. Já myslím, že zrovna v tomhle se asi celkem můžeme opřít o to, co se tam generuje automaticky.. | DZ: Pouze u určitých a v češtině pouze u základních (UPOS tag NUM, NumType=Card), tak se to dělá v novočeských datech. |
jz, 21. 5. 2024 | jedni - druzí | podlé cěst sě všudy zřiedie, jedni lehú, druzí sedie: jedni UPOS=NUM, NumType=Card, NumForm=Word, druzí UPOS=ADJ, NumType=Ord? Na (spíše pronominální) funkci nehledíme? Nebo lze vyplnit něco jako PronType=Dem? JP: Já bych to viděl takto, PronType bych nedělal. DZ: Já bych PronType taky nedělal, druzí bych anotoval jako normální řadovou číslovku (tj. UPOS=ADJ, NumType=Ord). Jedni jsou složitější. Koukal jsem se do PDT v UD, takhle v plurálu to tam není anotováno jako základní číslovka. Je to rovněž ADJ a NumType=Mult,Sets, což mi přijde zvláštní, já bych dal jenom NumType=Sets, ale tohle je asi důsledek nedokonalé konverze z úfalího tagsetu (značka CdMP1———-). Lemma zde není jeden a dokonce ani jedni (což bych dal já), ale jedny. Tohle by asi zasloužilo nějakou revizi, ale případná změna se stejně bude muset provést skriptem i v novočeských datech, takže v tuhle chvíli bych to asi ve staročeských datech anotoval stejně. | Na funkci nehledíme, PronType nevyplňujeme. |
jz, 21. 5. 2024 | PrepCase | by za mirtvým otcem v stáňú nešly [děti] podlé jeho [otce] za ňú [matkou]: Tady se zdá, že je forma j- po předložce podlé. Roli snad může hrát, že jde o sekundární předložku vzniklou nejspíš ze substantiva (srov. StčS s. v. podlé). Značit jako Pre (je to po předložce), nebo jako Npr (je to forma, která se typicky používá jindy než po předložce)? Nebo se tady snad jeho dá interpretovat jako posesivum a tím pádem se problému zbavit? (Mně se taková interpretace nezdá.) JP: Já bych to spíš dělal podlé té formy, tj. Npr, protože právě kvůli té formě se to anotuje (u zájmen, která to formálně nerozlišují, se ten rys neuvádí vůbec). | DZ: Podle formy, tj. PrepCase=Npr. To, že tam ve skutečnosti předložka byla, lze zjistit z kontextu (zejména až jednou bude i syntaktická anotace) a pak právě bude možné si vyhledat zajímavé případy, kde tvar byl Npr, ale přesto se vyskytl po předložce. |
JP, 23. 5. 2024 | výraz páně | Jak anotujeme? V Intercorpu je to jako substantivum, ale to mi nepřijde náležité. Navrhoval bych dávat lemma „páně“ (dle nč.) a rysy anotovat jako u jiných poses. adj., tj. POS=ADJ, Poss=Yes, Gender[psor]=Masc, Gender+Animacy, Number, Case. DZ: A jak by vypadalo adjektivní skloňování? V PDT je páně NOUN, lemma pán, Number=Sing, Case=Gen (5 výskytů). MS: Tohle je zas ten rozpor formy a funkce: navrhoval bych lemma „páně“ a rysy podle poses. adj. Mělo by to kompletní paradigma, jen by to mělo ve všech pádech týž tvar (jako jiná nesklonná adj, např. nč. „nóbl“ „extra“ JP: Ono je to původně adjektivum v krátkém (tj. jmenném) tvaru (slovotvorně něco jako v nové češtině třeba adj. havraní od přísl. substantiva, jenomže to už má dnes jenom tvary „dlouhé“). Pokud se to shodovalo se substantivem v nom. sg. m., původně ten tvar byl páň. </fc> MS: Dohodneme se tedy na ustrnulém lemmatu „páně“ a adjektivním (posesivním) skloňování - stejný tvar pro všechny pády a čísla i rody. | |
jz, 23. 5. 2024 | nikdy - Polarity? | Navrhuju dát lemma nikdy a polaritu nevyplňovat, údaj o negativním významu už je stejně obsažen v PronType=Neg. JP: Ano, tak i v Intercorpu. | Ano, PronType=Neg už se nekombinuje s Polarity=Neg. |
jz, 23. 5. 2024 | mnoho - Degree? Polarity? | Navrhuju Degree=Pos, Polarity=Pos. JP: Takhle to dělám v případě, že jde o adverbium (viz výše). V kontextech, kde jde o číslovku, se držím instrukcí v tabulce a anotuju jen Case, PronType a NumType. DZ: mnoho viz též 17.4.2024 nahoře. | Jako příslovce má Degree=Pos, Polarity=Pos (a žádný PronType). Jako číslovka má UPOS=DET, NumType=Card, PronType=Ind, žádné Degree ani Polarity, zato má vyplněný Case. |
JP, 24. 5. 2024 | nikakež | Může být rozhodně záporné adverbium („nijak“). Ale co když je to samostatná výpověď? Např. Nikakež, ale krále ustav nad námi. StčS to hodnotí jako částici, ale v zásadě je to podobné jako samostatné „ne“ v odpovědi na otázku, což má být INTJ. Takže bych dával takto. (A lemmatizuju jako „nikakž“.) DZ: Na to nemám jasný názor. Pokud funguje jako záporná odpověď na otázku, INTJ by mělo být v pořádku. Ale umím si představit, že bychom ho nechali všude jako záporné ADV. MS: V odpovědi na otázku bysme to v 19. stol. hodnotili jako částici, ale taky nemám problém, když to bude všude záporné ADV | |
JP, 24. 5. 2024 | NameType | V případech jako země/krajiny Benjamin dávám u Benjamin „Geo“, u pokolenie Benjamin dávám „Sur“, ale moc nadšený z toho nejsem :D | Takhle je to OK. Rys NameType má okrajový význam, v PDT zůstal, aby se neztrácela informace, ale spíš než do sloupce FEATS by patřil do samostatné anotace entit. Zatím ale zůstává tady a UDPipe ho predikuje, tak jsem tam ten sloupeček kvůli konzistenci nechal. |
JP, 29. 5. 2024 | tak | Musí to být vždy ADV, nebo podle kontextu i CCONJ? Např. zde: A nynie král chodí před vámi, ale já sem se sstaral a ošedivěl, jistě synové moji s vámi jsú, a tak obcovav před vámi od mladosti mé až do dne tohoto, aj hotov sem. Případně by někde šlo i jako PART? DZ: Určitě nemusí, v PDT je 2337 výskytů jako ADV a 404 výskytů jako CCONJ. PART bych se raději vyhnul, v PDT se to sice jednou taky vyskytlo, ale podle mě by to klidně mohlo být CCONJ (je to na začátku věty, v podobné pozici se nám běžně vyskytují i spojky A a Ale, 32 dalších podobných výskytů Tak je značkováno jako CCONJ). | Může být ADV i CCONJ. |
JP, 3. 6. 2024 | aniž | Dávám jako souřadicí spojku. V nč. ale podřadicí. DZ: K tomu se neumím vyjádřit, já ji znám jako podřadicí MS: V 19. století při desambiguaci bohužel jak podřadící, tak souřadící:) | |
jz, 12. 7. 2024 | jak, jakžto, jako v přirovnávací funkci | Ten pro zběstvo, pro chudobu sěm hi tamo točě sobú jakžto trest, jam vieter pochýlí, tam taký člověk sě schýlí. UPOS=SCONJ? ADV? Pokud ADV, vyplňujeme PronType? Pokud ano, jak? JP: To bych viděl dost jasně jako spojku (SCONJ), i když vidím, že ESSČ to má zřejmě jako adverbium, ale moc nerozumím proč. | DZ: SCONJ stejně jako jakožto, které v novočeských datech máme. |
AM, 18. 7. 2024 | bliz | Není bliz komparativ? Lemmatizovat jako blízko? V ESSČ informace, že „nelze vždy odlišit komp. adv. bliz (bliž) od komp. adv. blízko (blíž/e/)“… JP: Moc tomu nerozumím, ale dle slovníků by komparativ musel být se „ž“, ne? Tedy bliž. Jiná věc je kontext, v AlxH 23 by ten komparativ docela seděl. Nicméně pokud je to z kontextu jasně pozitiv (AlxH 19), lemmatizoval bych asi jako bliz. DZ: Taky tomu nerozumím, ale to, co říká Jirka, mi zní rozumně MS: Souhlasím s Vámi oběma:) | |
jz, 7. 8. 2024 | prvé ve významu ,dříve, předtím‘ | anotovat NumType=Ord, nebo ne? (spíše bych to nedělala, jen bych označila UPOS=ADV - a nic dalšího). DZ: Já v tom slyším novočeské prve, které má dva výskyty v PDT, je značeno jako ADV bez jakýchkoli dalších rysů. | Ano, pouze UPOS=ADV. |
JP, 9. 9. 2024 | AdpType u skrzě, skrz, skrze | Jestli tomu dobře rozumím, v nové češtině se podoba skrze pokládá za vokalizovanou variantu slova skrz, tj. lemma je skrz a AdpType je Voc. Historicky to tak ovšem nevzniklo, což se ve staré češtině odráží v tom, že ta „delší“ varianta má původně podobu skrzě, nikoli skrze, což neodpovídá standardnímu způsobu vokalizace předložek. Jak tyto případy řešit? Brát to jako vokalizovanou variantu, i když to místo -e končí na -ě, abychom byli aspoň trochu konzistentní s novou češtinou? DZ: S ohledem na podobnost s novočeským skrze se přikláním k AdpType=Voc. MS: Souhlasím s AdpType=Voc, tak je to uvedeno i v tabulce na Wiki. | Rozhodnuto: AdpType=Voc . |
AM, 10. 9. 2024 | Zkrácený auxiliár jest | V případě zkrácené podoby auxiliáru „jest“ (např. „(…) a mú bolest pohlédajte, kde j’ jiej rovna, znamenajte (…)“ jsem dávala tag Variant=Short. Je v pořádku to takto značit? Nebo jestli vůbec podobné případy značit? JP: Podobným případem je taky zkrácené že > ž’, to máme v etalonu dvakrát v AlxH. DZ: Já bych to nijak neznačil. Přijde mi, že vzhledem k množství dubletních tvarů u některých slov stejně nemůžeme držet zlaté pravidlo morfologie. A navíc validační skripty očekávají Variant=Short pouze v případech, kde už se používalo dřív, a někde podle něj dokonce rozhodují, jaké další rysy jsou přípustné nebo vyžadované. Když ho začneme používat jinde, tak se to rozbije. MS: Souhlasím s Danovým řešením. | Rozhodnuto: Nijak neznačit. Variant=Short obecně dávat pouze slovům, která už ho dostávají v novočeských datech. |
AM, 10. 9. 2024 | NameType u Kristus | Dohodli jsme se, jak anotovat „Kristus“? Nakonec jsem dávala NameType=Sur, ale přijde mi, že by klidně šlo i NameType=Giv… | Ano, NameType=Sur. |
AM, 10. 9. 2024 | UPOS u amen | U „amen“ dávám UPOS=INTJ podle staročeských slovníků, je to tak ok? | Ano, INTJ, v novočeských datech je to také tak (1 výskyt). |
JP, 21. 10. 2024 | kdokoli ve vztažné větě: Ind, nebo Rel? | Zájmena typu kdokoli se běžně vyskytují ve vztažných větách, např. ktožkoli má k bohu čest, ten je hřiechem jako svázán. Anotujeme zde Prontype Ind, nebo Rel? Předpokládám, že spíš Ind. A doplňující dotaz: Co v případě, že je to koli samostatným slovem? Např. Kto by koli nevyšel a nešel za Saulem a Samuelem, tak se stane volóm jeho. Tady k tomu kto dát taky Ind, nebo Rel? | DZ: Ano, PronType=Ind bez ohledu na kontext. Pokud je to ale roztrženo na dvě slova, kdo a koli, to první slovo už zase dostane jen PronType=Rel (protože neurčité zájmeno z toho vznikne až po přidání toho koli). |
JP, 21. 10. 2024 | zájmeno čí: posesivita? | U tohoto zájmena by se dost nabízelo vyplňovat Poss=Yes, ale tuším, že se to patrně nedělá. Nestálo by to za to? | DZ: Stálo a dělá se to, ale při sestavování tabulky rysů jsem na to zapomněl (už opraveno). |
AM, 22. 10. 2024 | UPOS u sto, tisíc | Jak anotovat číslovky sto a tisíc, pokud jsou v jiném tvaru než v základní podobě? S JP jsme řešili, že by možná šlo dávat UPOS=NUM u základních podob a UPOS=NOUN, když je to jiný tvar, podobně je to i v intercorpu. Anebo to řešit nějak jinak jednotně? :) JP: Ještě je ale potřeba vyřešit, jak tam anotovat (a jaké) rysy. Dosavadní instrukce u základních číslovek od tři výš je, že se má anotovat Number=Plur. U sto a tisíc se ale nabízí číslo rozlišovat podle kontextu, např. „sto“ vs. „stě“ vs. „sta“, podobně tisíc. A taky se nabízí anotovat rod (sto jako neutrum, tisíc jako neživotné maskulinum). Máme to dělat? Obecně by bylo dobré pro ty číslovky trochu zexplicitnit tu dokumentaci. | DZ: Sto je UPOS=NUM ve všech tvarech (set, sta, stě, stech, sto, stu, stům, sty). Tisíc jsem ve starších verzích PDT určitě viděl někdy jako NUM, někdy jako NOUN a pravidla se zdála nejasná; nicméně se zdá, že v současné verzi už je to taky konzistentně NUM ve všech tvarech. Totéž milión a miliarda. (V Intercorpu to asi může být ještě postaru, protože současný model UDPipe je natrénovaný ještě na staré verzi PDT.) JP: Rod se neanotuje. |
DZ, 23. 10. 2024 | Supinum | České UD (a potažmo validační skripty) zatím nedovolují značit supinum pomocí VerbForm=Sup (příklad: Nalezeny sú oslice, jíchžtos byl šel hledat.) To se dá zařídit a zdokumentovat na stránkách UD. Ale je tu otázka: Umíme říct, odkdy už to není supinum a je to infinitiv? JP: Ve staré češtině je ještě supinum běžné. Ustupuje až ve střední češtině, ale ještě v 16. století asi taky není nijak výjimečné, spíš asi až v 17. a 18. století. Jiná věc je, že ne vždy jde spolehlivě poznat z formy. Původně to bylo odlišné od infinitivu (ten končil na -ti, supinum na -t), ale když se začal používat i infinitiv zakončený na -t (to se dělo už ve staré češtině), tak to u některých sloves může vypadat stejně (ale ne u všech, infinitiv a supinum se mohou lišit i kvantitou nebo kvalitou vokálů). MS: Vzhledem k tomu, že je to formálně přetěžko podchytitelná morf. kategorie a víceméně homonymní s infinitivem a už v době staročeské ustupující jakožto systémová, tak bych se vzdal ambice ji v UD značkování vůbec značit. Vyhnem se tak množství neadekvátních interpretací. JP: To mi zas přijde trochu škoda. DZ: Pro mě je samozřejmě nejjednodušší, když se budeme tvářit, že supinum neexistuje (jak navrhuje Martin), ale netrvám na tom. Jen bych v tom druhém případě potřeboval znát kritéria, podle kterých to rozhodujeme, a potřeboval bych je uvést i v dokumentaci na stránkách UD, nejen tady. | Supinum povoleno. Prozatím s dovětkem, že ho rozlišujeme ve staročeském období. Kritérium je, že tvar formálně odpovídá supinu (tj. především končí na -t/-c) a zároveň se vyskytuje ve struktuře se slovesem pohybu (to může být případně i implicitní). |
JP, 29. 10. 2024 | tě interpretovatelné jako ť + je | V některých kontextech se nabízí výraz tě interpretovat jako spojené ť + je. Např. v RadaOtcR máme jakž tě má viera k tobě a čest tě tak svědomá. Na takovou interpretaci ukazují i variantní rukopisy, např. RadaOtcK má jakž jest má viera k tobě. Budeme s tím takto pracovat? V tom případě je tedy třeba to považovat za multiword token, rozdělit to na ť (PART) a je (AUX, lemma být). Alternativou je to neřešit a brát to prostě jako částici tě s tím, že je tam elidovaná spona (tak to ve své anotaci řešila JZ). Je to spíš asi lingvistická otázka, jak tohle interpretovat, a tomu, jak na ni odpovíme, je třeba přizpůsobit anotační pravidla.. MS: Přikláním se k řešení s elidovanou sponou (částice tě). Zacházel bych s tím totožně jako s oním toť ve větě typu: Totě/Toť Jan Křtitel DZ: Souhlas. | Rozhodnuto: Neřešit to. |
JP, 11. 12. 2024 | potom: zájmenné příslovce? | Slovo potom by se nabízelo brát jako zájmenné příslovce (PronType=Dem), ale zdá se, že UDPipe to tak nebere a není to tak ani v InterCorpu. Máme ho tedy brát jako normální příslovce a vyplňovat jen Degree a Polarity? DZ: Ano, udělal bych to stejně jako v novočeských datech (i když souhlasím, že zájmenné příslovce by dávalo smysl, ale nechci narušovat konzistenci). | Bereme to jako standardní (nezájmenné) příslovce. |
JP, 11. 12. 2024 | také | V nč. je to předpokládám vždy ADV s rysy Degree=Pos a Polarity=Pos. Jak s tím máme nakládat ve staré češtině? Od původu je to zájmenné příslovce, ve slovníku je uveden jak význam odpovídající novočeskému (též, rovněž), tak význam právě tak, stejně, který by odpovídal té funkci zájmenného příslovce. Máme se snažit to nějak rozlišovat? DZ: V nč. je to vždy ADV a nemá žádné rysy. Vím, že jsme řekli, že Degree a Polarity teď bude skoro všude, a nevím, jestli je to tady porušeno, protože jsme to řekli až po vydání UD 2.15, nebo protože jsem to zapomněl do novočeských dat promítnout, popř. ta implementace má nějakou chybu. Ale k té otázce: Nerozlišoval bych to. | Nerozlišujeme, vždy se anotuje pouze Degree a Polarity (tj. nikdy se to neinterpretuje jako vztažné). |
JP, 11. 12. 2024 | dřieve | Jak anotovat? Brát to paušálně jako komparativ od brzy, nebo se snažit to nějak rozlišovat podle kontextu a někde to dávat jako pozitiv od lemmatu dříve? DZ: Určitě bych to nerozlišoval podle kontextu. Pravděpodobně jsem na nějaké schůzi souhlasil, ne-li dokonce navrhoval lemma brzy. Teď jsem ovšem zjistil, že v novočeských UD to máme nekonzistentní napříč treebanky. V PDT je lemma dříve (ale je to stále značeno jako komparativ; pozitiv neexistuje, ale existuje superlativ nejdříve). Zato ve FicTree, který pochází z ÚČNK/ÚTKL, je lemma brzy. | Vždy lemma brzy, Degree=Cmp, Polarity=Pos. |
JP, 29. 10. 2024 | UPOS u již | PART, nebo ADV? Nebo se to nějak snažit rozlišovat podle kontextu?? MS: u anotace v 19. stol. lišíme podle kontextu PART a ADV, ale jsou to věčné boje, jak to kdo interpretuje. Přesto bych zkusil interpretovat. Máme pravidlo, že když je ve větě přítomen jiný časový výraz ještě krom „již“, třeba „dávno“ ap. (např.: již dávno jsem to věděl), tak je „již“ PART, pokud je „již“ jediným časovým výrazem ve větě, je to pak ADV. Můžeme se takhle dohodnout? JZ: Martinův návrh je podle mě v rozporu s pokyny na hlavní stránce wiki: „Slova vyjadřující postoj autora ke sdělení věty (např. bohužel) jsou anotována jako příslovce (POS=ADV). … pro každý jazyk bude v dokumentaci vyjmenováno, která slova dostávají POS=PART a proč“. Podle těchto pokynů jsem dosud anotovala jako ADV i výrazy, které bych normálně měla za částici, mezi nimi i „již“ ve všech kontextech. Nedává mi smysl rozlišovat ADV/PART u „již“ podle kontextu, pokud „bohužel“ je ADV. Pokud bychom ADV/PART u „již“ rozlišovat chtěli, je podle mě potřeba přehodnotit koncepci částic. (P. S.: Nemám samozřejmě nic proti rozlišování samotnému, to je smysluplné - ale vadí mi ta nekonzistence.) DZ: Podle pravidel UD by mělo být všude ADV, bohužel je to ale zatím nekonzistentní i v novočeských UD. Je to jedno z mnoha míst, kde se pravidla UD střetávají s tradičním českým pojetím, v tomto případě s pojetím částice jako slovního druhu. Anotace PDT před konverzí taky odlišuje částice od příslovcí a konverze se s tím v současné verzi neumí dobře vypořádat. Moje představa do budoucna je, že PART u slov, která mohou být i ADV, vymýtím, ale ten rozdíl, jak ho viděli anotátoři PDT, zachovám v syntaktické anotaci (místo závislosti advmod tam bude podtyp advmod:part ). Tady ale syntaktickou anotaci zatím neděláme. | Vždy UPOS=ADV, anotujeme Degree, Polarity. |
JP, 28. 11. 2024 | kritická chyba v edici | Vzhledem k tomu, že když něco v edici považujeme za chybu editora, nemůžeme ji opravovat (do textu edice nezasahujeme), snažíme se v těchto případech text anotovat v souladu s tím chybným zněním edice. Někdy je ale ta chyba taková, že ten text s ní ani při nejlepší vůli nemůže dávat smysl. Např. v edici HradMar je toto: skrzě uši již svě lejě, vcházejě v dóm srdce jejie, ovšem svě lejě je chyba, evidentně má jít o komparativ adverbia světlejie. Co v takovém případě? Navrhoval bych postupovat tak, jako by šlo o poškozená slova, tj. anotovat u nich jen lemma shodné s formou a UPOS=X a dál neřešit, nic jiného podle mě nedává moc smysl. DZ: Nevím. To je další místo, kde máme problém, že neděláme syntaktickou anotaci, protože v UD stromech se takto roztržená slova spojují pomocí pseudo-závislostního vztahu goeswith . Jenže pak se u toho prvního kusu anotuje plnohodnotné LEMMA, UPOS a FEATS toho celku. | Pokud text lze nějak interpretovat tak, jak je transkribovaný, snažíme se ho anotovat v souladu s transkripcí. Pokud transkripce vůbec nedává smysl, dáváme k nesmyslným slovům UPOS=X, lemma shodné s tvarem a nic dalšího neanotujeme. |
JP, 22. 11. 2024 | ovšem ve funkci příslovce | UPOS=ADV, PronType=Tot? Např. Hlavu dosti velikú jměl, a tváří ovšem bieše biel. DZ: Já bych myslel ADV bez PronTypu, ovšem v PDT je ovšem… PART. Bez výjimky. | Vždy UPOS=ADV, vyplňujeme Degree, Polarity. (Nebereme to tedy jako zájmenné příslovce.) Nikdy to nepovažujeme za spojku ani partikuli. |
JP, 11. 11. 2024 | co ve významu „proč“ | Např. vecechu města k césaři: Co se zde meškáme, proč nechvátame. Jak anotovat? Nabízelo by se ADV, ale vidím, že v Intercorpu bývá asi PART, což udělal i UDPipe. DZ: co může být řada věcí – kromě zájmena i ADV, SCONJ a PART. SCONJ jsem podrobněji nezkoumal, ale prvních pár výskytů jsou spojení poté co. ADV jsou v drtivé většině spojení typu co nej…(později), pak je tam vícero příkladů typu měsíc co měsíc, co chvíli, stůj co stůj; častější je co do činění, no a nakonec jsem jednou viděl také není se co divit, což je asi nejblíže významu proč, ale je otázka, jestli to byl záměr, nebo omyl. Těch PART je celkově velmi málo (desetkrát míň než ADV), většina z nich ve spojení co když, co kdyby, pak je tam taky co takhle, a co více, a také jedno co se divíte? Ani tady by mi nevadilo prostě těm PART dát do budoucna ADV. | Pokud je to ve funkci „proč“, anotujeme stejně, tj. UPOS=ADV a vyplňujeme PronType (Int nebo Rel). |
JP, 18. 12. 2024 | jenž(to) ve funkci přívlastku | Jak takové případy anotovat? Např. byl vévodú i starostú nad velikým svatým sborem, jenž sbor slovieše Thebeorum. Odpovídá to funkčně např. výrazu kterýžto. Nabízelo by se to brát jako UPOS=DET, šlo by to? A jinak anotovat Gender+Animacy, Number, Case, PronType, PrepCase. Znamenalo by to mj. pracovat s kategorií PrepCase i u kategorie DET, dosud to asi bývá jen u PRON. DZ: Ono by možná stačilo nechat tohle rozlišení funkce na syntaktickou anotaci. V UD lze použít závislost „det“, když závislý uzel má UPOS DET nebo PRON. JP: OK, tak to můžeme nechat na syntax a v morfologii to brát jako PRON. | Anotovat jako PRON bez ohledu na funkci. |
JZ, 2. 1. 2025 | interpunkce v lat. textu | Mercator, non respondit Rubinus: (MastMuz), Rubíne, vo pystu? (MastMuz) – jaký POS má mít interpunkce v cizojazyčném textu? PUNCT? JP: Asi bych to tak dělal, ale je to spíš otázka na Dana. | DZ: Interpunkce je vždycky PUNCT. |
JP, 10. 1. 2025 | výraz čtvrt | Jak ho anotovat? Příklad zde: Dřieve ve třech dnech na vojnu vstaniechu, tehdy přěd čtvrtí léta na vojnu zapovědiechu. Předpokládám, že bychom to měli brát jako základní číslovku, tj. anotovat NUM, Card, Word. A jelikož se to pravidelně skloňuje, nabízí se anotovat též pád, číslo, rod. DZ: Ano. Ten pád se (mnohdy, ne vždy) anotuje i v novočeských datech, přestože tam to skloňování spíš vymizelo, říká se před čtvrt stoletím, nikoli před čtvrtí století. | NUM NumType=Card NumForm=Word Gender=Fem Number Case |
JP, 20. 1. 2025 | výraz obojí | Jak anotovat? Vzhledem k analogiím k číslovkám typu dvojí a k číslovce oba se mi jeví logicky anotovat UPOS=ADJ, NumType=Mult, Gender+Animacy, Number, Case, PronType=Tot. | DZ: Ano, přesně tak. |
JP, 18. 12. 2024 | adverbiální ješto | Co když ješto funguje jako vztažné příslovce, můžeme ho tak anotovat (UPOS=ADV, PronType=Rel)? Např. poslasta po všěch vlastech, tu ješto křestěné bydléchu, listy takét. A v tom případě je ještě otázka, jaké dávat lemma. Navrhoval bych ježto, analogicky podle toho, když je to spojka. DZ: Nevím, jestli té větě správně rozumím (musel jsem si ji přečíst několikrát). Vztažná věta je „ješto křestěné bydléchu“? A rozvíjí ukazovací příslovce „tu“? Takže to znamená něco jako poslali takové listy po všech vlastech, tam, kde bydleli křesťané? V tom případě bych asi značku ADV použil. Je to zdánlivě v rozporu s tím, co jsem napsal o (ne)rozlišování PRON a DET u jenž, ale v tomto případě nám budoucí syntaktická anotace nepomůže, protože spojky se v UD od vztažných slov (zájmen nebo příslovcí) striktně odlišují. JP: Ano, takhle té větě rozumím, ješto tu funguje podobně, jako by fungovalo kdy. Tak to tedy podle toho budeme anotovat. | V případě, kdy ješto funguje jako vztažné zájmené příslovce, anotujeme POS=ADV, PronType=Rel. Lemma je ježto(!). |
JZ, 2. 1. 2025 | lemma výrazů UPOS = X | V návodu máme napsáno: Lemma je identické se slovním tvarem (možná akorát převedené na malá písmena?) Převádíme teda na malá písmena, nebo ne? Mají mít propria, která jsou součástí cizojazyčného textu, lemma s malým písmenem, nebo s velkým? JP: U proprií jsem dával velké, jinak malé. DZ: Já napsal možná, protože v UD na to jednotné pravidlo není a svým názorem jsem si nebyl jistý. Převedení na malá písmena je motivováno hlavně tím, že nechceme v lemmatu zachovávat velké písmeno, které je důsledkem nějakých okolností vně toho slova (zejména začátek věty). Vlastní jména obecně mají mít lemma s velkým písmenem na začátku, protože to je kanonická pravopisná forma jejich nominativu. Jenže pokud jsme schopni/ochotni říct, že jde o vlastní jméno, nabízí se otázka, proč jsme mu dali značku X a ne PROPN. Uvnitř normální české věty bychom s vlastním jménem určitě zacházeli jako s českým slovem, i kdyby bylo cizího (hebrejského, latinského atd.) původu a neneslo známky české morfologie. Uvnitř vložené cizojazyčné fráze naopak asi dává smysl předpokládat, že vlastní jméno je také cizí (vůči češtině; ono to může být hebrejské jméno uvnitř latinské fráze, dokonce by to mohlo být i české jméno uvnitř latinské fráze). Nicméně mi ale připadá jako přijatelné a rozumně aplikovatelné pravidlo, že pokud jsme schopni v cizojazyčném textu rozpoznat, že slovo začínající velkým písmenem je vlastní jméno, pak mu velké písmeno na začátku zachováme i v lemmatu. JP: Souhlasím. | Propria v cizojazyčném textu mají mít lemma s velkým počátečním písmenem. Apelativa převádíme na malá písmena. |
jz, 31. 1. 2025 | obklíčený | Nevzbojím sě tisúcóv lidí obklíčených mne. (ŽaltWittb) Departicipiální adj s „pasivní“ formou má aktivní význam - anotujeme Act, nebo Pass? Srov. StčS s. v. obkľúčený. DZ: Asi bych se držel formy a doufal, že takové případy nebudou příliš časté. Každopádně existují precedenty pro to, že featura, používaná pro označení určité formy, vystihuje její přibližný a/nebo častý význam, ale používá se i v případech, kde tento význam neplatí. JP: Taky bych se držel formy. | Držíme se formy, bereme to jako běžný případ ajektiva od pasivního participia. |