AplikaceAplikace
Nastavení

Problémy anotace morfologie (POS, features)

Tabulka slouží k zapisování, diskusi a řešení nejasností/problémů při anotaci slovních druhů (POS) a morfologických rysů (features) v staročeském a středněčeském UD etalonu. Vyřešené problémy budou průběžně doplňovány do základní dokumentace.

Zatím nedořešené problémy

Autor, datum Název Popis problému, diskuse Řešení
JP, 20. 12. 2024 nepředložkové kromě Jak zacházet s kromě, které má podobnou funkci jako předložkové kromě, ale následuje za ním věta uvozená podřadicí spojkou? Např. kto by byl na to hlédal, kromě ač by kamenné srdce jměl, musil by zaplakati. Buď se nabízí vycházet z ESSČ a brát to jako ADV, nebo to brát jako SCONJ. To první je asi rozumnější, ale to druhé se mi líbí víc :) Ještě v téhle souvislosti upozorňuju, že v novočeských korpusech se to bere víceméně paušálně jako předložka, a to i v případech, kdy za tím následuje předložková fráze (např. kromě za účelem), což mi přijde docela problematické (s tímhle přístupem bychom mohli i ty výše uvedené stč. případy chápat jako ADP). DZ: Příslovce bych nedával. Nechat všude ADP by mi nevadilo, na syntaktické úrovni jde i tak odlišit závislost typu case (předložka pod substantivem) od mark (pod vedlejší větou). V PDT se to párkrát objevuje u konstrukce místo aby…. Nicméně pokud se dohodneme, že v takových případech chceme SCONJ, tak mi to nevadí.
JP, 6. 1. 2025 spojování vět v kombinaci s multiword tokenem Mám v tabulce větu, která začíná multiword tokenem („pročs“), ten už je od UDPipu správně rozdělen. Tuto větu chci spojit s předchozí větou. Do kterého řádku mám vyplnit hodnotu „spojit“: k tomu „pročs“, nebo až k tomu „proč“? DZ: Tak tahle otázka mě zaskočila, protože na to jsem při navrhování mechanismu nepomyslel. Koukal jsem se teď do skriptů a myslím si, že lepší bude dát to až k tomu „proč“, tam vidím větší šanci, že to skripty zpracují správně :-) JP: OK, dal jsem to tam, tak uvidíme :) (Mám to dvakrát v textu PasMuzA.)
JP, 9. 1. 2025 jména typu Čechy, Sasy apod. Předpokládám, že lemma má být plurálové. A jaký anotujeme rod? Pro starou češtinu je asi namístě Gender=Masc, Animacy=Inan. DZ: Plurálové lemma Čechy má k sobě Gender=Fem. Asi bych to zachoval i ve staré češtině, pokud se neobjeví tvar, který je jasně mužský. A pak by tedy byla otázka, zda nemá být spíš životný, protože tipuju, že z označení národnosti je to odvozené, ne? JP: Od národností to sice je, ale právě to měnilo ten rod z životného na neživotný (proto je NOM ty Čechy, podobně jako ty hrady). Dnes se to bere jako ženský rod, ale jen kvůli těm koncovkám (např. Čechám), podle jiného kritéria to ani nejde, protože ve skutečnosti v plurálu v češtině rozdíl mezi mužským neživotným a ženským rodem neexistuje. A tvar Čechám je běžný už ve stč., přesto to ale z nějakého důvodu slovníky berou jako maskulinum, a to dokonce až do 20. stol.: PSJČ to má ještě jako maskulinum, SSJČ už jako femininum. Takže je možnost brát to už ve stč. jako feminina, čímž by odpadl problém stanovení hranice, odkdy to feminina jsou. Na druhou stranu je problém, že různá jména se v tomto i v současné češtině chovají různě, např. Sasy a Rakousy patrně nemají v LOC koncovku -ách, takže se asi i v nč. interpretují jako maskulina. Takže bychom to pro různá jména tohoto typu museli řešit zvlášť, což mi zní docela šíleně, jednodušší by bylo brát je paušálně jako neživotná maskulina. Tak nevím. DZ: Nečekal jsem to, ale v PDT je jeden výskyt v Rakousích. Má lemma „Rakousy“ a je to Gender=Masc, Animacy=Inan. Ovšem hned si říkám, co by se stalo, kdyby tam bylo do Rakous. To zas vypadá jako femininum, u maskulina bych očekával koncovku . JP: A v tomhle je mimochodem rozdíl mezi starou a novou češtinou, protože ve stč. mohla být v genitivu plurálu ta nulová koncovka ještě i u maskulin (to je původní stav). Co jsem se teď tak díval, zdá se, že ve stč. je důsledně v Čechách, ale stejně důsledně v Uhřiech (jako dnešní lesích). A zajímavé je, že PSJČ, který u Čech uvádí -ách a bere to jako maskulinum, bere Uhry naopak jako femininum, přestože tam uvádí nejen -ách, ale zastarale i -ích, to asi není moc konzistentní přístup.
JP, 18. 2. 2025 zkratka cizího slova (etc.) Jak zacházet s výrazem etc.? Bral bych to jako cizí slovo v našem pojetí, zároveň je to zkratka. Nabízí se tedy nechat lemma „etc“, dát POS=X a Foreign=Yes (jako u cizích slov), zároveň vyplnit i Abbr=Yes. Ale bylo by to v rozporu s instrukcí, že u cizích slov se žádné jiné rysy než Foreign=Yes nevyplňují. Jak to tedy řešit?
JP, 26. 2. 2025 čas u výrazu budoucí Předpokládám, že s výrazem budoucí se zachází jako s dlouhým tvarem činného příčestí, tj. anotuje se POS=ADJ, VerbForm=Part, Voice=Act, Aspect, Tense, Gender+Animacy, Number, Case, Polarity. Jaký ale má být čas? Může být Fut? To by mi přišlo logické, když je to od slovesa být, od něhož by příslušné příčestí v prézentu bylo „jsoucí“. Nebo se má forma na -cí brát paušálně jako prézens?
JP, 27. 2. 2025 krátký tvar adjektivní násobné číslovky Mám kontext: pošli nadeň sedmer duch tvój. Zdá se mi nejvhodnější interpretovat výraz sedmer jako číslovku typu dvojí v krátkém tvaru (protože ve stejném kontextu by patrně mohlo být i „sedmerý“). V tom případě by to podle návodu mělo mít POS=ADJ, NumType=Mult, Gender+Animacy, Number, Case. Ale přišlo by mi vhodné anotovat i Variant=Short, aby se to odlišilo od toho „sedmerý“. Šlo by to takto? Nebo jinak? Případně to brát jako jiný typ číslovky (druhová)?
AM, 27. 2. 2025 točíš ve významu totiž Nejsem si jistá, jestli se to zde již neřešilo, ale jak zacházet s „točíš“ ve významu „totiž“ (např. ŠtítKlem: A zlý starý had diábel pustil jed závisti své v jich ruku, točíš jich účinek zlých lidí závistí leptal)? Momentálně anotuji jako UPOS=ADV a vyplňuji Polarity a Degree, lemmatizuji jako „točíš“. JP: Podle mě není důvod to lemmatizovat jinak než jako „totiž“, jsou to snad jen hláskové změny, takže bych použil pravidlo, že u slov dochovaných do současné češtiny se použije současněčeská podoba. Jiná věc je ta morfologie, to bude asi hlavně otázka na Dana. Taky jsem to někde měl a díval se do Intercorpu, kde je to většinou jako PART, méně často jako CCONJ, asi se tam dá vysledovat nějaký funkční rozdíl, ale hledat přesnou hranici asi není reálné, dával jsem to jako PART (bez dalších rysů). JZ: Dávám jako CCONJ - v dokladech, které jsem měla (a podobně i v dokladu, který zde uvádí AM), se mi zdá důležitý vztah ekvivalence mezi spojovanými částmi věty/souvětí
AM, 27. 2. 2025 Očividné chyby? Ve ŠtíKlem mám tuto větu s překlepem: Ale v domiech svých, a když kvasíte spolu, a jsú liť dnie krátci, ale v nocp aby duchovnie perly u pokladiech srdce svého schovali. Chyb je v té edice víc, ale zde u toho „nocp“ je to vyloženě překlep. Jak přistupovat k anotaci u takového případu?
AM, 27. 2. 2025 Všaký podle jmenné deklinace Ve ŠtíKlem se několikrát objevuje krátký tvar „všaký“ podle jmenné deklinace, např. Protož že na však den řiekáme ji, znamenajme z nie asa něco. Přidávám tedy Variant=Short, jako by to bylo u anotace adjektiv, ačkoli anotuju UPOS=DET. JP: Je to asi podobný případ jako to „sedmer“ výše.

Vyřešené problémy

Autor, datum Název Popis problému, diskuse Řešení
JP, 5. 3. 2024 všechen Bere se všechen jako zájmeno, nebo jako zájmenná číslovka? Tj. vyplňuje se u něj NumType? (Předpokládám, že POS je každopádně DET.) Ano, POS je DET. NumType se nevyplňuje. Zde jsou vidět současné anotace ve FicTree.
JP, 5. 3. 2024 segmentace Jsou nějak daná pravidla segmentace na věty? Jak postupovat při přímé řeči, máme-li uvozovací větu, pak dvojtečku a pak přímou řeč? Zatím se mi zdá, že to UDPipe nerozděluje, ale intuitivně bych to spíš dělil. Sepsaná ta pravidla asi nejsou, resp. nevím o tom. Nicméně uvozovací věta, dvojtečka a první věta přímé řeči se podle mě přinejmenším v českých treebancích zpracovávají jako jedno souvětí. Pokud má přímá řeč více než jednu větu, ocitnou se koncové uvozovky v jiné větě než ty počáteční. JP: OK, držím se toho.
DZ, 5. 3. 2024 kondicionál Kondicionál Vyřešeno na samostatné stránce. DZ: Uvedené rozhodnutí se kvůli konzistenci promítne i do stávajících českých treebanků v UD. Změna na GitHubu provedena 2.9.2024, projeví se ve vydání 2.15 v listopadu. Dosud mělo _by_ v některých případech uvedenu 3. osobu, v jiných žádnou, nyní zůstane osoba u tohoto tvaru vždy neuvedena.
JP, 7. 3. 2024 tudiež Ve významu „tam“ bych to považoval za zájmenné příslovce, tj. POS=ADV a PronType=Dem, šlo by to? Např. ve větě Ač vstúp̕u na nebe, ty tam jsi, ač sstúp̕u do pekla, tudiež jsi. (Ps 138,8) DZ: Souhlasím. V PDT se vyskytuje pouze jako CCONJ, ale taky nepředpokládám, že by kdekoliv mělo význam tam.
JZ, 7. 3. 2024kajúcích, milým Jde o substantivizovaná adjektiva. Přesto POS=ADJ? JP: Ano, substantiva s adjektivní formou anotujeme zpravidla jako adjektiva, tj. POS=ADJ. Výjimkou jsou pouze substantiva, která už v souč. češtině vůbec jako adjektiva nefungují, např. průvodčí.
JP, 8. 3. 2024 ijeden Jak toto anotovat? Navrhuju takto: POS=DET, Gender+Animacy, Number, Case, PronType=Neg. Šlo by? DZ: Šlo by. Pokud tedy z kontextu správně odhaduju, že to znamená žádný – pak by to logicky mělo mít obdobnou anotaci.
JP, 8. 3. 2024 li ve funkci spojky Jak anotovat POS? Na webu UD se uvádí PART, tak to udělal i UDPipe, ale píše se tam, že do budoucna možná SCONJ. A v Intercorpu v13 UD je to zřejmě jako SCONJ. To mi dává větší smysl. JZ: Souhlasím, že spojkové užití bude asi většinou SCONJ. Nicméně v ModlKunhA (v. 140) jsem narazila na užití li, ktere mi připadalo adekvátní označit jako CCONJ. JP: Ve funkci tázací částice bych ale dával PART, podobně tak i třeba u zdali. DZ: Přiznám se, že nejsem příliš velký fanoušek kontextového škatulkování jednoho funkčního slova do několika různých POS kategorií, takže bych úplně nezavrhoval možnost mít pro li vždy stejnou značku (a s ohledem na tu tázací funkci je pak otázka, jestli by to nemělo být PART). V UD se ovšem argumentuje tím, že není potřeba důsledně duplikovat informaci, kterou stejně uvidíme v syntaktické anotaci (podřadicí spojky jsou zavěšené jako mark, souřadicí jako cc, tázací částice nemají úplně jasná pravidla, ale nejspíš prostě advmod). Data z Hičkoku zatím syntaktickou anotaci mít nebudou, takže by tam tohle rozlišení chybělo. Ale pokud rozhodneme, že takové rozlišení je otázkou syntaxe, tak je to možná v pořádku. Rozhodnuto: Rozlišovat SCONJ, CCONJ, PART (to poslední jen u otázky v hlavní větě).
JZ, 8. 3. 2024 všemohúcí, vševidúcísložená slova obsahující verbální adj. - vyplňovat VerbForm, Tense, Aspect, Voice? DZ: Nemám nijak vyhraněný názor, ale mírně se kloním k nevyplňování, pokud se nejdřív změnilo VERB na ADJ a až ten výsledek vstoupil do složeného slova. Jelikož (myslím) neexistují slovesa „všemoci“ a „vševidět“, tak už bych zde slovesné rysy nevyplňoval. Rozhodnuto: Neznačit slovesné rysy.
JZ, 11. 3. 2024 jeden, nejeden vyplňovat Polarity? (jeden – nejeden) DZ: V PDT Polarity vyplněna není, možná proto, že číslovky obecně negovat nejde. Stejně tak není polarita anotována u nejednou, které v UD má POS=ADV (a příslovce by negované být mohlo), ale v PDT to původně byla číslovka. Nemám jasno, zda to chceme měnit. Pokud ano, tak by se to muselo změnit i v novočeských treebancích. Rozhodnuto: „nejeden“ je lemma, Polarity neznačit. Značka je DET (ne NUM). Asi budeme chtít ve výsledku PronType=Ind, ale ručně neanotovat, to půjde doplnit skriptem.
JP, 13. 3. 2024 víceznačnosti Je třeba vyřešit, jak obecně postupovat při víceznačnostech. V některých případech není z kontextu jasné, o jaký jde pád (např. Acc vs. Gen, Nom vs. Voc), někdy není jasný rod nebo i číslo, případně další kategorie nebo i slovní druh, není to zdaleka výjimečný jev. Tak jestli to prostě řešit tak, že vybereme interpretaci, která nám v tu chvíli bude připadat nejpravděpodobnější, nebo to budeme řešit systematičtěji. Ta pravděpodobnost se přitom může leckdy lišit, např. mé ledvie (Acc) je možné chápat jako fem. pl. i neut. sg., ale vzhledem k tomu, že to neutrum je průkazně doložené až v 15. stol, to lze v ŽaltU spíš brát jako fem. pl. apod. Řada struktur je syntakticky nejasných. DZ: Tohle by si asi zasloužilo svou vlastní stránku. U pádů bych to viděl na nějakou hierarchii výchozích hodnot, u rodů to asi povede na samostatné instrukce pro každé slovo. U tvaru, u něhož nelze jednoznačně určit např. rod nebo pád > 1) rozhodneme podle kontextu anotovaného textu (dané slovo se tam vyskytuje v jasně identifikovatelném tvaru v nějakém rodu, který v textu převažuje – vybereme ho i pro nejasný tvar); 2) pokud nepomůže kontext anotovaného textu, řídíme se obecným názorem v gramatikách a slovnících.
JZ, 15. 3. 2024 hoditi - vid hoditi má významy, v nichž se chová jako dok., a významy, v nichž se chová jako nedok. Přiřadit jeden vid v souladu s významem, nebo označit jako biaspektuální? DZ: V tomto případě se rozlišuje vid podle významu: hodit se je Aspect=Imp, hodit něco někam je Aspect=Perf. V UD-PDT to vychází na 4:6 výskytů. Jsou to dva různé lexémy, které v původním PDT mají lemmata hodit-1 (dokonavé) a hodit-2 (nedokonavé), ale v UD se tahle skutečnost poněkud ztrácí, protože tam musí být lemma pouze „hodit“, takže původní „hodit-1“ a „hodit-2“ bylo odsunuto do sloupce MISC jako atribut LId (a my v Hičkoku nic takového neanotujeme). Je možné, že v podobné situaci budou i další slovesa.
JP, 25. 3. 2024 stupňování u participiálních adjektiv Nabízí se otázka, jestli neanotovat „degree“ i u participiálních adjektiv. I v současné češtině se dají stupňovat, např. dodělanější apod. DZ: Já jsem pro. Ano, u trpných participiálních adjektiv typu dodělaný anotujeme degree.
JP, 26. 3. 2024 lexikalizovaný zápor Je asi třeba stanovit nějak hranice toho, kde zápor řešit v rámci „Polarity“ (tj. polarity=neg a lemma bez prefixu ne-), a kde naopak ne (tj. polarity=pos a lemma negované). Předpokládám, že slova typu nepřítel jsou druhý případ? I když ve stč. to může být někdy trochu jiné než v nč., např. neskonánie může mít význam „nedokonalost“, tj. není to opak skonání, dále např. ke slovesu nenáviděti existuje i náviděti (i když slovník je uvádí zvlášť), dále neroditi, nečest apod. DZ: Pro inspiraci tady je dotaz, který ukazuje „kladná slova na ne-“ v PDT. Řešíme (tvar-lemma-tag) takto: 1) substantiva: nepřítel-nepřítel-v tagu se nic neznačí; 2) slovesa: nekoupí-koupit-negace součástí tagu; 3) adjektiva a adverbia (odvozená od adjektiv): nevelký-velký-negace součástí tagu (stejně jako u sloves). Tedy: u substantiv se kategorií Polarity vůbec nepracuje, u sloves, adjektiv a deadjektivních adverbií ano, přičemž lemma je bez záporky. DZ: Výše uvedené rozhodnutí z porady 16.5.2024 se kvůli konzistenci promítne i do stávajících českých treebanků v UD. Změna na GitHubu provedena 1.9.2024, projeví se ve vydání 2.15 v listopadu. Dosud spíše nekonzistentní označování negativních substantiv tedy z českých UD úplně zmizí.
JP, 16. 4. 2024 číslo: hodnoty Coll, Ptan Máme při anotaci čísla používat také tyto dvě hodnoty? Případně kde / v jaké míře? Zdá se mi, že třeba v korpusu Intercorp v13UD vůbec nejsou, taky v těch předanotovaných datech jsem na ně nenarazil. DZ: UD sice má tyto hodnoty k dispozici, ale v žádných českých datech je anotované nemáme (mohli bychom, ale prostě se to neanotovalo). S ohledem na konzistenci napříč češtinou bych se jim spíš asi vyhnul. Tyto hodnoty nepoužíváme. Používáme pouze Sing, Dual a Plur.
JP, 17. 4. 2024 zájmeno an Jak ho klasifikovat? V tabulce v základní dokumentaci momentálně máme, že jako Rel(ativum), tak se toho držím, ale nevím, jestli je to ve všech kontextech adekvátní, např. v kontextu když ho žena jme tresktati, nedadúc jmu v kostky jhráti, an sě rozhněvajě z toho, častoť jiej přibíjie mnoho. Nabízelo by se to brát taky jako ukazovací, případně osobní (?), v závislosti na kontextu. Ale nevím, jak moc spolehlivé by to rozlišování podle kontextu mohlo být, možná je s ohledem na konzistentnost lepší to brát všude jako Rel? JZ: V navazovací funkci by se dalo uvažovat o rozdělení do dvou řádků - a + on, tj. CCONJ + PRON Prs. JP: Tyjo, ještě toho trochu :D Pokud je to zájmeno, vždy PronType=Rel. Kromě zájmena to ale taky může být SCONJ (ekvivalent když nebo protože).
JP, 17. 4. 2024 mnoho ve fci příslovce V dokumentaci máme uveden výraz mnoho jen jako zájmennou číslovku (mnoho lidí apod.). Ve stč. ale funguje i jako příslovce (častoť jiej přibíjie mnoho), tady bych to anotoval jako běžné stupňovatelné příslovce, tj. vyplňoval POS=ADV a dále jen degree a polarity, šlo by? DZ: Asi šlo, to slovo jde napříč kategoriemi, stejně jako hodně a více. Tady je dotaz, který ukazuje současnou situaci v PDT. Už teď je tam mnoho dvakrát jako příslovce. Naopak hodně je vždy příslovce (i když někdy se stupněm a někdy bez, ale to je asi chyba), přestože někdy může taky fungovat jako neurčitá číslovka (hodně prodavaček); totéž více. Ovšem ve FicTree je to trochu jinak (dotaz zde). Ano, podle kontextu řešit buď jako (zájmennou) číslovku (POS=DET), nebo jako příslovce (POS=ADV).
JP, 17. 4. 2024 obouvidovost Platí, že u všech sloves, která mohou být potenciálně obouvidová, se vid neuvádí, i když je v daném kontextu jasný? Ve stč. jde např. o slovesa jako řéci, ráčiti apod. JZ: Já bych se nesnažila určovat vid podle kontextu, jasných případů je podle mě spíš menšina. Potenciálně obouvidová slovesa bych hodnotila jako obouvidová. Ale nemáme pro ně k dispozici nějakou lepší značku než prázdné okénko (které může signalizovat i to, že daná kategorie vůbec není relevantní? JP: V prázdném okénku bych až takový problém neviděl, protože to, pro jaké tvary je vid relevantní, je snad jasně dáno. Ale tak nebránil bych se tomu, jde o to, jak se to řeší jinde, resp. v nč. DZ: Platí, že vid se nerozlišuje podle kontextu, zachází se s ním jako s lexikálním rysem. U obouvidových se neuvádí (ano, technicky by bylo možné dodefinovat třeba hodnotu BiAsp, ale podle UD guidelines se to tak dělat nemá). ALE! Je třeba odlišit obouvidá slovesa od homonym (někde výše v tomhle seznamu problémů se probírá rozdíl mezi hodit se někomu a hodit něco někam). V případě homonym se podle kontextu rozliší nikoli vid jako takový, ale celý lexém; ten už pak dostane svůj lexikální vid. U obouvidových sloves anotujeme vid tam, kde je z kontextu jasný. Pokud z kontextu jasný není, tak ho nevyplňujeme. (Na to, kdy je to jasné a kdy ne, ale můžou být různé názory.) Pokud nejde o obouvidové sloveso, ale o dvě homonymní slovesa lišící se videm (tj. při změně vidu se podstatně mění i význam), vid se normálně anotuje.
JP, 22. 4. 2024 viec ve funkci zájmenné číslovky Anotovat komparativ? (Pokud lemmatizujeme jako hodně). Jinak předpokládám, že PronType=Ind, NumType=Card, plus se anotuje pád. (Naopak ve významu „nadále“ anotovat pozitiv, nedávat NumType ani PronType a lemmatizovat jako více?) Pracujeme s celkem 3 typy viec: 1) viec-hodně-číslovka (POS=DET) a komparativ v tagu (přišlo víc lidí); 2) viec-hodně-adverbium a komparativ v tagu (tohle nás bavilo víc); 3) viec-více-adverbium a pozitiv v tagu (víc o tom nemluvil).
JP, 22. 4. 2024 pět v platnosti substantiva V kontextu nebť tu pět k ňemu provrhu – přišlo by mi asi nejlepší to anotovat jako číslovku, ale na rozdíl od běžné číslovky pět je tu potřeba anotovat singulár, taky to evidentně vyjadřuje rod. Nebo to dát jako substantivum, tj. stejně jako ekvivalentní pětice? V těchto případech řešíme jako běžné substantivum, nikoli číslovku (nemá NumType ani NumForm, jen pád, číslo, rod).
JP, 23. 4. 2024 nic v platnosti adverbia Např. Ty neroď na to nic tbáti: brát jako POS=ADV? Ano, v těchto případech ADV.
JP, 30. 4. 2024 Int, Rel Předpokládám správně, že to u zájmenných slov máme zjednoznačňovat? Ovšem jaká jsou kritéria pro vzájemné rozlišování? Tohle bývá asi v různých mluvnicích různě. A ještě souvisejíí věc: v řadě kontextů taková slova fungují jako indefinita, pak předpokládám anotujeme Ind, i když tam taky nejsou moc jasné hranice.. Ano, Int a Rel rozlišujeme, přičemž za Int se to pokládá jen v přímých otázkách (v hlavní větě, s otazníkem), naopak v souvětích vždy Rel (např. i nevím/ptám se, kdo přišel. A ano, podle kontextu to může být i Ind (jde-li to nahradit výrazy typu někdo).
JP, 30. 4. 2024 Nesklonné jenž Co s ním? Předpokládám, že bychom měli postupovat analogicky jako u nesklonného ješto, tj. pokud je jenž prokazatelně nesklonné, neuvádět pád, číslo ani rod. Podle nové dohody se pád, číslo i rod anotují i u nesklonných vztažných zájmen (s výjimkou případů s resumptivním zájmenem, např. jenž ho, co ho apod., resumptivní zájmeno je podle mě zde: jáz vy vystřiehaji z toho, byste sě chovali toho, ješto mnozí to činíte), tj. sklonnost/nesklonnost nehraje roli. (Podobně se nově anotuje pád číslo rod i u posesivních zájmen typu jeho, jejich, jich apod.)
JZ, 3. 5. 2024 lzě, nelzě POS=ADV? Dále uvádíme Polarity? (Intercorp má lze i nelze jako slovesa.) Ano. Tj. jsou to adverbia a mají následující trojkombinaci: lzě-lze-adverbium afirmativ; nelzě-lze-adverbium negace. Tj. u obou se uvádí lemma „lze“ a u obou se značí Polarity.
JP, 9. 5. 2024 byť ve funkci spojky Např. v kontextu byť věděl, žeť jmu žebrati. Navrhoval bych asi řešit podobně jako aby, tj. rozdělit to na dva tokeny: spojku (SCONJ) byť a kondicionálové by. Druhou možností by bylo se na spojku vykašlat a brát to jako kondicionálové by + částici ť. Ale v nč. se patrně byť bere jako spojka, takže s tím by bylo kompatibilnější to první řešení, jako spojku to bere i ESSČ. (Pokud by někde bylo spojení byť by (jako v nč.), pak by se byť bralo čistě jako spojka. Platí druhé řešení, tj. dělíme to na by (AUX, lemma být) a ť (PART), se spojkovou interpretací se nepočítá (za spojku bychom pokládali celé byť pouze v případě, že by to bylo ve spojení byť by.
JP, 10. 5 2024 druhé ve fci „zadruhé“ POS=ADV, NumType=Ord ? A lemma „druhé“? Ano, v dané funkci anotovat takto.
jz, 20. 5. 2024 přědeň přědeň se automaticky rozkládá na přěd + něj; nebylo by lepší přěde + něj - aby se neztratila vokalizovanost předložky? JP: To by asi bylo lepší. Já mám teda v těchhle případech hlavně pocit, že by bylo nejlepší jako tu druhou část psát jen ň, ale to je myslím neprůchodné vzhledem ke konzistenci s nč. DZ: Ony tyhle rozklady nejsou koncipované tak, že se má zachovat povrchová forma těch částí – je to úmyslně navržené tak, aby povrchový token nemusel být prostým sřetězením forem částí. Formy částí jsou hypotetické, jak by se to asi řeklo, kdyby to nebylo stažené do jednoho tokenu – což je taky důvod, proč zmizela vokalizace. Ten původní nerozložený token je v datech zachován, což se v UD považuje za dostatečné, aby se neztratila informace. UD ovšem neumožňují přidávat k tomu původnímu tokenu anotace, což je někdy trochu problém. U syntaxe a u UPOS značek to dává smysl, u morfologie a potažmo fonologie už je to diskutabilnější, ale tak to je. MS: Kdybych si mohl vybírat, tak bych to chtěl mít zpracované, jak navrhuje Jirka:) Ale chápu všechny Danovy argumenty, takže to bude podle Dana! Nově viz samostatný dokument Tokenizace a slovní segmentace.
jz, 20. 5. 2024 vždy - Polarity?zápis z porady: „3) adjektiva a adverbia (odvozená od adjektiv): nevelký-velký-negace součástí tagu“: proč je „odvozená od adjektiv“ v závorce? Mám se tím důsledně řídit, nebo ne? U vždy se nabízí vyplnit Polarity=Pos (vzhledem k nevždy) - ale vyplňovat to nemám, protože to není deadjektivní? JP: To je otázka, no, na té předposlední schůzi se dohodlo, že by to šlo, ale ta poslední lecjaké dohody zrušila :) Já bych byl pro to dělat i s ohledem na to, že z té schůze vyplynulo to, že se Polarity značí třeba i u toho „viece“ nebo „lzě“, což taky není deadjektivní. DZ: Novočeský tagset má ne zcela malou množinu příslovcí, u kterých neuvádí polaritu a stupeň. To, že nejsou deadjektivní, je zřejmě rozumné přibližné vymezení té množiny, ale nejsem si 100% jist, že je přesné. Můžu případně vytáhnout z treebanků jejich seznam. Je mezi nimi i několik takových, která vypadají jako stupňovaná nebo negovaná, ale místo příslušných rysů je tam prostě lemma s ne(j)- na začátku: nejen, nejprve, nepříliš, netřeba, nefér, netoliko. V UD navíc máme u některých příslovcí rys PronType, který v původním úfalím tagsetu nebyl. Neprázdný PronType má malá podmnožina té množiny příslovcí bez polarity a stupně. Ty je snadnější vymezit a vždy je jedno z nich, takže bych ho nechal bez Polarity. MS: Matně si vzpomínám, že na schůzi ten důvod závorky u „odvozená od adjektiv“ tkvěl v tom, že některá ADV předpokládáme odvozená od sloves, ale když vidím i ty ostatní příklady u Dana, tak nejen od nich. V takových případech jsme patrně polaritu nechtěli. Má to logiku a opodstatnění. Ale když koukám na praxi u anotace 19. stol., tak zaznamenáváme polaritu všude, nevždy má polaritu N a vždy A, pod. nefér - fér. Ale máme v tom taky nedůslednosti: nejen má sice značenou polaritu, ale nedobře má A a lemma nejen. Buď bych všude značil polaritu, nebo, pokud by to byl zásah do UD a nelíbilo se Vám to, tak bych se řídil tím případně vytaženým sezmamem z treebanků, kde by se polarita neznačila. DZ: Důvod, proč se zde s polaritou nepočítalo, je možná i ten, že v nové češtině by se ne vždy psalo jako dvě slova. Takže další možnost je, když se někde objeví nevždy psané dohromady, zacházet s tím jako s víceslovným tokenem, viz problémy tokenizace. Řešení: Všechna nezájmenná příslovce a ze zájmenných navíc ta, která mají PronType=Tot (tedy i vždy) budou mít vyplněn rys Polarity. Změní se to i v novočeských datech, takže to bude konzistentní.
jz, 21. 5. 2024 NumForm návod: „Feature of cardinal and ordinal numbers.“ - vztahuje se jen na určité číslovky, nebo i na neurčité (u nichž by se asi všude vyplňovalo „Word“)? A máme to vůbec vyplňovat u řadových číslovek - když to není v tabulce v našem návodu („ADJ Řadová číslovka adjektivní („druhý“): NumType=Ord, Gender+Animacy, Number, Case“)? JP: Nevím, ale předpokládám, že ani u neurčitých, ani u řadových by se to teda dělat nemělo. Já myslím, že zrovna v tomhle se asi celkem můžeme opřít o to, co se tam generuje automaticky.. DZ: Pouze u určitých a v češtině pouze u základních (UPOS tag NUM, NumType=Card), tak se to dělá v novočeských datech.
jz, 21. 5. 2024 jedni - druzí podlé cěst sě všudy zřiedie, jedni lehú, druzí sedie: jedni UPOS=NUM, NumType=Card, NumForm=Word, druzí UPOS=ADJ, NumType=Ord? Na (spíše pronominální) funkci nehledíme? Nebo lze vyplnit něco jako PronType=Dem? JP: Já bych to viděl takto, PronType bych nedělal. DZ: Já bych PronType taky nedělal, druzí bych anotoval jako normální řadovou číslovku (tj. UPOS=ADJ, NumType=Ord). Jedni jsou složitější. Koukal jsem se do PDT v UD, takhle v plurálu to tam není anotováno jako základní číslovka. Je to rovněž ADJ a NumType=Mult,Sets, což mi přijde zvláštní, já bych dal jenom NumType=Sets, ale tohle je asi důsledek nedokonalé konverze z úfalího tagsetu (značka CdMP1———-). Lemma zde není jeden a dokonce ani jedni (což bych dal já), ale jedny. Tohle by asi zasloužilo nějakou revizi, ale případná změna se stejně bude muset provést skriptem i v novočeských datech, takže v tuhle chvíli bych to asi ve staročeských datech anotoval stejně. Na funkci nehledíme, PronType nevyplňujeme.
jz, 21. 5. 2024 PrepCaseby za mirtvým otcem v stáňú nešly [děti] podlé jeho [otce] za ňú [matkou]: Tady se zdá, že je forma j- po předložce podlé. Roli snad může hrát, že jde o sekundární předložku vzniklou nejspíš ze substantiva (srov. StčS s. v. podlé). Značit jako Pre (je to po předložce), nebo jako Npr (je to forma, která se typicky používá jindy než po předložce)? Nebo se tady snad jeho dá interpretovat jako posesivum a tím pádem se problému zbavit? (Mně se taková interpretace nezdá.) JP: Já bych to spíš dělal podlé té formy, tj. Npr, protože právě kvůli té formě se to anotuje (u zájmen, která to formálně nerozlišují, se ten rys neuvádí vůbec). DZ: Podle formy, tj. PrepCase=Npr. To, že tam ve skutečnosti předložka byla, lze zjistit z kontextu (zejména až jednou bude i syntaktická anotace) a pak právě bude možné si vyhledat zajímavé případy, kde tvar byl Npr, ale přesto se vyskytl po předložce.
JP, 23. 5. 2024 výraz páně Jak anotujeme? V Intercorpu je to jako substantivum, ale to mi nepřijde náležité. Navrhoval bych dávat lemma „páně“ (dle nč.) a rysy anotovat jako u jiných poses. adj., tj. POS=ADJ, Poss=Yes, Gender[psor]=Masc, Gender+Animacy, Number, Case. DZ: A jak by vypadalo adjektivní skloňování? V PDT je páně NOUN, lemma pán, Number=Sing, Case=Gen (5 výskytů). MS: Tohle je zas ten rozpor formy a funkce: navrhoval bych lemma „páně“ a rysy podle poses. adj. Mělo by to kompletní paradigma, jen by to mělo ve všech pádech týž tvar (jako jiná nesklonná adj, např. nč. „nóbl“ „extra“ JP: Ono je to původně adjektivum v krátkém (tj. jmenném) tvaru (slovotvorně něco jako v nové češtině třeba adj. havraní od přísl. substantiva, jenomže to už má dnes jenom tvary „dlouhé“). Pokud se to shodovalo se substantivem v nom. sg. m., původně ten tvar byl páň. </fc> MS: Dohodneme se tedy na ustrnulém lemmatu „páně“ a adjektivním (posesivním) skloňování - stejný tvar pro všechny pády a čísla i rody.
jz, 23. 5. 2024 nikdy - Polarity? Navrhuju dát lemma nikdy a polaritu nevyplňovat, údaj o negativním významu už je stejně obsažen v PronType=Neg. JP: Ano, tak i v Intercorpu. Ano, PronType=Neg už se nekombinuje s Polarity=Neg.
jz, 23. 5. 2024 mnoho - Degree? Polarity?Navrhuju Degree=Pos, Polarity=Pos. JP: Takhle to dělám v případě, že jde o adverbium (viz výše). V kontextech, kde jde o číslovku, se držím instrukcí v tabulce a anotuju jen Case, PronType a NumType. DZ: mnoho viz též 17.4.2024 nahoře. Jako příslovce má Degree=Pos, Polarity=Pos (a žádný PronType). Jako číslovka má UPOS=DET, NumType=Card, PronType=Ind, žádné Degree ani Polarity, zato má vyplněný Case.
JP, 24. 5. 2024 nikakež Může být rozhodně záporné adverbium („nijak“). Ale co když je to samostatná výpověď? Např. Nikakež, ale krále ustav nad námi. StčS to hodnotí jako částici, ale v zásadě je to podobné jako samostatné „ne“ v odpovědi na otázku, což má být INTJ. Takže bych dával takto. (A lemmatizuju jako „nikakž“.) DZ: Na to nemám jasný názor. Pokud funguje jako záporná odpověď na otázku, INTJ by mělo být v pořádku. Ale umím si představit, že bychom ho nechali všude jako záporné ADV. MS: V odpovědi na otázku bysme to v 19. stol. hodnotili jako částici, ale taky nemám problém, když to bude všude záporné ADV
JP, 24. 5. 2024 NameType V případech jako země/krajiny Benjamin dávám u Benjamin „Geo“, u pokolenie Benjamin dávám „Sur“, ale moc nadšený z toho nejsem :D Takhle je to OK. Rys NameType má okrajový význam, v PDT zůstal, aby se neztrácela informace, ale spíš než do sloupce FEATS by patřil do samostatné anotace entit. Zatím ale zůstává tady a UDPipe ho predikuje, tak jsem tam ten sloupeček kvůli konzistenci nechal.
JP, 29. 5. 2024 tak Musí to být vždy ADV, nebo podle kontextu i CCONJ? Např. zde: A nynie král chodí před vámi, ale já sem se sstaral a ošedivěl, jistě synové moji s vámi jsú, a tak obcovav před vámi od mladosti mé až do dne tohoto, aj hotov sem. Případně by někde šlo i jako PART? DZ: Určitě nemusí, v PDT je 2337 výskytů jako ADV a 404 výskytů jako CCONJ. PART bych se raději vyhnul, v PDT se to sice jednou taky vyskytlo, ale podle mě by to klidně mohlo být CCONJ (je to na začátku věty, v podobné pozici se nám běžně vyskytují i spojky A a Ale, 32 dalších podobných výskytů Tak je značkováno jako CCONJ). Může být ADV i CCONJ.
JP, 3. 6. 2024 aniž Dávám jako souřadicí spojku. V nč. ale podřadicí. DZ: K tomu se neumím vyjádřit, já ji znám jako podřadicí :-) MS: V 19. století při desambiguaci bohužel jak podřadící, tak souřadící:)
jz, 12. 7. 2024 jak, jakžto, jako v přirovnávací funkci Ten pro zběstvo, pro chudobu sěm hi tamo točě sobú jakžto trest, jam vieter pochýlí, tam taký člověk sě schýlí. UPOS=SCONJ? ADV? Pokud ADV, vyplňujeme PronType? Pokud ano, jak? JP: To bych viděl dost jasně jako spojku (SCONJ), i když vidím, že ESSČ to má zřejmě jako adverbium, ale moc nerozumím proč. DZ: SCONJ stejně jako jakožto, které v novočeských datech máme.
AM, 18. 7. 2024 bliz Není bliz komparativ? Lemmatizovat jako blízko? V ESSČ informace, že „nelze vždy odlišit komp. adv. bliz (bliž) od komp. adv. blízko (blíž/e/)“… JP: Moc tomu nerozumím, ale dle slovníků by komparativ musel být se „ž“, ne? Tedy bliž. Jiná věc je kontext, v AlxH 23 by ten komparativ docela seděl. Nicméně pokud je to z kontextu jasně pozitiv (AlxH 19), lemmatizoval bych asi jako bliz. DZ: Taky tomu nerozumím, ale to, co říká Jirka, mi zní rozumně :-) MS: Souhlasím s Vámi oběma:)
jz, 7. 8. 2024 prvé ve významu ,dříve, předtím‘anotovat NumType=Ord, nebo ne? (spíše bych to nedělala, jen bych označila UPOS=ADV - a nic dalšího). DZ: Já v tom slyším novočeské prve, které má dva výskyty v PDT, je značeno jako ADV bez jakýchkoli dalších rysů. Ano, pouze UPOS=ADV.
JP, 9. 9. 2024 AdpType u skrzě, skrz, skrze Jestli tomu dobře rozumím, v nové češtině se podoba skrze pokládá za vokalizovanou variantu slova skrz, tj. lemma je skrz a AdpType je Voc. Historicky to tak ovšem nevzniklo, což se ve staré češtině odráží v tom, že ta „delší“ varianta má původně podobu skrzě, nikoli skrze, což neodpovídá standardnímu způsobu vokalizace předložek. Jak tyto případy řešit? Brát to jako vokalizovanou variantu, i když to místo -e končí na , abychom byli aspoň trochu konzistentní s novou češtinou? DZ: S ohledem na podobnost s novočeským skrze se přikláním k AdpType=Voc. MS: Souhlasím s AdpType=Voc, tak je to uvedeno i v tabulce na Wiki. Rozhodnuto: AdpType=Voc.
AM, 10. 9. 2024 Zkrácený auxiliár jest V případě zkrácené podoby auxiliáru „jest“ (např. „(…) a mú bolest pohlédajte, kde j’ jiej rovna, znamenajte (…)“ jsem dávala tag Variant=Short. Je v pořádku to takto značit? Nebo jestli vůbec podobné případy značit? JP: Podobným případem je taky zkrácené že > ž’, to máme v etalonu dvakrát v AlxH. DZ: Já bych to nijak neznačil. Přijde mi, že vzhledem k množství dubletních tvarů u některých slov stejně nemůžeme držet zlaté pravidlo morfologie. A navíc validační skripty očekávají Variant=Short pouze v případech, kde už se používalo dřív, a někde podle něj dokonce rozhodují, jaké další rysy jsou přípustné nebo vyžadované. Když ho začneme používat jinde, tak se to rozbije. MS: Souhlasím s Danovým řešením. Rozhodnuto: Nijak neznačit. Variant=Short obecně dávat pouze slovům, která už ho dostávají v novočeských datech.
AM, 10. 9. 2024 NameType u Kristus Dohodli jsme se, jak anotovat „Kristus“? Nakonec jsem dávala NameType=Sur, ale přijde mi, že by klidně šlo i NameType=Giv… Ano, NameType=Sur.
AM, 10. 9. 2024 UPOS u amen U „amen“ dávám UPOS=INTJ podle staročeských slovníků, je to tak ok? Ano, INTJ, v novočeských datech je to také tak (1 výskyt).
JP, 21. 10. 2024 kdokoli ve vztažné větě: Ind, nebo Rel? Zájmena typu kdokoli se běžně vyskytují ve vztažných větách, např. ktožkoli má k bohu čest, ten je hřiechem jako svázán. Anotujeme zde Prontype Ind, nebo Rel? Předpokládám, že spíš Ind. A doplňující dotaz: Co v případě, že je to koli samostatným slovem? Např. Kto by koli nevyšel a nešel za Saulem a Samuelem, tak se stane volóm jeho. Tady k tomu kto dát taky Ind, nebo Rel? DZ: Ano, PronType=Ind bez ohledu na kontext. Pokud je to ale roztrženo na dvě slova, kdo a koli, to první slovo už zase dostane jen PronType=Rel (protože neurčité zájmeno z toho vznikne až po přidání toho koli).
JP, 21. 10. 2024 zájmeno čí: posesivita? U tohoto zájmena by se dost nabízelo vyplňovat Poss=Yes, ale tuším, že se to patrně nedělá. Nestálo by to za to? DZ: Stálo a dělá se to, ale při sestavování tabulky rysů jsem na to zapomněl (už opraveno).
AM, 22. 10. 2024 UPOS u sto, tisíc Jak anotovat číslovky sto a tisíc, pokud jsou v jiném tvaru než v základní podobě? S JP jsme řešili, že by možná šlo dávat UPOS=NUM u základních podob a UPOS=NOUN, když je to jiný tvar, podobně je to i v intercorpu. Anebo to řešit nějak jinak jednotně? :) JP: Ještě je ale potřeba vyřešit, jak tam anotovat (a jaké) rysy. Dosavadní instrukce u základních číslovek od tři výš je, že se má anotovat Number=Plur. U sto a tisíc se ale nabízí číslo rozlišovat podle kontextu, např. „sto“ vs. „stě“ vs. „sta“, podobně tisíc. A taky se nabízí anotovat rod (sto jako neutrum, tisíc jako neživotné maskulinum). Máme to dělat? Obecně by bylo dobré pro ty číslovky trochu zexplicitnit tu dokumentaci. DZ: Sto je UPOS=NUM ve všech tvarech (set, sta, stě, stech, sto, stu, stům, sty). Tisíc jsem ve starších verzích PDT určitě viděl někdy jako NUM, někdy jako NOUN a pravidla se zdála nejasná; nicméně se zdá, že v současné verzi už je to taky konzistentně NUM ve všech tvarech. Totéž milión a miliarda. (V Intercorpu to asi může být ještě postaru, protože současný model UDPipe je natrénovaný ještě na staré verzi PDT.) JP: Rod se neanotuje.
DZ, 23. 10. 2024 Supinum České UD (a potažmo validační skripty) zatím nedovolují značit supinum pomocí VerbForm=Sup (příklad: Nalezeny sú oslice, jíchžtos byl šel hledat.) To se dá zařídit a zdokumentovat na stránkách UD. Ale je tu otázka: Umíme říct, odkdy už to není supinum a je to infinitiv? JP: Ve staré češtině je ještě supinum běžné. Ustupuje až ve střední češtině, ale ještě v 16. století asi taky není nijak výjimečné, spíš asi až v 17. a 18. století. Jiná věc je, že ne vždy jde spolehlivě poznat z formy. Původně to bylo odlišné od infinitivu (ten končil na -ti, supinum na -t), ale když se začal používat i infinitiv zakončený na -t (to se dělo už ve staré češtině), tak to u některých sloves může vypadat stejně (ale ne u všech, infinitiv a supinum se mohou lišit i kvantitou nebo kvalitou vokálů). MS: Vzhledem k tomu, že je to formálně přetěžko podchytitelná morf. kategorie a víceméně homonymní s infinitivem a už v době staročeské ustupující jakožto systémová, tak bych se vzdal ambice ji v UD značkování vůbec značit. Vyhnem se tak množství neadekvátních interpretací. JP: To mi zas přijde trochu škoda. DZ: Pro mě je samozřejmě nejjednodušší, když se budeme tvářit, že supinum neexistuje (jak navrhuje Martin), ale netrvám na tom. Jen bych v tom druhém případě potřeboval znát kritéria, podle kterých to rozhodujeme, a potřeboval bych je uvést i v dokumentaci na stránkách UD, nejen tady. Supinum povoleno. Prozatím s dovětkem, že ho rozlišujeme ve staročeském období. Kritérium je, že tvar formálně odpovídá supinu (tj. především končí na -t/-c) a zároveň se vyskytuje ve struktuře se slovesem pohybu (to může být případně i implicitní).
JP, 29. 10. 2024 interpretovatelné jako ť + je V některých kontextech se nabízí výraz interpretovat jako spojené ť + je. Např. v RadaOtcR máme jakž tě má viera k tobě a čest tě tak svědomá. Na takovou interpretaci ukazují i variantní rukopisy, např. RadaOtcK má jakž jest má viera k tobě. Budeme s tím takto pracovat? V tom případě je tedy třeba to považovat za multiword token, rozdělit to na ť (PART) a je (AUX, lemma být). Alternativou je to neřešit a brát to prostě jako částici s tím, že je tam elidovaná spona (tak to ve své anotaci řešila JZ). Je to spíš asi lingvistická otázka, jak tohle interpretovat, a tomu, jak na ni odpovíme, je třeba přizpůsobit anotační pravidla.. MS: Přikláním se k řešení s elidovanou sponou (částice ). Zacházel bych s tím totožně jako s oním toť ve větě typu: Totě/Toť Jan Křtitel DZ: Souhlas. Rozhodnuto: Neřešit to.
JP, 11. 12. 2024 potom: zájmenné příslovce? Slovo potom by se nabízelo brát jako zájmenné příslovce (PronType=Dem), ale zdá se, že UDPipe to tak nebere a není to tak ani v InterCorpu. Máme ho tedy brát jako normální příslovce a vyplňovat jen Degree a Polarity? DZ: Ano, udělal bych to stejně jako v novočeských datech (i když souhlasím, že zájmenné příslovce by dávalo smysl, ale nechci narušovat konzistenci). Bereme to jako standardní (nezájmenné) příslovce.
JP, 11. 12. 2024 také V nč. je to předpokládám vždy ADV s rysy Degree=Pos a Polarity=Pos. Jak s tím máme nakládat ve staré češtině? Od původu je to zájmenné příslovce, ve slovníku je uveden jak význam odpovídající novočeskému (též, rovněž), tak význam právě tak, stejně, který by odpovídal té funkci zájmenného příslovce. Máme se snažit to nějak rozlišovat? DZ: V nč. je to vždy ADV a nemá žádné rysy. Vím, že jsme řekli, že Degree a Polarity teď bude skoro všude, a nevím, jestli je to tady porušeno, protože jsme to řekli až po vydání UD 2.15, nebo protože jsem to zapomněl do novočeských dat promítnout, popř. ta implementace má nějakou chybu. Ale k té otázce: Nerozlišoval bych to. Nerozlišujeme, vždy se anotuje pouze Degree a Polarity (tj. nikdy se to neinterpretuje jako vztažné).
JP, 11. 12. 2024 dřieve Jak anotovat? Brát to paušálně jako komparativ od brzy, nebo se snažit to nějak rozlišovat podle kontextu a někde to dávat jako pozitiv od lemmatu dříve? DZ: Určitě bych to nerozlišoval podle kontextu. Pravděpodobně jsem na nějaké schůzi souhlasil, ne-li dokonce navrhoval lemma brzy. Teď jsem ovšem zjistil, že v novočeských UD to máme nekonzistentní napříč treebanky. V PDT je lemma dříve (ale je to stále značeno jako komparativ; pozitiv neexistuje, ale existuje superlativ nejdříve). Zato ve FicTree, který pochází z ÚČNK/ÚTKL, je lemma brzy. Vždy lemma brzy, Degree=Cmp, Polarity=Pos.
JP, 29. 10. 2024 UPOS u již PART, nebo ADV? Nebo se to nějak snažit rozlišovat podle kontextu?? MS: u anotace v 19. stol. lišíme podle kontextu PART a ADV, ale jsou to věčné boje, jak to kdo interpretuje. Přesto bych zkusil interpretovat. Máme pravidlo, že když je ve větě přítomen jiný časový výraz ještě krom „již“, třeba „dávno“ ap. (např.: již dávno jsem to věděl), tak je „již“ PART, pokud je „již“ jediným časovým výrazem ve větě, je to pak ADV. Můžeme se takhle dohodnout? JZ: Martinův návrh je podle mě v rozporu s pokyny na hlavní stránce wiki: „Slova vyjadřující postoj autora ke sdělení věty (např. bohužel) jsou anotována jako příslovce (POS=ADV). … pro každý jazyk bude v dokumentaci vyjmenováno, která slova dostávají POS=PART a proč“. Podle těchto pokynů jsem dosud anotovala jako ADV i výrazy, které bych normálně měla za částici, mezi nimi i „již“ ve všech kontextech. Nedává mi smysl rozlišovat ADV/PART u „již“ podle kontextu, pokud „bohužel“ je ADV. Pokud bychom ADV/PART u „již“ rozlišovat chtěli, je podle mě potřeba přehodnotit koncepci částic. (P. S.: Nemám samozřejmě nic proti rozlišování samotnému, to je smysluplné - ale vadí mi ta nekonzistence.) DZ: Podle pravidel UD by mělo být všude ADV, bohužel je to ale zatím nekonzistentní i v novočeských UD. Je to jedno z mnoha míst, kde se pravidla UD střetávají s tradičním českým pojetím, v tomto případě s pojetím částice jako slovního druhu. Anotace PDT před konverzí taky odlišuje částice od příslovcí a konverze se s tím v současné verzi neumí dobře vypořádat. Moje představa do budoucna je, že PART u slov, která mohou být i ADV, vymýtím, ale ten rozdíl, jak ho viděli anotátoři PDT, zachovám v syntaktické anotaci (místo závislosti advmod tam bude podtyp advmod:part). Tady ale syntaktickou anotaci zatím neděláme. Vždy UPOS=ADV, anotujeme Degree, Polarity.
JP, 28. 11. 2024 kritická chyba v edici Vzhledem k tomu, že když něco v edici považujeme za chybu editora, nemůžeme ji opravovat (do textu edice nezasahujeme), snažíme se v těchto případech text anotovat v souladu s tím chybným zněním edice. Někdy je ale ta chyba taková, že ten text s ní ani při nejlepší vůli nemůže dávat smysl. Např. v edici HradMar je toto: skrzě uši již svě lejě, vcházejě v dóm srdce jejie, ovšem svě lejě je chyba, evidentně má jít o komparativ adverbia světlejie. Co v takovém případě? Navrhoval bych postupovat tak, jako by šlo o poškozená slova, tj. anotovat u nich jen lemma shodné s formou a UPOS=X a dál neřešit, nic jiného podle mě nedává moc smysl. DZ: Nevím. To je další místo, kde máme problém, že neděláme syntaktickou anotaci, protože v UD stromech se takto roztržená slova spojují pomocí pseudo-závislostního vztahu goeswith. Jenže pak se u toho prvního kusu anotuje plnohodnotné LEMMA, UPOS a FEATS toho celku. Pokud text lze nějak interpretovat tak, jak je transkribovaný, snažíme se ho anotovat v souladu s transkripcí. Pokud transkripce vůbec nedává smysl, dáváme k nesmyslným slovům UPOS=X, lemma shodné s tvarem a nic dalšího neanotujeme.
JP, 22. 11. 2024 ovšem ve funkci příslovce UPOS=ADV, PronType=Tot? Např. Hlavu dosti velikú jměl, a tváří ovšem bieše biel. DZ: Já bych myslel ADV bez PronTypu, ovšem v PDT je ovšem… PART. Bez výjimky. Vždy UPOS=ADV, vyplňujeme Degree, Polarity. (Nebereme to tedy jako zájmenné příslovce.) Nikdy to nepovažujeme za spojku ani partikuli.
JP, 11. 11. 2024 co ve významu „proč“ Např. vecechu města k césaři: Co se zde meškáme, proč nechvátame. Jak anotovat? Nabízelo by se ADV, ale vidím, že v Intercorpu bývá asi PART, což udělal i UDPipe. DZ: co může být řada věcí – kromě zájmena i ADV, SCONJ a PART. SCONJ jsem podrobněji nezkoumal, ale prvních pár výskytů jsou spojení poté co. ADV jsou v drtivé většině spojení typu co nej…(později), pak je tam vícero příkladů typu měsíc co měsíc, co chvíli, stůj co stůj; častější je co do činění, no a nakonec jsem jednou viděl také není se co divit, což je asi nejblíže významu proč, ale je otázka, jestli to byl záměr, nebo omyl. Těch PART je celkově velmi málo (desetkrát míň než ADV), většina z nich ve spojení co když, co kdyby, pak je tam taky co takhle, a co více, a také jedno co se divíte? Ani tady by mi nevadilo prostě těm PART dát do budoucna ADV. Pokud je to ve funkci „proč“, anotujeme stejně, tj. UPOS=ADV a vyplňujeme PronType (Int nebo Rel).
JP, 18. 12. 2024 jenž(to) ve funkci přívlastku Jak takové případy anotovat? Např. byl vévodú i starostú nad velikým svatým sborem, jenž sbor slovieše Thebeorum. Odpovídá to funkčně např. výrazu kterýžto. Nabízelo by se to brát jako UPOS=DET, šlo by to? A jinak anotovat Gender+Animacy, Number, Case, PronType, PrepCase. Znamenalo by to mj. pracovat s kategorií PrepCase i u kategorie DET, dosud to asi bývá jen u PRON. DZ: Ono by možná stačilo nechat tohle rozlišení funkce na syntaktickou anotaci. V UD lze použít závislost „det“, když závislý uzel má UPOS DET nebo PRON. JP: OK, tak to můžeme nechat na syntax a v morfologii to brát jako PRON. Anotovat jako PRON bez ohledu na funkci.
JZ, 2. 1. 2025 interpunkce v lat. textu Mercator, non respondit Rubinus: (MastMuz), Rubíne, vo pystu? (MastMuz) – jaký POS má mít interpunkce v cizojazyčném textu? PUNCT? JP: Asi bych to tak dělal, ale je to spíš otázka na Dana. DZ: Interpunkce je vždycky PUNCT.
JP, 10. 1. 2025 výraz čtvrt Jak ho anotovat? Příklad zde: Dřieve ve třech dnech na vojnu vstaniechu, tehdy přěd čtvrtí léta na vojnu zapovědiechu. Předpokládám, že bychom to měli brát jako základní číslovku, tj. anotovat NUM, Card, Word. A jelikož se to pravidelně skloňuje, nabízí se anotovat též pád, číslo, rod. DZ: Ano. Ten pád se (mnohdy, ne vždy) anotuje i v novočeských datech, přestože tam to skloňování spíš vymizelo, říká se před čtvrt stoletím, nikoli před čtvrtí století. NUM NumType=Card NumForm=Word Gender=Fem Number Case
JP, 20. 1. 2025 výraz obojí Jak anotovat? Vzhledem k analogiím k číslovkám typu dvojí a k číslovce oba se mi jeví logicky anotovat UPOS=ADJ, NumType=Mult, Gender+Animacy, Number, Case, PronType=Tot. DZ: Ano, přesně tak.
JP, 18. 12. 2024 adverbiální ješto Co když ješto funguje jako vztažné příslovce, můžeme ho tak anotovat (UPOS=ADV, PronType=Rel)? Např. poslasta po všěch vlastech, tu ješto křestěné bydléchu, listy takét. A v tom případě je ještě otázka, jaké dávat lemma. Navrhoval bych ježto, analogicky podle toho, když je to spojka. DZ: Nevím, jestli té větě správně rozumím (musel jsem si ji přečíst několikrát). Vztažná věta je „ješto křestěné bydléchu“? A rozvíjí ukazovací příslovce „tu“? Takže to znamená něco jako poslali takové listy po všech vlastech, tam, kde bydleli křesťané? V tom případě bych asi značku ADV použil. Je to zdánlivě v rozporu s tím, co jsem napsal o (ne)rozlišování PRON a DET u jenž, ale v tomto případě nám budoucí syntaktická anotace nepomůže, protože spojky se v UD od vztažných slov (zájmen nebo příslovcí) striktně odlišují. JP: Ano, takhle té větě rozumím, ješto tu funguje podobně, jako by fungovalo kdy. Tak to tedy podle toho budeme anotovat. V případě, kdy ješto funguje jako vztažné zájmené příslovce, anotujeme POS=ADV, PronType=Rel. Lemma je ježto(!).
JZ, 2. 1. 2025 lemma výrazů UPOS = X V návodu máme napsáno: Lemma je identické se slovním tvarem (možná akorát převedené na malá písmena?) Převádíme teda na malá písmena, nebo ne? Mají mít propria, která jsou součástí cizojazyčného textu, lemma s malým písmenem, nebo s velkým? JP: U proprií jsem dával velké, jinak malé. DZ: Já napsal možná, protože v UD na to jednotné pravidlo není a svým názorem jsem si nebyl jistý. Převedení na malá písmena je motivováno hlavně tím, že nechceme v lemmatu zachovávat velké písmeno, které je důsledkem nějakých okolností vně toho slova (zejména začátek věty). Vlastní jména obecně mají mít lemma s velkým písmenem na začátku, protože to je kanonická pravopisná forma jejich nominativu. Jenže pokud jsme schopni/ochotni říct, že jde o vlastní jméno, nabízí se otázka, proč jsme mu dali značku X a ne PROPN. Uvnitř normální české věty bychom s vlastním jménem určitě zacházeli jako s českým slovem, i kdyby bylo cizího (hebrejského, latinského atd.) původu a neneslo známky české morfologie. Uvnitř vložené cizojazyčné fráze naopak asi dává smysl předpokládat, že vlastní jméno je také cizí (vůči češtině; ono to může být hebrejské jméno uvnitř latinské fráze, dokonce by to mohlo být i české jméno uvnitř latinské fráze). Nicméně mi ale připadá jako přijatelné a rozumně aplikovatelné pravidlo, že pokud jsme schopni v cizojazyčném textu rozpoznat, že slovo začínající velkým písmenem je vlastní jméno, pak mu velké písmeno na začátku zachováme i v lemmatu. JP: Souhlasím. Propria v cizojazyčném textu mají mít lemma s velkým počátečním písmenem. Apelativa převádíme na malá písmena.
jz, 31. 1. 2025 obklíčený Nevzbojím sě tisúcóv lidí obklíčených mne. (ŽaltWittb) Departicipiální adj s „pasivní“ formou má aktivní význam - anotujeme Act, nebo Pass? Srov. StčS s. v. obkľúčený. DZ: Asi bych se držel formy a doufal, že takové případy nebudou příliš časté. Každopádně existují precedenty pro to, že featura, používaná pro označení určité formy, vystihuje její přibližný a/nebo častý význam, ale používá se i v případech, kde tento význam neplatí. JP: Taky bych se držel formy. Držíme se formy, bereme to jako běžný případ ajektiva od pasivního participia.