AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
hickok:problemy_morfologie [2025/02/07 20:41] – Obojí. danzemanhickok:problemy_morfologie [2025/03/10 11:11] (aktuální) – [Zatím nedořešené problémy] janazdenkova
Řádek 6: Řádek 6:
  
 ^ Autor, datum | **Název** ^ Popis problému, diskuse ^ Řešení ^ ^ Autor, datum | **Název** ^ Popis problému, diskuse ^ Řešení ^
-| JP, 18. 12. 2024 ^ adverbiální //ješto// | Co když //ješto// funguje jako vztažné příslovce, můžeme ho tak anotovat (UPOS=ADV, PronType=Rel)? Např. //poslasta po všěch vlastech, tu ješto křestěné bydléchu, listy takét//. A v tom případě je ještě otázka, jaké dávat lemma. Navrhoval bych //ježto//, analogicky podle toho, když je to spojka. <fc #008000>**DZ:** Nevím, jestli té větě správně rozumím (musel jsem si ji přečíst několikrát). Vztažná věta je //"ješto křestěné bydléchu"//? A rozvíjí ukazovací příslovce //"tu"//? Takže to znamená něco jako //poslali takové listy po všech vlastech, tam, kde bydleli křesťané//? V tom případě bych asi značku ADV použil. Je to zdánlivě v rozporu s tím, co jsem napsal o (ne)rozlišování PRON a DET u //jenž//, ale v tomto případě nám budoucí syntaktická anotace nepomůže, protože spojky se v UD od vztažných slov (zájmen nebo příslovcí) striktně odlišují.</fc> |  | 
 | JP, 20. 12. 2024 ^ nepředložkové //kromě// | Jak zacházet s //kromě//, které má podobnou funkci jako předložkové //kromě//, ale následuje za ním věta uvozená podřadicí spojkou? Např. //kto by byl na to hlédal, kromě ač by kamenné srdce jměl, musil by zaplakati//. Buď se nabízí vycházet z ESSČ a brát to jako ADV, nebo to brát jako SCONJ. To první je asi rozumnější, ale to druhé se mi líbí víc :) Ještě v téhle souvislosti upozorňuju, že v novočeských korpusech se to bere víceméně paušálně jako předložka, a to i v případech, kdy za tím následuje předložková fráze (např. //kromě za účelem//), což mi přijde docela problematické (s tímhle přístupem bychom mohli i ty výše uvedené stč. případy chápat jako ADP). <fc #008000>**DZ:** Příslovce bych nedával. Nechat všude ADP by mi nevadilo, na syntaktické úrovni jde i tak odlišit závislost typu ''case'' (předložka pod substantivem) od ''mark'' (pod vedlejší větou). V PDT se to párkrát objevuje u konstrukce //místo aby...//. Nicméně pokud se dohodneme, že v takových případech chceme SCONJ, tak mi to nevadí.</fc> |  | | JP, 20. 12. 2024 ^ nepředložkové //kromě// | Jak zacházet s //kromě//, které má podobnou funkci jako předložkové //kromě//, ale následuje za ním věta uvozená podřadicí spojkou? Např. //kto by byl na to hlédal, kromě ač by kamenné srdce jměl, musil by zaplakati//. Buď se nabízí vycházet z ESSČ a brát to jako ADV, nebo to brát jako SCONJ. To první je asi rozumnější, ale to druhé se mi líbí víc :) Ještě v téhle souvislosti upozorňuju, že v novočeských korpusech se to bere víceméně paušálně jako předložka, a to i v případech, kdy za tím následuje předložková fráze (např. //kromě za účelem//), což mi přijde docela problematické (s tímhle přístupem bychom mohli i ty výše uvedené stč. případy chápat jako ADP). <fc #008000>**DZ:** Příslovce bych nedával. Nechat všude ADP by mi nevadilo, na syntaktické úrovni jde i tak odlišit závislost typu ''case'' (předložka pod substantivem) od ''mark'' (pod vedlejší větou). V PDT se to párkrát objevuje u konstrukce //místo aby...//. Nicméně pokud se dohodneme, že v takových případech chceme SCONJ, tak mi to nevadí.</fc> |  |
-| JZ, 2. 1. 2025 ^ lemma výrazů UPOS = X | V návodu máme napsáno: //Lemma je identické se slovním tvarem (možná akorát převedené na malá písmena?)// Převádíme teda na malá písmena, nebo ne? Mají mít propria, která jsou součástí cizojazyčného textu, lemma s malým písmenem, nebo s velkým? **JP:** U proprií jsem dával velké, jinak malé. <fc #008000>**DZ:** Já napsal možná, protože v UD na to jednotné pravidlo není a svým názorem jsem si nebyl jistý. Převedení na malá písmena je motivováno hlavně tím, že nechceme v lemmatu zachovávat velké písmeno, které je důsledkem nějakých okolností vně toho slova (zejména začátek věty). Vlastní jména obecně mají mít lemma s velkým písmenem na začátku, protože to je kanonická pravopisná forma jejich nominativu. Jenže pokud jsme schopni/ochotni říct, že jde o vlastní jméno, nabízí se otázka, proč jsme mu dali značku X a ne PROPN. Uvnitř normální české věty bychom s vlastním jménem určitě zacházeli jako s českým slovem, i kdyby bylo cizího (hebrejského, latinského atd.) původu a neneslo známky české morfologie. Uvnitř vložené cizojazyčné fráze naopak asi dává smysl předpokládat, že vlastní jméno je také cizí (vůči češtině; ono to může být hebrejské jméno uvnitř latinské fráze, dokonce by to mohlo být i české jméno uvnitř latinské fráze). Nicméně mi ale připadá jako přijatelné a rozumně aplikovatelné pravidlo, že pokud jsme schopni v cizojazyčném textu rozpoznat, že slovo začínající velkým písmenem je vlastní jméno, pak mu velké písmeno na začátku zachováme i v lemmatu.</fc> | | +| JP, 6. 1. 2025 ^ spojování vět v kombinaci s multiword tokenem | Mám v tabulce větu, která začíná multiword tokenem ("pročs"), ten už je od UDPipu správně rozdělen. Tuto větu chci spojit s předchozí větou. Do kterého řádku mám vyplnit hodnotu "spojit": k tomu "pročs", nebo až k tomu "proč"? <fc #008000>**DZ:** Tak tahle otázka mě zaskočila, protože na to jsem při navrhování mechanismu nepomyslel. Koukal jsem se teď do skriptů a myslím si, že lepší bude dát to až k tomu "proč", tam vidím větší šanci, že to skripty zpracují správně :-) </fc> **JP:** OK, dal jsem to tam, tak uvidíme :) (Mám to dvakrát v textu PasMuzA.)  | | 
-| JP, 6. 1. 2025 ^ spojování vět v kombinaci s multiword tokenem | Mám v tabulce větu, která začíná multiword tokenem ("pročs"), ten už je od UDPipu správně rozdělen. Tuto větu chci spojit s předchozí větou. Do kterého řádku mám vyplnit hodnotu "spojit": k tomu "pročs", nebo až k tomu "proč"? <fc #008000>**DZ:** Tak tahle otázka mě zaskočila, protože na to jsem při navrhování mechanismu nepomyslel. Koukal jsem se teď do skriptů a myslím si, že lepší bude dát to až k tomu "proč", tam vidím větší šanci, že to skripty zpracují správně :-)</fc> | | +| JP, 9. 1. 2025 ^ jména typu //Čechy//, //Sasy// apod. | Předpokládám, že lemma má být plurálové. A jaký anotujeme rod? Pro starou češtinu je asi namístě Gender=Masc, Animacy=Inan. <fc #008000>**DZ:** Plurálové lemma //Čechy// má k sobě Gender=Fem. Asi bych to zachoval i ve staré češtině, pokud se neobjeví tvar, který je jasně mužský. A pak by tedy byla otázka, zda nemá být spíš životný, protože tipuju, že z označení národnosti je to odvozené, ne?</fc> **JP:** Od národností to sice je, ale právě to měnilo ten rod z životného na neživotný (proto je NOM ty Čechy, podobně jako ty hrady). Dnes se to bere jako ženský rod, ale jen kvůli těm koncovkám (např. Čechám), podle jiného kritéria to ani nejde, protože ve skutečnosti v plurálu v češtině rozdíl mezi mužským neživotným a ženským rodem neexistuje. A tvar Čechám je běžný už ve stč., přesto to ale z nějakého důvodu slovníky berou jako maskulinum, a to dokonce až do 20. stol.: PSJČ to má ještě jako maskulinum, SSJČ už jako femininum. Takže je možnost brát to už ve stč. jako feminina, čímž by odpadl problém stanovení hranice, odkdy to feminina jsou. Na druhou stranu je problém, že různá jména se v tomto i v současné češtině chovají různě, např. Sasy a Rakousy patrně nemají v LOC koncovku -ách, takže se asi i v nč. interpretují jako maskulina. Takže bychom to pro různá jména tohoto typu museli řešit zvlášť, což mi zní docela šíleně, jednodušší by bylo brát je paušálně jako neživotná maskulina. Tak nevím. <fc #008000>**DZ:** Nečekal jsem to, ale v PDT je jeden výskyt //v Rakousích//. Má lemma "Rakousy" a je to Gender=Masc, Animacy=Inan. Ovšem hned si říkám, co by se stalo, kdyby tam bylo //do Rakous//. To zas vypadá jako femininum, u maskulina bych očekával koncovku //-ů//.</fc> **JP:** A v tomhle je mimochodem rozdíl mezi starou a novou češtinou, protože ve stč. mohla být v genitivu plurálu ta nulová koncovka ještě i u maskulin (to je původní stav). Co jsem se teď tak díval, zdá se, že ve stč. je důsledně v Čechách, ale stejně důsledně v Uhřiech (jako dnešní lesích). A zajímavé je, že PSJČ, který u Čech uvádí -ách a bere to jako maskulinum, bere Uhry naopak jako femininum, přestože tam uvádí nejen -ách, ale zastarale i -ích, to asi není moc konzistentní přístup.  | | 
-| JP, 9. 1. 2025 ^ jména typu //Čechy//, //Sasy// apod. | Předpokládám, že lemma má být plurálové. A jaký anotujeme rod? Pro starou češtinu je asi namístě Gender=Masc, Animacy=Inan. <fc #008000>**DZ:** Plurálové lemma //Čechy// má k sobě Gender=Fem. Asi bych to zachoval i ve staré češtině, pokud se neobjeví tvar, který je jasně mužský. A pak by tedy byla otázka, zda nemá být spíš životný, protože tipuju, že z označení národnosti je to odvozené, ne?</fc> **JP:** Od národností to sice je, ale právě to měnilo ten rod z životného na neživotný (proto je NOM ty Čechy, podobně jako ty hrady). Dnes se to bere jako ženský rod, ale jen kvůli těm koncovkám (např. Čechám), podle jiného kritéria to ani nejde, protože ve skutečnosti v plurálu v češtině rozdíl mezi mužským neživotným a ženským rodem neexistuje. A tvar Čechám je běžný už ve stč., přesto to ale z nějakého důvodu slovníky berou jako maskulinum, a to dokonce až do 20. stol.: PSJČ to má ještě jako maskulinum, SSJČ už jako femininum. Takže je možnost brát to už ve stč. jako feminina, čímž by odpadl problém stanovení hranice, odkdy to feminina jsou. Na druhou stranu je problém, že různá jména se v tomto i v současné češtině chovají různě, např. Sasy a Rakousy patrně nemají v LOC koncovku -ách, takže se asi i v nč. interpretují jako maskulina. Takže bychom to pro různá jména tohoto typu museli řešit zvlášť, což mi zní docela šíleně, jednodušší by bylo brát je paušálně jako neživotná maskulina. Tak nevím. <fc #008000>**DZ:** Nečekal jsem to, ale v PDT je jeden výskyt //v Rakousích//. Má lemma "Rakousy" a je to Gender=Masc, Animacy=Inan. Ovšem hned si říkám, co by se stalo, kdyby tam bylo //do Rakous//. To zas vypadá jako femininum, u maskulina bych očekával koncovku //-ů//.</fc> | | +JP182. 2025 ^ zkratka cizího slova (//etc.//) | Jak zacházet s výrazem //etc.//? Bral bych to jako cizí slovo v našem pojetí, zároveň je to zkratka. Nabízí se tedy nechat lemma "etc", dát POS=X a Foreign=Yes (jako u cizích slov), zároveň vyplnit i Abbr=Yes. Ale bylo by to v rozporu s instrukcí, že u cizích slov se žádné jiné rysy než Foreign=Yes nevyplňují. Jak to tedy řešit?  |  | 
-|jz311. 2025 ^ obklíčený | //Nevzbojím sě tisúcóv lidí obklíčených mne.// (ŽaltWittbDeparticipiální adj s "pasivníformou má aktivní význam - anotujeme Actnebo PassSrovStčs. v. //obkľúčený//.| |+| JP, 26. 2. 2025 ^ čas u výrazu //budoucí// Předpokládám, že s výrazem //budoucí// se zachází jako dlouhým tvarem činného příčestí, tj. anotuje se POS=ADJ, VerbForm=Part, Voice=Act, Aspect, Tense, Gender+Animacy, Number, Case, Polarity. Jaký ale má být čas? Může být Fut? To by mi přišlo logické, když je to od slovesa být, od něhož by příslušné příčestí v prézentu bylo "jsoucí"Nebo se má forma na -cí brát paušálně jako prézens?  |  | 
 +| JP, 27. 2. 2025 ^ krátký tvar adjektivní násobné číslovky | Mám kontext: //pošli nadeň __sedmer__ duch tvój//. Zdá se mi nejvhodnější interpretovat výraz //sedmer// jako  číslovku typu dvojí v krátkém tvaru (protože ve stejném kontextu by patrně mohlo být i "sedmerý"). V tom případě by to podle návodu mělo mít POS=ADJ, NumType=Mult, Gender+Animacy, Number, Case. Ale přišlo by mi vhodné anotovat i Variant=Short, aby se to odlišilo od toho "sedmerý". Šlo by to takto? Nebo jinak? Případně to brát jako jiný typ číslovky (druhová)?  |  | 
 +| AM, 27. 2. 2025 ^ //točíš// ve významu //totiž// | Nejsem si jistá, jestli se to zde již neřešilo, ale jak zacházet s "točíšve významu "totiž" (např. ŠtítKlem: //A zlý starý had diábel pustil jed závisti své v jich rukutočíš jich účinek zlých lidí závistí leptal//)Momentálně anotuji jako UPOS=ADV a vyplňuji Polarity a Degree, lemmatizuji jako "točíš"**JP:** Podle mě není důvod to lemmatizovat jinak než jako "totiž", jsou to snad jen hláskové změny, takže bych použil pravidlo, že u slov dochovaných do současné češtiny se použije současněčeská podoba. Jiná věc je ta morfologie, to bude asi hlavně otázka na Dana. Taky jsem to někde měl a díval se do Intercorpu, kde je to většinou jako PART, méně často jako CCONJ, asi se tam dá vysledovat nějaký funkční rozdíl, ale hledat přesnou hranici asi není reálné, dával jsem to jako PART (bez dalších rysů). **JZ:** Dávám jako CCONJ - v dokladech, které jsem měla (a podobně i v dokladu, který zde uvádí AM), se mi zdá důležitý vztah ekvivalence mezi spojovanými částmi věty/souvětí  |  | 
 +| AM, 27. 2. 2025 ^ Očividné chyby? | Ve ŠtíKlem mám tuto větu překlepem: //Ale v domiech svých, a když kvasíte spolu, a jsú liť dnie krátci, ale v //__nocp__// aby duchovnie perly u pokladiech srdce svého schovali.// Chyb je té edice víc, ale zde u toho "nocp" je to vyloženě překlepJak přistupovat k anotaci u takového případu?  |  | 
 +| AM, 27. 2. 2025 ^ //Všaký// podle jmenné deklinace | Ve ŠtíKlem se několikrát objevuje krátký tvar "všaký" podle jmenné deklinace, např. //Protož že na __však__ den řiekáme ji, znamenajme z nie asa něco//. Přidávám tedy Variant=Short, jako by to bylo u anotace adjektiv, ačkoli anotuju UPOS=DET. **JP:** Je to asi podobný případ jako to "sedmer" výše. |  |
  
 ===== Vyřešené problémy ===== ===== Vyřešené problémy =====
Řádek 75: Řádek 78:
 | JZ, 2. 1. 2025 ^ interpunkce v lat. textu | //Mercator, non respondit Rubinus:// (MastMuz), //Rubíne, vo pystu?// (MastMuz) – jaký POS má mít interpunkce v cizojazyčném textu? PUNCT? **JP:** Asi bych to tak dělal, ale je to spíš otázka na Dana. | <fc #008000>**DZ:** Interpunkce je vždycky PUNCT.</fc> | | JZ, 2. 1. 2025 ^ interpunkce v lat. textu | //Mercator, non respondit Rubinus:// (MastMuz), //Rubíne, vo pystu?// (MastMuz) – jaký POS má mít interpunkce v cizojazyčném textu? PUNCT? **JP:** Asi bych to tak dělal, ale je to spíš otázka na Dana. | <fc #008000>**DZ:** Interpunkce je vždycky PUNCT.</fc> |
 | JP, 10. 1. 2025 ^ výraz //čtvrt// | Jak ho anotovat? Příklad zde: //Dřieve ve třech dnech na vojnu vstaniechu, tehdy přěd **čtvrtí** léta na vojnu zapovědiechu.// Předpokládám, že bychom to měli brát jako základní číslovku, tj. anotovat NUM, Card, Word. A jelikož se to pravidelně skloňuje, nabízí se anotovat též pád, číslo, rod. <fc #008000>**DZ:** Ano. Ten pád se (mnohdy, ne vždy) anotuje i v novočeských datech, přestože tam to skloňování spíš vymizelo, říká se //před čtvrt stoletím//, nikoli //před čtvrtí století//.</fc> | NUM NumType=Card NumForm=Word Gender=Fem Number Case | | JP, 10. 1. 2025 ^ výraz //čtvrt// | Jak ho anotovat? Příklad zde: //Dřieve ve třech dnech na vojnu vstaniechu, tehdy přěd **čtvrtí** léta na vojnu zapovědiechu.// Předpokládám, že bychom to měli brát jako základní číslovku, tj. anotovat NUM, Card, Word. A jelikož se to pravidelně skloňuje, nabízí se anotovat též pád, číslo, rod. <fc #008000>**DZ:** Ano. Ten pád se (mnohdy, ne vždy) anotuje i v novočeských datech, přestože tam to skloňování spíš vymizelo, říká se //před čtvrt stoletím//, nikoli //před čtvrtí století//.</fc> | NUM NumType=Card NumForm=Word Gender=Fem Number Case |
-| JP, 20. 1. 2025 ^ výraz //obojí// | Jak anotovat? Vzhledem k analogiím k číslovkám typu //dvojí// a k číslovce //dva// se mi jeví logicky anotovat UPOS=ADJ, NumType=Mult, Gender+Animacy, Number, Case, PronType=Tot. | <fc #008000>**DZ:** Ano, přesně tak.</fc> |+| JP, 20. 1. 2025 ^ výraz //obojí// | Jak anotovat? Vzhledem k analogiím k číslovkám typu //dvojí// a k číslovce //oba// se mi jeví logicky anotovat UPOS=ADJ, NumType=Mult, Gender+Animacy, Number, Case, PronType=Tot. | <fc #008000>**DZ:** Ano, přesně tak.</fc> 
 +| JP, 18. 12. 2024 ^ adverbiální //ješto// | Co když //ješto// funguje jako vztažné příslovce, můžeme ho tak anotovat (UPOS=ADV, PronType=Rel)? Např. //poslasta po všěch vlastech, tu ješto křestěné bydléchu, listy takét//. A v tom případě je ještě otázka, jaké dávat lemma. Navrhoval bych //ježto//, analogicky podle toho, když je to spojka. <fc #008000>**DZ:** Nevím, jestli té větě správně rozumím (musel jsem si ji přečíst několikrát). Vztažná věta je //"ješto křestěné bydléchu"//? A rozvíjí ukazovací příslovce //"tu"//? Takže to znamená něco jako //poslali takové listy po všech vlastech, tam, kde bydleli křesťané//? V tom případě bych asi značku ADV použil. Je to zdánlivě v rozporu s tím, co jsem napsal o (ne)rozlišování PRON a DET u //jenž//, ale v tomto případě nám budoucí syntaktická anotace nepomůže, protože spojky se v UD od vztažných slov (zájmen nebo příslovcí) striktně odlišují.</fc> **JP:** Ano, takhle té větě rozumím, //ješto// tu funguje podobně, jako by fungovalo //kdy//. Tak to tedy podle toho budeme anotovat. | V případě, kdy //ješto// funguje jako vztažné zájmené příslovce, anotujeme POS=ADV, PronType=Rel. Lemma je //ježto//(!). | 
 +| JZ, 2. 1. 2025 ^ lemma výrazů UPOS = X | V návodu máme napsáno: //Lemma je identické se slovním tvarem (možná akorát převedené na malá písmena?)// Převádíme teda na malá písmena, nebo ne? Mají mít propria, která jsou součástí cizojazyčného textu, lemma s malým písmenem, nebo s velkým? **JP:** U proprií jsem dával velké, jinak malé. <fc #008000>**DZ:** Já napsal možná, protože v UD na to jednotné pravidlo není a svým názorem jsem si nebyl jistý. Převedení na malá písmena je motivováno hlavně tím, že nechceme v lemmatu zachovávat velké písmeno, které je důsledkem nějakých okolností vně toho slova (zejména začátek věty). Vlastní jména obecně mají mít lemma s velkým písmenem na začátku, protože to je kanonická pravopisná forma jejich nominativu. Jenže pokud jsme schopni/ochotni říct, že jde o vlastní jméno, nabízí se otázka, proč jsme mu dali značku X a ne PROPN. Uvnitř normální české věty bychom s vlastním jménem určitě zacházeli jako s českým slovem, i kdyby bylo cizího (hebrejského, latinského atd.) původu a neneslo známky české morfologie. Uvnitř vložené cizojazyčné fráze naopak asi dává smysl předpokládat, že vlastní jméno je také cizí (vůči češtině; ono to může být hebrejské jméno uvnitř latinské fráze, dokonce by to mohlo být i české jméno uvnitř latinské fráze). Nicméně mi ale připadá jako přijatelné a rozumně aplikovatelné pravidlo, že pokud jsme schopni v cizojazyčném textu rozpoznat, že slovo začínající velkým písmenem je vlastní jméno, pak mu velké písmeno na začátku zachováme i v lemmatu.</fc> **JP:** Souhlasím. | Propria v cizojazyčném textu mají mít lemma s velkým počátečním písmenem. Apelativa převádíme na malá písmena. 
 +|jz, 31. 1. 2025 ^ obklíčený | //Nevzbojím sě tisúcóv lidí obklíčených mne.// (ŽaltWittb) Departicipiální adj s "pasivní" formou má aktivní význam - anotujeme Act, nebo Pass? Srov. StčS s. v. //obkľúčený//. <fc #008000>**DZ:** Asi bych se držel formy a doufal, že takové případy nebudou příliš časté. Každopádně existují precedenty pro to, že featura, používaná pro označení určité formy, vystihuje její přibližný a/nebo častý význam, ale používá se i v případech, kde tento význam neplatí.</fc> **JP:** Taky bych se držel formy. | Držíme se formy, bereme to jako běžný případ ajektiva od pasivního participia. |