Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
hickok:problemy_morfologie [2025/02/18 10:26] – [Zatím nedořešené problémy] jiripergler | hickok:problemy_morfologie [2025/03/10 11:11] (aktuální) – [Zatím nedořešené problémy] janazdenkova |
---|
| JP, 9. 1. 2025 ^ jména typu //Čechy//, //Sasy// apod. | Předpokládám, že lemma má být plurálové. A jaký anotujeme rod? Pro starou češtinu je asi namístě Gender=Masc, Animacy=Inan. <fc #008000>**DZ:** Plurálové lemma //Čechy// má k sobě Gender=Fem. Asi bych to zachoval i ve staré češtině, pokud se neobjeví tvar, který je jasně mužský. A pak by tedy byla otázka, zda nemá být spíš životný, protože tipuju, že z označení národnosti je to odvozené, ne?</fc> **JP:** Od národností to sice je, ale právě to měnilo ten rod z životného na neživotný (proto je NOM ty Čechy, podobně jako ty hrady). Dnes se to bere jako ženský rod, ale jen kvůli těm koncovkám (např. Čechám), podle jiného kritéria to ani nejde, protože ve skutečnosti v plurálu v češtině rozdíl mezi mužským neživotným a ženským rodem neexistuje. A tvar Čechám je běžný už ve stč., přesto to ale z nějakého důvodu slovníky berou jako maskulinum, a to dokonce až do 20. stol.: PSJČ to má ještě jako maskulinum, SSJČ už jako femininum. Takže je možnost brát to už ve stč. jako feminina, čímž by odpadl problém stanovení hranice, odkdy to feminina jsou. Na druhou stranu je problém, že různá jména se v tomto i v současné češtině chovají různě, např. Sasy a Rakousy patrně nemají v LOC koncovku -ách, takže se asi i v nč. interpretují jako maskulina. Takže bychom to pro různá jména tohoto typu museli řešit zvlášť, což mi zní docela šíleně, jednodušší by bylo brát je paušálně jako neživotná maskulina. Tak nevím. <fc #008000>**DZ:** Nečekal jsem to, ale v PDT je jeden výskyt //v Rakousích//. Má lemma "Rakousy" a je to Gender=Masc, Animacy=Inan. Ovšem hned si říkám, co by se stalo, kdyby tam bylo //do Rakous//. To zas vypadá jako femininum, u maskulina bych očekával koncovku //-ů//.</fc> **JP:** A v tomhle je mimochodem rozdíl mezi starou a novou češtinou, protože ve stč. mohla být v genitivu plurálu ta nulová koncovka ještě i u maskulin (to je původní stav). Co jsem se teď tak díval, zdá se, že ve stč. je důsledně v Čechách, ale stejně důsledně v Uhřiech (jako dnešní lesích). A zajímavé je, že PSJČ, který u Čech uvádí -ách a bere to jako maskulinum, bere Uhry naopak jako femininum, přestože tam uvádí nejen -ách, ale zastarale i -ích, to asi není moc konzistentní přístup. | | | | JP, 9. 1. 2025 ^ jména typu //Čechy//, //Sasy// apod. | Předpokládám, že lemma má být plurálové. A jaký anotujeme rod? Pro starou češtinu je asi namístě Gender=Masc, Animacy=Inan. <fc #008000>**DZ:** Plurálové lemma //Čechy// má k sobě Gender=Fem. Asi bych to zachoval i ve staré češtině, pokud se neobjeví tvar, který je jasně mužský. A pak by tedy byla otázka, zda nemá být spíš životný, protože tipuju, že z označení národnosti je to odvozené, ne?</fc> **JP:** Od národností to sice je, ale právě to měnilo ten rod z životného na neživotný (proto je NOM ty Čechy, podobně jako ty hrady). Dnes se to bere jako ženský rod, ale jen kvůli těm koncovkám (např. Čechám), podle jiného kritéria to ani nejde, protože ve skutečnosti v plurálu v češtině rozdíl mezi mužským neživotným a ženským rodem neexistuje. A tvar Čechám je běžný už ve stč., přesto to ale z nějakého důvodu slovníky berou jako maskulinum, a to dokonce až do 20. stol.: PSJČ to má ještě jako maskulinum, SSJČ už jako femininum. Takže je možnost brát to už ve stč. jako feminina, čímž by odpadl problém stanovení hranice, odkdy to feminina jsou. Na druhou stranu je problém, že různá jména se v tomto i v současné češtině chovají různě, např. Sasy a Rakousy patrně nemají v LOC koncovku -ách, takže se asi i v nč. interpretují jako maskulina. Takže bychom to pro různá jména tohoto typu museli řešit zvlášť, což mi zní docela šíleně, jednodušší by bylo brát je paušálně jako neživotná maskulina. Tak nevím. <fc #008000>**DZ:** Nečekal jsem to, ale v PDT je jeden výskyt //v Rakousích//. Má lemma "Rakousy" a je to Gender=Masc, Animacy=Inan. Ovšem hned si říkám, co by se stalo, kdyby tam bylo //do Rakous//. To zas vypadá jako femininum, u maskulina bych očekával koncovku //-ů//.</fc> **JP:** A v tomhle je mimochodem rozdíl mezi starou a novou češtinou, protože ve stč. mohla být v genitivu plurálu ta nulová koncovka ještě i u maskulin (to je původní stav). Co jsem se teď tak díval, zdá se, že ve stč. je důsledně v Čechách, ale stejně důsledně v Uhřiech (jako dnešní lesích). A zajímavé je, že PSJČ, který u Čech uvádí -ách a bere to jako maskulinum, bere Uhry naopak jako femininum, přestože tam uvádí nejen -ách, ale zastarale i -ích, to asi není moc konzistentní přístup. | | |
| JP, 18. 2. 2025 ^ zkratka cizího slova (//etc.//) | Jak zacházet s výrazem //etc.//? Bral bych to jako cizí slovo v našem pojetí, zároveň je to zkratka. Nabízí se tedy nechat lemma "etc", dát POS=X a Foreign=Yes (jako u cizích slov), zároveň vyplnit i Abbr=Yes. Ale bylo by to v rozporu s instrukcí, že u cizích slov se žádné jiné rysy než Foreign=Yes nevyplňují. Jak to tedy řešit? | | | | JP, 18. 2. 2025 ^ zkratka cizího slova (//etc.//) | Jak zacházet s výrazem //etc.//? Bral bych to jako cizí slovo v našem pojetí, zároveň je to zkratka. Nabízí se tedy nechat lemma "etc", dát POS=X a Foreign=Yes (jako u cizích slov), zároveň vyplnit i Abbr=Yes. Ale bylo by to v rozporu s instrukcí, že u cizích slov se žádné jiné rysy než Foreign=Yes nevyplňují. Jak to tedy řešit? | | |
| | JP, 26. 2. 2025 ^ čas u výrazu //budoucí// | Předpokládám, že s výrazem //budoucí// se zachází jako s dlouhým tvarem činného příčestí, tj. anotuje se POS=ADJ, VerbForm=Part, Voice=Act, Aspect, Tense, Gender+Animacy, Number, Case, Polarity. Jaký ale má být čas? Může být Fut? To by mi přišlo logické, když je to od slovesa být, od něhož by příslušné příčestí v prézentu bylo "jsoucí". Nebo se má forma na -cí brát paušálně jako prézens? | | |
| | JP, 27. 2. 2025 ^ krátký tvar adjektivní násobné číslovky | Mám kontext: //pošli nadeň __sedmer__ duch tvój//. Zdá se mi nejvhodnější interpretovat výraz //sedmer// jako číslovku typu dvojí v krátkém tvaru (protože ve stejném kontextu by patrně mohlo být i "sedmerý"). V tom případě by to podle návodu mělo mít POS=ADJ, NumType=Mult, Gender+Animacy, Number, Case. Ale přišlo by mi vhodné anotovat i Variant=Short, aby se to odlišilo od toho "sedmerý". Šlo by to takto? Nebo jinak? Případně to brát jako jiný typ číslovky (druhová)? | | |
| | AM, 27. 2. 2025 ^ //točíš// ve významu //totiž// | Nejsem si jistá, jestli se to zde již neřešilo, ale jak zacházet s "točíš" ve významu "totiž" (např. ŠtítKlem: //A zlý starý had diábel pustil jed závisti své v jich ruku, točíš jich účinek zlých lidí závistí leptal//)? Momentálně anotuji jako UPOS=ADV a vyplňuji Polarity a Degree, lemmatizuji jako "točíš". **JP:** Podle mě není důvod to lemmatizovat jinak než jako "totiž", jsou to snad jen hláskové změny, takže bych použil pravidlo, že u slov dochovaných do současné češtiny se použije současněčeská podoba. Jiná věc je ta morfologie, to bude asi hlavně otázka na Dana. Taky jsem to někde měl a díval se do Intercorpu, kde je to většinou jako PART, méně často jako CCONJ, asi se tam dá vysledovat nějaký funkční rozdíl, ale hledat přesnou hranici asi není reálné, dával jsem to jako PART (bez dalších rysů). **JZ:** Dávám jako CCONJ - v dokladech, které jsem měla (a podobně i v dokladu, který zde uvádí AM), se mi zdá důležitý vztah ekvivalence mezi spojovanými částmi věty/souvětí | | |
| | AM, 27. 2. 2025 ^ Očividné chyby? | Ve ŠtíKlem mám tuto větu s překlepem: //Ale v domiech svých, a když kvasíte spolu, a jsú liť dnie krátci, ale v //__nocp__// aby duchovnie perly u pokladiech srdce svého schovali.// Chyb je v té edice víc, ale zde u toho "nocp" je to vyloženě překlep. Jak přistupovat k anotaci u takového případu? | | |
| | AM, 27. 2. 2025 ^ //Všaký// podle jmenné deklinace | Ve ŠtíKlem se několikrát objevuje krátký tvar "všaký" podle jmenné deklinace, např. //Protož že na __však__ den řiekáme ji, znamenajme z nie asa něco//. Přidávám tedy Variant=Short, jako by to bylo u anotace adjektiv, ačkoli anotuju UPOS=DET. **JP:** Je to asi podobný případ jako to "sedmer" výše. | | |
| |
===== Vyřešené problémy ===== | ===== Vyřešené problémy ===== |