−Obsah
Problémy lemmatizace
Zde evidujeme problematické/nejasné případy lemmatizace tvarů ve staročeském a středněčeském etalonu. (Základní dokumentace zde.)
Nové problémy pište prosím červeně, ať máme odlišeno, co je ještě nedořešené.
Lemmatizace slov nedochovaných do současné češtiny
obizný: lze nechat v této hláskové podobě (odpovídala by i stč. i nč.)
zvicě: v nč. hláskově odpovídá podoba zvice
doňedž: v nč. by odpovídalo donědž
leský: v nč. stejná hlásková podoba
omračiti: v nč. odpovídá omračit
ijeden: v nč. stejná hlásková podoba
jěšutenstvie: nč. ješitenství
skonaný: v nč. stejná podoba
slavitel, krmitel: stejná podoba v nč.??
počívati: jak lematizovat do nč.??
veštek: všechny deriváty od veš lemmatizovat jako všechen
lemma okrsl? nebo okršl?
hubenstvie: lemma hubenství
podvstati: lemma podvstat (?)
skazovati: lemma skazovat
prokní: jak lemmatizovat v nč.???
sbrojě > sbroje
čúš > totiž (?)
junošě > jinoše (?)
čtrmezcietma > čtyřimezidcietma ?? (je to výchozí podoba v ESSČ opatřená o monoftongizaci)
Lemmatizace slov s přechodem k jinému flexivnímu typu
substantiva
strážě > stráž
viečce > víčko (?? nebo nechat v podobě víčce?)
jmě > jméno
hřěbí > hřebík
panošě > panoš
rámě > rameno (??? – formu rámě uvádí SSČ i Příručka, byť jako zastaralé)
vojšče > vojště (ne vojsko); též f. vojska!
markrabie, hrabie, purgrabie > markrabí, hrabí, purgrabí vs. markrabě, hrabě, purgrabě atd.
kázn > kázeň
slovesa
- jako lemmata vždy uvádět formy podle současné češtiny (tj. neuvádět starší (původní) infinitivní formy)
přisieci > přisáhnout
uvrci > uvrhnout
sžéci > sežehnout
obsiesti > obsednout
přijieti > přijmout
tvary plovúcě, poplovú lemmatizovat jako plout? (odpovídá stč. plúti, i když dnes tvary od plout zněly jinak, cca plujíce, poplují)
tvar dune lemmatizovat jako dunout? Je to stč. dunúti, dnes je tomu nejblíž sloveso dout, ale není to pravidelný přechod mezi konjug. typy.
tvary sloves typu otvracovati, opuščovati: Lemmatizovat jako odvracovat, opušťovat, nikoli jako odvracet, opouštět, protože tohle není pravidelný přechod mezi třídami typu vrci > vrhnout, navíc se to týká celého paradigmatu, ne jen jeho části
sžěliti > zželet
pohřésti> pohřbít (??)
přěbřísti> přebrodit (??)
adjektiva
cizý > cizí
vlastný > vlastní
valní > valný
Lemmatizace homonymních tvarů odpovídajících více možným lemmatům
obecný vs. obecní: homonymní nom. pl. m. (obecní): je možno lemmatizovat jako obecný nebo obecní na základě významu podle současné češtiny
břich vs. břicho: pokud není možno z pádových forem rozeznat, o jakou formu se jedná (např. břichem), jako lemma uvést tu frekventovanější (tj. břicho)
najdolejší: lemmatizovat jako dolní; stejně tak hořejší lemmatizovat jako horní
mysliti vs. mysleti: lemmatizovat jako myslet
Nepravidelné hláskové změny
- co nejvíce připodobňovat podobu současné češtině: odstraňovat vkladné vokály (sirdce > srdce); u slov, kde proběhla metateze, dávat mladší formu (inhed > ihned); doplňovat chybějící hlásky (pravedlnost > spravedlnost); u starších forem, které se vyznačují hláskovými odlišnostmi (např. skýba) upravit podle současné češtiny (tj. skýva); kvantitu rovněž upravovat podle současné češtiny
přikázaní > přikázání
usta > ústa
sirdce > srdce
nenější > nynější
anjel > anděl
zěviti > zjevit
Israhel > Izrael
zasloniti: lemma zaclonit
poprslkóv > paprsek
rosýpati > rozsypat
zečtu: případy tohoto typu řešit podle současné češtiny, tj. sečíst; stejně tak ssáti – lemmatizovat jako sát, vedle toho ssebrati jako sebrat
dens: lemmatizovat na dnes?
mhla > mlha
skýba > skýva
črtek > čertek
vytiekati > vytékat
vzučný > zvučný
hrzati > ržát
škříně > skříň
jediné > jedině
bohactvo > bohatstvo
komorničstvo > komornictvo
mezh > mezek
stlúp > sloup
malečko > maličko
korfešt > kurfiřt
ež, jež (ve fci SCONJ) > že
zmisati > zmizet
úscký > ústecký
Další problematické jevy
přichodit: lematizovat jako přijít? JZ: to bych rozhodně nedělala vzhledem k rozdílnému vidu obou sloves; nč. lemma přijít bych nechala pro stč. přijíti
JZ, 15. 3. 2024: Při snaze o přiřazení „novočeského lemmatu“ se mi jeví jako problematické, že anotované vlastnosti staročeského slova (tj. toho, které se reálně nachází v textu) a novočeského slova (tj. toho, které bylo přiřazeno jako „novočeské lemma“) se mohou lišit - např. stč. právě lze stupňovat i negovat, zatímco nč. právě nikoliv; u stč. jmenovati slovníky uvádějí pouze nedok. vid, zatímco nč. jmenovat může mít oba vidy. Nebude to matoucí? Nebylo by dobré mít kromě „novočeského lemmatu“ také staročeské (rekonstrukce k roku 1300), resp. středněčeské (rekonstrukce k roku 1500)? Nebo se s tím počítá? (Teď se omlouvám, možná nejsem úplně v obraze, co se týče konečného výsledku…)
viec ve funkci zájmenné číslovky (v komparativu): lemmatizovat jako hodně
juž: lemma již (nikoli už)
kehdyžto: lemma kdyžto
předložky s, z: lemmatizovat podle formy (včetně asimilace znělosti), nebrat v úvahu pády!
když ve funkci příslovce: lemmatizovat jako kdy? (Nebo jako když??)
věčšú, tj. komparativ adjektiva: lemmatizovat jako veliký? (Nebo jako velký??)
kolivěk: lemmatizovat jako koli (?) DZ: V novočeských datech jsou oddělená lemata slov končících na -koli a -koliv, takže -kolivěk by klidně mohlo být oddělené taky. Mně by ve skutečnosti celkem dávalo smysl, kdyby to bylo sloučené, ale pak bych to musel sloučit i v těch ostatních treebancích. (A nevím, jestli pro to autoři morfologického slovníku měli nějaký důvod, resp. pokud se sloučí tohle, tak co dalšího by se ještě mělo zvážit.)
obláščí: lemmatizovat jako obláští, nebo upravit na obzvláštní? dávám druhou možnost
tu: lemmatizovat adv. tu jako tady, nebo jako tu? DZ: Jako tu.
odtad: lemmatizovat jako odtad, nebo odtud?
velí: lemmatizovat jako velký, nebo ponechat lemma velí?
vešde > všude?
nikte > nikdo?
Problematické jevy řešené na schůzi 20. 3. 2024
úfati: lemmatizovat jako doufat, od nč. odlišit vid (PERF)
pravedlnost: lemmatizovat jako spravedlnost
všickny, všeckna: všechny deriváty od veš lemmatizovat jako všechen
takež/takož: lemmatizovat jako tak
Kráľu lemmatizovat jako král
lidé: lemma člověk; ALE lid: lemma lid
protivu (předl.): lemma proti
sám vs. samý: lemmatizovat jako sám
v > u vzniklé disimilací – lemmatizovat jako u; PrepType „voc“ (je to tak i pro 19. století)
slovesa typu uvrci vs. uvrhnout – lemmatizovat jako formu, která je známá ze současné češtiny, tj. uvrhnout; pokud se ale jedná o lexikální jednotku, která zanikla, formu hláskově či morfologicky přiblížit současné češtině, např. ješutenstvie lemmatizovat jako ješitenství
při lemmatizaci – zrušit průvodní vokály (sirdce > srdce), opravit metateze (ihned > ihned), doplnit podle nč. chybějící hlásky (pravedlnost > spravedlnost)
zečíst vs. sčíst – lemmatizovat jako nč. podobu sečíst; ssáti – lemmatizovat jako sát, vedle toho ssebrati jako sebrat
břich vs. břicho – pokud není poznat z pádové formy, o jaký tvar se jedná, dát tam tu frekventovanější formu (tj. břicho)
slovesa typu myslit vs. myslet – lemmatizovat jako myslet
infinitivy na -ci (moci) – lemmatizovat jako moci
najdolejší – adjektiva vždy lemmatizovat v pozitivu, tj. lemma dolní; stejně tak adjektivum hořejší lemmatizovat jako horní
rok vs. let: rok lemmatizovat jako rok; let – lemmatizovat jako léto
pronominální formy typu kohož – lemmatizovat jako kdož
substantivizace adjektiv – typy „kající“, „milý“, „tři cestující nastoupili“ = vždy anotovat jako ADJ; typ „hajný“, „průvodčí“ (tj. pokud už dané adjektivum v současnosti nefunguje jako samostatné adjektivum) = NOUN
zájmena on, ona, ono – lemma on
zájmena jeho, její, jejich – lemma jeho
jmenné formy adjektiv – jako lemma uvádět vždy složenou formu, uvádět u nich vždy stupeň i pád
příčestí typu dělán – anotovat jako ADJ, vyplnit pád, rozlišit životnost
u přechodníků V PLURÁLU nerozlišovat rod, V SINGULÁRU rozlišovat podle kontextu, nikoli podle formy!!!
forma ješto – pokud bude fungovat jako zájmeno, které se k něčemu vztahuje = lemmatizovat jako jenžto, pokud se bude jednat o spojku, lemmatizovat jako ježto; pokud se jedná o zájmeno jenžto, anotovat i pád, číslo, rod; pouze v případě, že je to ve struktuře s resumptivním zájmenem, pád, číslo a rod neuvádět