====== Problémy lemmatizace ======
Zde evidujeme problematické/nejasné případy lemmatizace tvarů ve staročeském a středněčeském etalonu. (**[[hickok:stc_strdc_ud|Základní dokumentace zde]]**.)
**Nové problémy pište prosím červeně, ať máme odlišeno, co je ještě nedořešené.**
===== Lemmatizace slov nedochovaných do současné češtiny =====
obizný: lze nechat v této hláskové podobě (odpovídala by i stč. i nč.)
zvicě: v nč. hláskově odpovídá podoba zvice
doňedž: v nč. by odpovídalo donědž
leský: v nč. stejná hlásková podoba
omračiti: v nč. odpovídá omračit
ijeden: v nč. stejná hlásková podoba
jěšutenstvie: nč. ješitenství
skonaný: v nč. stejná podoba
slavitel, krmitel: stejná podoba v nč.??
počívati: //jak lematizovat do nč.??//
veštek: všechny deriváty od //veš// lemmatizovat jako //všechen//
lemma //okrsl//? nebo //okršl//?
hubenstvie: lemma //hubenství//
podvstati: lemma //podvstat// (?)
skazovati: lemma //skazovat//
prokní: //jak lemmatizovat v nč.???//
sbrojě > sbroje
čúš > totiž (?)
junošě > jinoše (?)
čtrmezcietma > čtyřimezidcietma ?? (je to výchozí podoba v ESSČ opatřená o monoftongizaci)
===== Lemmatizace slov s přechodem k jinému flexivnímu typu =====
==== substantiva ====
strážě > stráž
viečce > víčko (?? nebo nechat v podobě víčce?)
jmě > jméno
hřěbí > hřebík
panošě > panoš
rámě > rameno (??? – formu rámě uvádí SSČ i Příručka, byť jako zastaralé)
vojšče > vojště (ne vojsko); též f. vojska!
markrabie, hrabie, purgrabie > markrabí, hrabí, purgrabí vs. markrabě, hrabě, purgrabě atd.
kázn > kázeň
==== slovesa ====
- jako lemmata vždy uvádět formy podle současné češtiny (tj. neuvádět starší (původní) infinitivní formy)
přisieci > přisáhnout
uvrci > uvrhnout
sžéci > sežehnout
obsiesti > obsednout
přijieti > přijmout
tvary //plovúcě//, //poplovú// lemmatizovat jako //plout//? (odpovídá stč. //plúti//, i když dnes tvary od //plout// zněly jinak, cca //plujíce//, //poplují//)
tvar //dune// lemmatizovat jako //dunout//? Je to stč. //dunúti//, dnes je tomu nejblíž sloveso //dout//, ale není to pravidelný přechod mezi konjug. typy.
tvary sloves typu //otvracovati//, //opuščovati//: Lemmatizovat jako //odvracovat//, //opušťovat//, nikoli jako //odvracet//, //opouštět//, protože tohle není pravidelný přechod mezi třídami typu vrci > vrhnout, navíc se to týká celého paradigmatu, ne jen jeho části
sžěliti > zžel**e**t
pohřésti> pohřbít (??)
přěbřísti> přebrodit (??)
mútiti> rmoutit (??)
==== adjektiva ====
//cizý// > //cizí//
//vlastný// > //vlastní//
//valní// > //valný//
===== Lemmatizace homonymních tvarů odpovídajících více možným lemmatům =====
**obecný** vs. **obecní**: homonymní nom. pl. m. (//obecní//): je možno lemmatizovat jako //obecný// nebo //obecní// na základě významu podle současné češtiny
**břich** vs. **břicho**: pokud není možno z pádových forem rozeznat, o jakou formu se jedná (např. //břichem//), jako lemma uvést tu frekventovanější (tj. //břicho//)
**najdolejší**: lemmatizovat jako //dolní//; stejně tak //hořejší// lemmatizovat jako //horní//
**mysliti** vs. **mysleti**: lemmatizovat jako //myslet//
===== Nepravidelné hláskové změny =====
- co nejvíce připodobňovat podobu současné češtině: odstraňovat vkladné vokály (//sirdce// > //srdce//); u slov, kde proběhla metateze, dávat mladší formu (//inhed// > //ihned//); doplňovat chybějící hlásky (//pravedlnost// > //spravedlnost//); u starších forem, které se vyznačují hláskovými odlišnostmi (např. //skýba//) upravit podle současné češtiny (tj. //skýva//); kvantitu rovněž upravovat podle současné češtiny
přikázaní > přikázání
usta > ústa
sirdce > srdce
nenější > nynější
anjel > anděl
zěviti > zjevit
Israhel > Izrael
zasloniti: lemma //zaclonit//
poprslkóv > paprsek
rosýpati > rozsypat
zečtu: případy tohoto typu řešit podle současné češtiny, tj. //sečíst//; stejně tak //ssáti// – lemmatizovat jako //sát//, vedle toho //ssebrati// jako //sebrat//
dens: lemmatizovat na //dnes//?
mhla > mlha
skýba > skýva
črtek > čertek
vytiekati > vytékat
vzučný > zvučný
hrzati > ržát
škříně > skříň
jediné > jedině
bohactvo > bohatstvo
komorničstvo > komornictvo
mezh > mezek
stlúp > sloup
malečko > maličko
korfešt > kurfiřt
ež, jež (ve fci SCONJ) > že
zmisati > zmizet
úscký > ústecký
====== Další problematické jevy ======
přichodit: lematizovat jako přijít? JZ: to bych rozhodně nedělala vzhledem k rozdílnému vidu obou sloves; nč. lemma přijít bych nechala pro stč. přijíti
JZ, 15. 3. 2024: Při snaze o přiřazení „novočeského lemmatu“ se mi jeví jako problematické, že anotované vlastnosti staročeského slova (tj. toho, které se reálně nachází v textu) a novočeského slova (tj. toho, které bylo přiřazeno jako „novočeské lemma“) se mohou lišit - např. stč. právě lze stupňovat i negovat, zatímco nč. právě nikoliv; u stč. jmenovati slovníky uvádějí pouze nedok. vid, zatímco nč. jmenovat může mít oba vidy. Nebude to matoucí? Nebylo by dobré mít kromě „novočeského lemmatu“ také staročeské (rekonstrukce k roku 1300), resp. středněčeské (rekonstrukce k roku 1500)? Nebo se s tím počítá? (Teď se omlouvám, možná nejsem úplně v obraze, co se týče konečného výsledku…)
**//viec//** ve funkci zájmenné číslovky (v komparativu): lemmatizovat jako //hodně//
**//juž//**: lemma //již// (nikoli //už//)
**//kehdyžto//**: lemma //kdyžto//
**předložky //s//, //z//**: lemmatizovat podle formy (včetně asimilace znělosti), nebrat v úvahu pády!
**//když// ve funkci příslovce**: lemmatizovat jako //kdy//? (Nebo jako //když//??)
**//věčšú//, tj. komparativ adjektiva**: lemmatizovat jako //veliký//? (Nebo jako //velký//??)
**//kolivěk//**: lemmatizovat jako //koli// (?) DZ: V novočeských datech jsou oddělená lemata slov končících na //-koli// a //-koliv//, takže //-kolivěk// by klidně mohlo být oddělené taky. Mně by ve skutečnosti celkem dávalo smysl, kdyby to bylo sloučené, ale pak bych to musel sloučit i v těch ostatních treebancích. (A nevím, jestli pro to autoři morfologického slovníku měli nějaký důvod, resp. pokud se sloučí tohle, tak co dalšího by se ještě mělo zvážit.)
**//obláščí//**: lemmatizovat jako //obláští//, nebo upravit na //obzvláštní//? dávám druhou možnost
**//tu//**: lemmatizovat adv. //tu// jako //tady//, nebo jako //tu//? DZ: Jako //tu//.
**//odtad//**: lemmatizovat jako //odtad//, nebo //odtud//?
**//velí//**: lemmatizovat jako //velký//, nebo ponechat lemma //velí//?
//vešde// > //všude//?
//nikte// > //nikdo//?
====== Problematické jevy řešené na schůzi 20. 3. 2024 ======
//úfati//: lemmatizovat jako //doufat//
//pravedlnost//: lemmatizovat jako //spravedlnost//
//všickny, všeckna//: všechny deriváty od //veš// lemmatizovat jako //všechen//
//takež/takož//: lemmatizovat jako //tak//
//Kráľu// lemmatizovat jako //král//
//lidé//: lemma //člověk//; ALE //lid//: lemma //lid//
//protivu// (předl.): lemma //proti//
//sám// vs. //samý//: lemmatizovat jako //sám//
//v > u// vzniklé disimilací – lemmatizovat jako //u//; PrepType "voc" (je to tak i pro 19. století)
slovesa typu //uvrci// vs. //uvrhnout// – lemmatizovat jako formu, která je známá ze současné češtiny, tj. //uvrhnout//;
pokud se ale jedná o lexikální jednotku, která zanikla, formu hláskově či morfologicky přiblížit současné češtině, např. //ješutenstvie// lemmatizovat jako //ješitenství//
při lemmatizaci – zrušit průvodní vokály (//sirdce > srdce//), opravit metateze (//ihned > ihned//), doplnit podle nč. chybějící hlásky (//pravedlnost > spravedlnost//)
//zečíst// vs. //sčíst// – lemmatizovat jako nč. podobu //sečíst//; //ssáti// – lemmatizovat jako //sát//, vedle toho //ssebrati// jako //sebrat//
//břich// vs. //břicho// – pokud není poznat z pádové formy, o jaký tvar se jedná, dát tam tu frekventovanější formu (tj. //břicho//)
slovesa typu //myslit// vs. //myslet// – lemmatizovat jako //myslet//
infinitivy na //-ci (moci)// – lemmatizovat jako //moci//
//najdolejší// – adjektiva vždy lemmatizovat v pozitivu, tj. lemma //dolní//; stejně tak adjektivum //hořejší// lemmatizovat jako //horní//
//rok// vs. //let//: //rok// lemmatizovat jako //rok//; //let// – lemmatizovat jako //léto//
pronominální formy typu //kohož// – lemmatizovat jako //kdož//
substantivizace adjektiv – typy //"kající"//, //"milý"//, //"tři cestující nastoupili"// = vždy anotovat jako ADJ; typ //"hajný"//, //"průvodčí"// (tj. pokud už dané adjektivum v současnosti nefunguje jako samostatné adjektivum) = NOUN
zájmena //on, ona, ono// – lemma //on//
zájmena //jeho, její, jejich// – lemma //jeho//
jmenné formy adjektiv – jako lemma uvádět vždy složenou formu, uvádět u nich vždy stupeň i pád
příčestí typu //dělán// – anotovat jako ADJ, vyplnit pád, rozlišit životnost
u přechodníků V PLURÁLU nerozlišovat rod, V SINGULÁRU rozlišovat podle kontextu, nikoli podle formy!!!
forma //ješto// – pokud bude fungovat jako zájmeno, které se k něčemu vztahuje = lemmatizovat jako //jenžto//, pokud se bude jednat o spojku, lemmatizovat jako //ježto//; pokud se jedná o zájmeno //jenžto//, anotovat i pád, číslo, rod; pouze v případě, že je to ve struktuře s resumptivním zájmenem, pád, číslo a rod neuvádět