AplikaceAplikace
Nastavení

Problémy lemmatizace

Zde evidujeme problematické/nejasné případy lemmatizace tvarů ve staročeském a středněčeském etalonu. (Základní dokumentace zde.)

Nové problémy pište prosím červeně, ať máme odlišeno, co je ještě nedořešené.

Lemmatizace slov nedochovaných do současné češtiny

obizný: lze nechat v této hláskové podobě (odpovídala by i stč. i nč.)

zvicě: v nč. hláskově odpovídá podoba zvice

doňedž: v nč. by odpovídalo donědž

leský: v nč. stejná hlásková podoba

omračiti: v nč. odpovídá omračit

ijeden: v nč. stejná hlásková podoba

jěšutenstvie: nč. ješitenství

skonaný: v nč. stejná podoba

slavitel, krmitel: stejná podoba v nč.??

počívati: jak lematizovat do nč.??

veštek: všechny deriváty od veš lemmatizovat jako všechen

lemma okrsl? nebo okršl?

hubenstvie: lemma hubenství

podvstati: lemma podvstat (?)

skazovati: lemma skazovat

prokní: jak lemmatizovat v nč.???

sbrojě > sbroje

čúš > totiž (?)

junošě > jinoše (?)

čtrmezcietma > čtyřimezidcietma ?? (je to výchozí podoba v ESSČ opatřená o monoftongizaci)

Lemmatizace slov s přechodem k jinému flexivnímu typu

substantiva

strážě > stráž

viečce > víčko (?? nebo nechat v podobě víčce?)

jmě > jméno

hřěbí > hřebík

panošě > panoš

rámě > rameno (??? – formu rámě uvádí SSČ i Příručka, byť jako zastaralé)

vojšče > vojště (ne vojsko); též f. vojska!

markrabie, hrabie, purgrabie > markrabí, hrabí, purgrabí vs. markrabě, hrabě, purgrabě atd.

kázn > kázeň

slovesa

- jako lemmata vždy uvádět formy podle současné češtiny (tj. neuvádět starší (původní) infinitivní formy)

přisieci > přisáhnout

uvrci > uvrhnout

sžéci > sežehnout

obsiesti > obsednout

přijieti > přijmout

tvary plovúcě, poplovú lemmatizovat jako plout? (odpovídá stč. plúti, i když dnes tvary od plout zněly jinak, cca plujíce, poplují)

tvar dune lemmatizovat jako dunout? Je to stč. dunúti, dnes je tomu nejblíž sloveso dout, ale není to pravidelný přechod mezi konjug. typy.

tvary sloves typu otvracovati, opuščovati: Lemmatizovat jako odvracovat, opušťovat, nikoli jako odvracet, opouštět, protože tohle není pravidelný přechod mezi třídami typu vrci > vrhnout, navíc se to týká celého paradigmatu, ne jen jeho části

sžěliti > zželet

pohřésti> pohřbít (??)

přěbřísti> přebrodit (??)

adjektiva

cizý > cizí

vlastný > vlastní

valní > valný

Lemmatizace homonymních tvarů odpovídajících více možným lemmatům

obecný vs. obecní: homonymní nom. pl. m. (obecní): je možno lemmatizovat jako obecný nebo obecní na základě významu podle současné češtiny

břich vs. břicho: pokud není možno z pádových forem rozeznat, o jakou formu se jedná (např. břichem), jako lemma uvést tu frekventovanější (tj. břicho)

najdolejší: lemmatizovat jako dolní; stejně tak hořejší lemmatizovat jako horní

mysliti vs. mysleti: lemmatizovat jako myslet

Nepravidelné hláskové změny

- co nejvíce připodobňovat podobu současné češtině: odstraňovat vkladné vokály (sirdce > srdce); u slov, kde proběhla metateze, dávat mladší formu (inhed > ihned); doplňovat chybějící hlásky (pravedlnost > spravedlnost); u starších forem, které se vyznačují hláskovými odlišnostmi (např. skýba) upravit podle současné češtiny (tj. skýva); kvantitu rovněž upravovat podle současné češtiny

přikázaní > přikázání

usta > ústa

sirdce > srdce

nenější > nynější

anjel > anděl

zěviti > zjevit

Israhel > Izrael

zasloniti: lemma zaclonit

poprslkóv > paprsek

rosýpati > rozsypat

zečtu: případy tohoto typu řešit podle současné češtiny, tj. sečíst; stejně tak ssáti – lemmatizovat jako sát, vedle toho ssebrati jako sebrat

dens: lemmatizovat na dnes?

mhla > mlha

skýba > skýva

črtek > čertek

vytiekati > vytékat

vzučný > zvučný

hrzati > ržát

škříně > skříň

jediné > jedině

bohactvo > bohatstvo

komorničstvo > komornictvo

mezh > mezek

stlúp > sloup

malečko > maličko

korfešt > kurfiřt

ež, jež (ve fci SCONJ) > že

zmisati > zmizet

úscký > ústecký

Další problematické jevy

přichodit: lematizovat jako přijít? JZ: to bych rozhodně nedělala vzhledem k rozdílnému vidu obou sloves; nč. lemma přijít bych nechala pro stč. přijíti

JZ, 15. 3. 2024: Při snaze o přiřazení „novočeského lemmatu“ se mi jeví jako problematické, že anotované vlastnosti staročeského slova (tj. toho, které se reálně nachází v textu) a novočeského slova (tj. toho, které bylo přiřazeno jako „novočeské lemma“) se mohou lišit - např. stč. právě lze stupňovat i negovat, zatímco nč. právě nikoliv; u stč. jmenovati slovníky uvádějí pouze nedok. vid, zatímco nč. jmenovat může mít oba vidy. Nebude to matoucí? Nebylo by dobré mít kromě „novočeského lemmatu“ také staročeské (rekonstrukce k roku 1300), resp. středněčeské (rekonstrukce k roku 1500)? Nebo se s tím počítá? (Teď se omlouvám, možná nejsem úplně v obraze, co se týče konečného výsledku…)

viec ve funkci zájmenné číslovky (v komparativu): lemmatizovat jako hodně

juž: lemma již (nikoli )

kehdyžto: lemma kdyžto

předložky s, z: lemmatizovat podle formy (včetně asimilace znělosti), nebrat v úvahu pády!

když ve funkci příslovce: lemmatizovat jako kdy? (Nebo jako když??)

věčšú, tj. komparativ adjektiva: lemmatizovat jako veliký? (Nebo jako velký??)

kolivěk: lemmatizovat jako koli (?) DZ: V novočeských datech jsou oddělená lemata slov končících na -koli a -koliv, takže -kolivěk by klidně mohlo být oddělené taky. Mně by ve skutečnosti celkem dávalo smysl, kdyby to bylo sloučené, ale pak bych to musel sloučit i v těch ostatních treebancích. (A nevím, jestli pro to autoři morfologického slovníku měli nějaký důvod, resp. pokud se sloučí tohle, tak co dalšího by se ještě mělo zvážit.)

obláščí: lemmatizovat jako obláští, nebo upravit na obzvláštní? dávám druhou možnost

tu: lemmatizovat adv. tu jako tady, nebo jako tu? DZ: Jako tu.

odtad: lemmatizovat jako odtad, nebo odtud?

velí: lemmatizovat jako velký, nebo ponechat lemma velí?

vešde > všude?

nikte > nikdo?

Problematické jevy řešené na schůzi 20. 3. 2024

úfati: lemmatizovat jako doufat, od nč. odlišit vid (PERF)

pravedlnost: lemmatizovat jako spravedlnost

všickny, všeckna: všechny deriváty od veš lemmatizovat jako všechen

takež/takož: lemmatizovat jako tak

Kráľu lemmatizovat jako král

lidé: lemma člověk; ALE lid: lemma lid

protivu (předl.): lemma proti

sám vs. samý: lemmatizovat jako sám

v > u vzniklé disimilací – lemmatizovat jako u; PrepType „voc“ (je to tak i pro 19. století)

slovesa typu uvrci vs. uvrhnout – lemmatizovat jako formu, která je známá ze současné češtiny, tj. uvrhnout; pokud se ale jedná o lexikální jednotku, která zanikla, formu hláskově či morfologicky přiblížit současné češtině, např. ješutenstvie lemmatizovat jako ješitenství

při lemmatizaci – zrušit průvodní vokály (sirdce > srdce), opravit metateze (ihned > ihned), doplnit podle nč. chybějící hlásky (pravedlnost > spravedlnost)

zečíst vs. sčíst – lemmatizovat jako nč. podobu sečíst; ssáti – lemmatizovat jako sát, vedle toho ssebrati jako sebrat

břich vs. břicho – pokud není poznat z pádové formy, o jaký tvar se jedná, dát tam tu frekventovanější formu (tj. břicho)

slovesa typu myslit vs. myslet – lemmatizovat jako myslet

infinitivy na -ci (moci) – lemmatizovat jako moci

najdolejší – adjektiva vždy lemmatizovat v pozitivu, tj. lemma dolní; stejně tak adjektivum hořejší lemmatizovat jako horní

rok vs. let: rok lemmatizovat jako rok; let – lemmatizovat jako léto

pronominální formy typu kohož – lemmatizovat jako kdož

substantivizace adjektiv – typy „kající“, „milý“, „tři cestující nastoupili“ = vždy anotovat jako ADJ; typ „hajný“, „průvodčí“ (tj. pokud už dané adjektivum v současnosti nefunguje jako samostatné adjektivum) = NOUN

zájmena on, ona, ono – lemma on

zájmena jeho, její, jejich – lemma jeho

jmenné formy adjektiv – jako lemma uvádět vždy složenou formu, uvádět u nich vždy stupeň i pád

příčestí typu dělán – anotovat jako ADJ, vyplnit pád, rozlišit životnost

u přechodníků V PLURÁLU nerozlišovat rod, V SINGULÁRU rozlišovat podle kontextu, nikoli podle formy!!!

forma ješto – pokud bude fungovat jako zájmeno, které se k něčemu vztahuje = lemmatizovat jako jenžto, pokud se bude jednat o spojku, lemmatizovat jako ježto; pokud se jedná o zájmeno jenžto, anotovat i pád, číslo, rod; pouze v případě, že je to ve struktuře s resumptivním zájmenem, pád, číslo a rod neuvádět