====== Problémy lemmatizace ====== Zde evidujeme problematické/nejasné případy lemmatizace tvarů ve staročeském a středněčeském etalonu. (**[[hickok:stc_strdc_ud|Základní dokumentace zde]]**.) **Nové problémy pište prosím červeně, ať máme odlišeno, co je ještě nedořešené.** ===== Lemmatizace slov nedochovaných do současné češtiny ===== obizný: lze nechat v této hláskové podobě (odpovídala by i stč. i nč.) zvicě: v nč. hláskově odpovídá podoba zvice doňedž: v nč. by odpovídalo donědž leský: v nč. stejná hlásková podoba omračiti: v nč. odpovídá omračit ijeden: v nč. stejná hlásková podoba jěšutenstvie: nč. ješitenství skonaný: v nč. stejná podoba slavitel, krmitel: stejná podoba v nč.?? počívati: //jak lematizovat do nč.??// veštek: všechny deriváty od //veš// lemmatizovat jako //všechen// lemma //okrsl//? nebo //okršl//? hubenstvie: lemma //hubenství// podvstati: lemma //podvstat// (?) skazovati: lemma //skazovat// prokní: //jak lemmatizovat v nč.???// sbrojě > sbroje čúš > totiž (?) junošě > jinoše (?) čtrmezcietma > čtyřimezidcietma ?? (je to výchozí podoba v ESSČ opatřená o monoftongizaci) ===== Lemmatizace slov s přechodem k jinému flexivnímu typu ===== ==== substantiva ==== strážě > stráž viečce > víčko (?? nebo nechat v podobě víčce?) jmě > jméno hřěbí > hřebík panošě > panoš rámě > rameno (??? – formu rámě uvádí SSČ i Příručka, byť jako zastaralé) vojšče > vojště (ne vojsko); též f. vojska! markrabie, hrabie, purgrabie > markrabí, hrabí, purgrabí vs. markrabě, hrabě, purgrabě atd. kázn > kázeň ==== slovesa ==== - jako lemmata vždy uvádět formy podle současné češtiny (tj. neuvádět starší (původní) infinitivní formy) přisieci > přisáhnout uvrci > uvrhnout sžéci > sežehnout obsiesti > obsednout přijieti > přijmout tvary //plovúcě//, //poplovú// lemmatizovat jako //plout//? (odpovídá stč. //plúti//, i když dnes tvary od //plout// zněly jinak, cca //plujíce//, //poplují//) tvar //dune// lemmatizovat jako //dunout//? Je to stč. //dunúti//, dnes je tomu nejblíž sloveso //dout//, ale není to pravidelný přechod mezi konjug. typy. tvary sloves typu //otvracovati//, //opuščovati//: Lemmatizovat jako //odvracovat//, //opušťovat//, nikoli jako //odvracet//, //opouštět//, protože tohle není pravidelný přechod mezi třídami typu vrci > vrhnout, navíc se to týká celého paradigmatu, ne jen jeho části sžěliti > zžel**e**t pohřésti> pohřbít (??) přěbřísti> přebrodit (??) mútiti> rmoutit (??) ==== adjektiva ==== //cizý// > //cizí// //vlastný// > //vlastní// //valní// > //valný// ===== Lemmatizace homonymních tvarů odpovídajících více možným lemmatům ===== **obecný** vs. **obecní**: homonymní nom. pl. m. (//obecní//): je možno lemmatizovat jako //obecný// nebo //obecní// na základě významu podle současné češtiny **břich** vs. **břicho**: pokud není možno z pádových forem rozeznat, o jakou formu se jedná (např. //břichem//), jako lemma uvést tu frekventovanější (tj. //břicho//) **najdolejší**: lemmatizovat jako //dolní//; stejně tak //hořejší// lemmatizovat jako //horní// **mysliti** vs. **mysleti**: lemmatizovat jako //myslet// ===== Nepravidelné hláskové změny ===== - co nejvíce připodobňovat podobu současné češtině: odstraňovat vkladné vokály (//sirdce// > //srdce//); u slov, kde proběhla metateze, dávat mladší formu (//inhed// > //ihned//); doplňovat chybějící hlásky (//pravedlnost// > //spravedlnost//); u starších forem, které se vyznačují hláskovými odlišnostmi (např. //skýba//) upravit podle současné češtiny (tj. //skýva//); kvantitu rovněž upravovat podle současné češtiny přikázaní > přikázání usta > ústa sirdce > srdce nenější > nynější anjel > anděl zěviti > zjevit Israhel > Izrael zasloniti: lemma //zaclonit// poprslkóv > paprsek rosýpati > rozsypat zečtu: případy tohoto typu řešit podle současné češtiny, tj. //sečíst//; stejně tak //ssáti// – lemmatizovat jako //sát//, vedle toho //ssebrati// jako //sebrat// dens: lemmatizovat na //dnes//? mhla > mlha skýba > skýva črtek > čertek vytiekati > vytékat vzučný > zvučný hrzati > ržát škříně > skříň jediné > jedině bohactvo > bohatstvo komorničstvo > komornictvo mezh > mezek stlúp > sloup malečko > maličko korfešt > kurfiřt ež, jež (ve fci SCONJ) > že zmisati > zmizet úscký > ústecký ====== Další problematické jevy ====== přichodit: lematizovat jako přijít? JZ: to bych rozhodně nedělala vzhledem k rozdílnému vidu obou sloves; nč. lemma přijít bych nechala pro stč. přijíti JZ, 15. 3. 2024: Při snaze o přiřazení „novočeského lemmatu“ se mi jeví jako problematické, že anotované vlastnosti staročeského slova (tj. toho, které se reálně nachází v textu) a novočeského slova (tj. toho, které bylo přiřazeno jako „novočeské lemma“) se mohou lišit - např. stč. právě lze stupňovat i negovat, zatímco nč. právě nikoliv; u stč. jmenovati slovníky uvádějí pouze nedok. vid, zatímco nč. jmenovat může mít oba vidy. Nebude to matoucí? Nebylo by dobré mít kromě „novočeského lemmatu“ také staročeské (rekonstrukce k roku 1300), resp. středněčeské (rekonstrukce k roku 1500)? Nebo se s tím počítá? (Teď se omlouvám, možná nejsem úplně v obraze, co se týče konečného výsledku…) **//viec//** ve funkci zájmenné číslovky (v komparativu): lemmatizovat jako //hodně// **//juž//**: lemma //již// (nikoli //už//) **//kehdyžto//**: lemma //kdyžto// **předložky //s//, //z//**: lemmatizovat podle formy (včetně asimilace znělosti), nebrat v úvahu pády! **//když// ve funkci příslovce**: lemmatizovat jako //kdy//? (Nebo jako //když//??) **//věčšú//, tj. komparativ adjektiva**: lemmatizovat jako //veliký//? (Nebo jako //velký//??) **//kolivěk//**: lemmatizovat jako //koli// (?) DZ: V novočeských datech jsou oddělená lemata slov končících na //-koli// a //-koliv//, takže //-kolivěk// by klidně mohlo být oddělené taky. Mně by ve skutečnosti celkem dávalo smysl, kdyby to bylo sloučené, ale pak bych to musel sloučit i v těch ostatních treebancích. (A nevím, jestli pro to autoři morfologického slovníku měli nějaký důvod, resp. pokud se sloučí tohle, tak co dalšího by se ještě mělo zvážit.) **//obláščí//**: lemmatizovat jako //obláští//, nebo upravit na //obzvláštní//? dávám druhou možnost **//tu//**: lemmatizovat adv. //tu// jako //tady//, nebo jako //tu//? DZ: Jako //tu//. **//odtad//**: lemmatizovat jako //odtad//, nebo //odtud//? **//velí//**: lemmatizovat jako //velký//, nebo ponechat lemma //velí//? //vešde// > //všude//? //nikte// > //nikdo//? ====== Problematické jevy řešené na schůzi 20. 3. 2024 ====== //úfati//: lemmatizovat jako //doufat// //pravedlnost//: lemmatizovat jako //spravedlnost// //všickny, všeckna//: všechny deriváty od //veš// lemmatizovat jako //všechen// //takež/takož//: lemmatizovat jako //tak// //Kráľu// lemmatizovat jako //král// //lidé//: lemma //člověk//; ALE //lid//: lemma //lid// //protivu// (předl.): lemma //proti// //sám// vs. //samý//: lemmatizovat jako //sám// //v > u// vzniklé disimilací – lemmatizovat jako //u//; PrepType "voc" (je to tak i pro 19. století) slovesa typu //uvrci// vs. //uvrhnout// – lemmatizovat jako formu, která je známá ze současné češtiny, tj. //uvrhnout//; pokud se ale jedná o lexikální jednotku, která zanikla, formu hláskově či morfologicky přiblížit současné češtině, např. //ješutenstvie// lemmatizovat jako //ješitenství// při lemmatizaci – zrušit průvodní vokály (//sirdce > srdce//), opravit metateze (//ihned > ihned//), doplnit podle nč. chybějící hlásky (//pravedlnost > spravedlnost//) //zečíst// vs. //sčíst// – lemmatizovat jako nč. podobu //sečíst//; //ssáti// – lemmatizovat jako //sát//, vedle toho //ssebrati// jako //sebrat// //břich// vs. //břicho// – pokud není poznat z pádové formy, o jaký tvar se jedná, dát tam tu frekventovanější formu (tj. //břicho//) slovesa typu //myslit// vs. //myslet// – lemmatizovat jako //myslet// infinitivy na //-ci (moci)// – lemmatizovat jako //moci// //najdolejší// – adjektiva vždy lemmatizovat v pozitivu, tj. lemma //dolní//; stejně tak adjektivum //hořejší// lemmatizovat jako //horní// //rok// vs. //let//: //rok// lemmatizovat jako //rok//; //let// – lemmatizovat jako //léto// pronominální formy typu //kohož// – lemmatizovat jako //kdož// substantivizace adjektiv – typy //"kající"//, //"milý"//, //"tři cestující nastoupili"// = vždy anotovat jako ADJ; typ //"hajný"//, //"průvodčí"// (tj. pokud už dané adjektivum v současnosti nefunguje jako samostatné adjektivum) = NOUN zájmena //on, ona, ono// – lemma //on// zájmena //jeho, její, jejich// – lemma //jeho// jmenné formy adjektiv – jako lemma uvádět vždy složenou formu, uvádět u nich vždy stupeň i pád příčestí typu //dělán// – anotovat jako ADJ, vyplnit pád, rozlišit životnost u přechodníků V PLURÁLU nerozlišovat rod, V SINGULÁRU rozlišovat podle kontextu, nikoli podle formy!!! forma //ješto// – pokud bude fungovat jako zájmeno, které se k něčemu vztahuje = lemmatizovat jako //jenžto//, pokud se bude jednat o spojku, lemmatizovat jako //ježto//; pokud se jedná o zájmeno //jenžto//, anotovat i pád, číslo, rod; pouze v případě, že je to ve struktuře s resumptivním zájmenem, pád, číslo a rod neuvádět