V korpusu SYN2020 je zavedena tzv. dvojúrovňová lemmatizace: každý tvar má vedle atributu lemma přiřazen i atribut sublemma. Lemma sdružuje i více variant jednoho slova (např. lemma filozofie reprezentuje všechny tvary s kořenem filozof i filosof), sublemmata vymezují podskupiny tvarů podle této variantnosti (sublemma filozofie reprezentuje jen tvary s kořenem filozof, sublemma filosofie jen tvary s kořenem filosof). Pokud je slovo nevariantní, sublemma je totožné s lemmatem (např. lemma kniha reprezentuje stejnou množinu tvarů jako sublemma kniha).
Sublemmata však pokrývají nejen tento základní typ variantnosti, ale i další způsoby alternací. Konceptem lemmatu a sublemmatu jsou značeny níže uvedené vztahy mezi slovy (před dvojtečkou je uvedeno lemma, za dvojtečkou jeho sublemmata pokrývající uvedený vztah).
Základní variantnost. Ortografická a/nebo hlásková alternace je platná na všech pozicích paradigmatu. Příklady:
příklad značení (lemma citron):
pozice paradigmatu | tvar | sublemma | lemma | tag |
---|---|---|---|---|
nominativ singuláru | citron | citron | citron | NNIS1-----A---- |
citrón | citrón | citron | NNIS1-----A---- | |
genitiv singuláru | citronu | citron | citron | NNIS2-----A---- |
citrónu | citrón | citron | NNIS2-----A---- | |
atd. |
Seznamy sublemmat s hláskovými a ortografickými alternacemi neuvádíme. Publikujeme však návod, jak uvedená sublemmata dohledat v rozhraní Kontext, viz oddíl Hlásková a ortografická variantnost apelativ.
Sublemma zastupuje hláskovou nebo morfologickou alternaci, která je platná na pozici lemmatu a obvykle i na části dalších pozic v paradigmatu. Na pozicích, kde alternace není, se anotuje sublemma, které se rovná lemmatu:
[Pozn.: Archaické infinitivy na -ti nikdy netvoří sublemma, jsou tvarem pod nejbližšími sublemmaty, např. „mysliti“ je pod sublemmatem „myslit“. Viz příklad.]
Příklad značení (lemma myslet):
pozice paradigmatu | tvar | sublemma | lemma | tag |
---|---|---|---|---|
infinitiv | myslet | myslet | myslet | Vf--------A-I-- |
mysleti | myslet | myslet | Vf--------A-I-2 | |
myslit | myslit | myslet | Vf--------A-I-- | |
mysliti | myslit | myslet | Vf--------A-I-2 | |
l-ové příčestí ženského rodu | myslela | myslet | myslet | VpFS----R-AAI-- |
myslila | myslit | myslet | VpFS----R-AAI-- | |
1. osoba singuláru indikativu prézentu | myslím | myslet | myslet | VB-S---1P-AAI-- |
příklad značení (lemma kuchyně):
pozice paradigmatu | tvar | sublemma | lemma | tag |
---|---|---|---|---|
nominativ singuláru | kuchyně | kuchyně | kuchyně | NNFS1-----A---- |
kuchyň | kuchyň | kuchyně | NNFS1-----A---- | |
akuzativ singuláru | kuchyni | kuchyně | kuchyně | NNFS4-----A---- |
kuchyň | kuchyň | kuchyně | NNFS4-----A---- | |
genitiv singuláru | kuchyně | kuchyně | kuchyně | NNFS2-----A---- |
Seznam těchto variantních sublemmat substantiv je uveden na zvláštní stránce.
[Pozn. Alternace vznikající jen na dalších pozicích paradigmatu mimo lemma (např. předložkové tvary zájmena on) nezakládají nové sublemma. Tyto varianty se liší pouze v tagu. Viz příklad.]
příklad značení (lemma on):
pozice paradigmatu | tvar | sublemma | lemma | tag |
---|---|---|---|---|
nominativ singuláru feminina | ona | on | on | PPFS1--3------- |
vona | von | on | PPFS1--3------- | |
genitiv singuláru feminina | jí | on | on | PPFS2--3------- |
ní | on | on | P5FS2--3------- |
Supletivní části paradigmat u substantiv (člověk vs. lidé), supletivní stupňování u adjektiv a adverbií (dobrý vs. lepší, dobře vs. lépe vs. líp) jsou reprezentovány zvláštními sublemmaty. K propojení paradigmat dochází v lemmatu. V rámci lemmatu adjektiv a adverbií se připojují i zvláštní tvary stupňované prefixoidem sebe- (sebedokonalejší, sebelépe, sebelíp):
příklad značení (lemma dobře):
pozice paradigmatu | tvar | sublemma | lemma | tag |
---|---|---|---|---|
pozitiv | dobře | dobře | dobře | Dg-------1A---- |
komparativ | lépe | lépe | dobře | Dg-------2A---- |
líp | líp | dobře | Dg-------2A---- | |
superlativ | nejlépe | lépe | dobře | Dg-------3A---- |
nejlíp | líp | dobře | Dg-------3A---- | |
tvar sebe- | sebelépe | sebelépe | dobře | Db------------- |
sebelíp | sebelíp | dobře | Db------------- |
Seznam všech supletivních paradigmat substantiv i supletivně stupňovaných adjektiv a adverbií je uveden na zvláštní stránce. Pro sublemmata se zvláštním stupňováním (sebe-) publikujeme návod, jak je dohledat, viz sekci Sublemmata zvláštního druhu stupňování.
[Pozn. V pravidelně stupňovaných paradigmatech adjektiv a adverbií se u všech stupňovaných tvarů sublemma rovná lemmatu, tj. základnímu tvaru pozitivu.)
Pravidelně negované tvary adjektiv a adverbií jsou reprezentovány vlastním negovaným sublemmatem a jsou lemmatizovány afirmativním tvarem:
Osamostatněné původně negativní tvary adjektiv a adverbií (např. nesporný, nevyzpytatelný, neustálý, nevybíravě, nestranně) mají vlastní lemma a v tagu mají značenou afirmaci, viz oddíl negace.
příklad značení (lemmata bezpečný, vybíravě, nevybíravě):
pozice paradigmatu | tvar | sublemma | lemma | tag |
---|---|---|---|---|
afirmativní nominativ singuláru neutra v pozitivu | bezpečné | bezpečný | bezpečný | AANS1----1A---- |
afirmativní nominativ singuláru neutra v komparativu | bezpečnější | bezpečný | bezpečný | AANS1----2A---- |
negovaný nominativ singuláru neutra v pozitivu | nebezpečné | nebezpečný | bezpečný | AANS1----1N---- |
negovaný nominativ singuláru neutra v komparativu | nebezpečnější | nebezpečný | bezpečný | AANS1----2N---- |
pozice paradigmatu | tvar | sublemma | lemma | tag |
---|---|---|---|---|
pozitiv | vybíravě | vybíravě | vybíravě | Dg-------1A---- |
pozitiv | nevybíravě | nevybíravě | nevybíravě | Dg-------1A---- |
K lemmatizaci negace všech slovních druhů více v oddílu negace.
Jmenné tvary adjektiv nesou vlastní sublemma (mlád), lemmatizovány jsou dlouhým tvarem adjektiva (mladý). Jako sublemma se používá tvar maskulina. Pokud je tvar maskulina neexistující nebo raritní, užívá se tvaru feminina (patrna).
[Pozn. Obecněčeské koncovky adjektiv typu „mladej“ nezakládají vlastní sublemma. Tyto varianty se liší pouze v tagu na 15. pozici. Vlastní sublemmata ale zakládají negované varianty jmenných tvarů. Viz příklad.]
příklad značení (lemma šťastný):
pozice paradigmatu | tvar | sublemma | lemma | tag |
---|---|---|---|---|
nominativ singuláru feminina v pozitivu v dlouhém tvaru | šťastná | šťastný | šťastný | AAFS1----1A---- |
singulár feminina v pozitivu ve jmenném tvaru | šťastna | šťasten | šťastný | ACFS------A---- |
negovaný singulár feminina v pozitivu ve jmenném tvaru | nešťastna | nešťasten | šťastný | ACFS------N---- |
nominativ singuláru maskulina živ. v pozitivu v dlouhém tvaru | šťastný | šťastný | šťastný | AAMS1----1A---- |
šťastnej | šťastný | šťastný | AAMS1----1A---6 |
Seznam všech sublemmat jmenných tvarů je uveden na zvláštní stránce.
U neohebných slovních druhů a zájmen sublemmata reprezentují nejen hláskovou a ortografickou variantnost, ale i další typy variant se stejným formálním základem (teďka, teďky, teďkonc). Variantnost se týká i vokalizovaných předložek (v, ve) a zájmen, kde jsou v rámci lemmatu sdružena sublemmata s některými postfixy (kterýžto, kdož). V souladu s pojetím v bodě (3) byla do sublemmat propojena/oddělena i zájmena s některými postfixy.
Příklady:
Seznamy variantních sublemmat zvlášť neuvádíme. Každý uživatel si je ale může připravit pomocí pokročilého dotazu v rozhraní Kontext, viz návod v sekci Sublemmata u neohebných slovních druhů a zájmen.
Variantnost u proprií je řešena v závislosti na typu vlastního jména. Vyjma oblasti geografických názvů a obyvatelským jmen je značení pomocí sublemmat zaměřeno na tzv. varianty s prostupnými paradigmaty, tj. varianty, které se liší v zakončení nominativu, ale mají / mohou mít shodné tvary v dalších pádech (např. Marka může být genitiv od Marek, Mark, Marc, Marko i Marco). Homonymní tvary dostávají v takovém případě sublemma, které je rovno lemmatu. V omezené míře se pomocí sublemmat vyjadřuje variantnost hlásková a pravopisná.
U křestních jmen se pod jedno zvolené lemma zahrnují jednak varianty s prostupnými paradigmaty, jednak omezeně i varianty ortografické a hláskové (relevantní jsou jevy jako vokalická délka, rozdíl i/y, í/ý, s/z, zdvojování souhlásek, jen omezeně rozdíl c/k).
[Pozn.: Pokud jsou oba typy variantnosti v konfliktu, dává se přednost variantám s prostupnými paradigmaty (tj. např. Daniella: Daniella/Danielle, nikoliv Daniela: Daniela/Daniella nebo konfliktní Daniela: Daniela/Daniella/Danielle)).]
U příjmení nejsou do jednoho lemmatu sjednocovány hláskové a ortografické varianty. Pod společné lemma se zahrnují jen varianty s prostupnými paradigmaty, a to u skloňovaných mužských slovanských příjmení se zakončeními -ý, -i, -y, -ij, -oj (sjednocují se pod lemma s českým zakončením -ý) a také ženských slovanských příjmení se zakončením -á, -a (sjednocují se pod lemma s českým zakončením -á):
U geografických a obyvatelských jmen se pomocí lemmat a sublemmat sjednocují různé ortografické a hláskové varianty. Kritériem pro uvedení pod jedním lemmatem je (alespoň potenciálně) shodná reference označujícího a zároveň ortografická a hlásková blízkost; pomocným kritériem je shodná/blízká skloňovatelnost (nesjednocuje se tedy např. Řezno a Regensburg; tento vztah porušuje všechna kritéria vyjma shodné reference). Příklady:
Seznamy variantních sublemmat u proprií neuvádíme. Publikujeme ale návod, jak sublemmata dohledat v rozhraní Kontext, viz sekci Sublemmata u proprií.