Toto je starší verze dokumentu!
Korpus SYN2020: Lemmatizace
V korpusu SYN2020 je zavedena tzv. dvojúrovňová lemmatizace: každý tvar má vedle atributu lemma přiřazen i atribut sublemma. Lemma sdružuje i více variant jednoho slova (např. lemma filozofie reprezentuje všechny tvary s kořenem filozof i filosof), sublemmata vymezují podskupiny tvarů podle této variantnosti (sublemma filozofie reprezentuje jen tvary s kořenem filozof, sublemma filosofie jen tvary s kořenem filosof). Pokud je slovo nevariantní, sublemma je totožné s lemmatem (např. lemma kniha reprezentuje stejnou množinu tvarů jako sublemma kniha).
Sublemmata však pokrývají nejen tento základní typ variantnosti, ale i další způsoby alternací. Konceptem lemmatu a sublemmatu jsou značeny níže uvedené vztahy mezi slovy (před dvojtečkou je uvedeno lemma, za dvojtečkou jeho sublemmata pokrývající uvedený vztah).
1. Sublemmata jako synonymní varianty napříč celým paradigmatem
Základní variantnost. Ortografická a/nebo hlásková alternace je platná na všech pozicích paradigmatu. Příklady:
- ortografická variantnost, zejména ve slovech cizího původu: s/z (filozof: filozof/filosof; organismus: organismus/organizmus), o/ó (citron: citron/citrón), t/th (teolog: teolog/theolog) a další změny (camping: camping/kempink; lobbista: lobbista/lobista; tsunami: tsunami/cunami; rádio: rádio/radio; brífink: brífink/briefing aj.)
- hlásková variantnost: ý/ej (mýdlo: mýdlo/mejdlo), í/ej/é (vylézat: vylézat/vylízat/vylejzat) a další změny (seškrábat: seškrábat/seškrabat; dolík: dolík/ďolík; přilba: přilba/přílba aj.)
- variantnost v použití spojovníku: (email: email/e-mail; gore-tex: gore-tex/goretex);
variantní sublemmata s alternací spojovníku jsou uvedena ve zvláštním seznamu. - speciálním případem jsou alternace tvarů deverbativních adjektiv: (stažený: stažený/stáhnutý);
tato variantní sublemmata jsou uvedena ve zvláštnímu seznamu.
příklad značení (lemma citron):
pozice paradigmatu | tvar | sublemma | lemma | tag |
---|---|---|---|---|
nominativ singuláru | citron | citron | citron | NNIS1-----A---- |
citrón | citrón | citron | NNIS1-----A---- | |
genitiv singuláru | citronu | citron | citron | NNIS2-----A---- |
citrónu | citrón | citron | NNIS2-----A---- | |
atd. |
Seznamy slov s s hláskovými a ortografickými změnami neuvádíme. Publikujeme však návod, jak uvedené změny dohledat v rozhraní Kontext, viz oddíl Hlásková a ortografická variantnost apelativ.
2. Sublemmata jako synonymní varianty v části paradigmatu
Sublemma zastupuje hláskovou nebo morfologickou alternaci, která je platná na pozici lemmatu a obvykle i na části dalších pozic v paradigmatu. Na pozicích, kde alternace není, se anotuje sublemma, které se rovná lemmatu:
Příklady variantních sublemmat u sloves:
- alternace v infinitivech a minulém příčestí (myslet: myslet/myslit);
seznam slov s touto alternací je uveden na zvláštní stránce
- alternace v infinitivech (péci: péci/péct/píct; být: být/bejt);
seznam slov s alternací pouze infinitivu je uveden na zvláštní stránce
- kombinované alternace v infinitivech a dalších částech paradigmat (lít: lít/lejt;
obléknout: obléknout/obléci/obléct/oblíknout/oblíct/vobléknout/vobléci/vobléct/voblíct);
seznam slov s dalšími kombinacemi alternací je uveden na zvláštní stránce
[Pozn.: Archaické infinitivy na -ti nikdy netvoří sublemma, jsou tvarem pod nejbližšími sublemmaty, např. „mysliti“ je pod sublemmatem „myslit“. Viz příklad.]
Příklad značení (lemma myslet):
pozice paradigmatu | tvar | sublemma | lemma | tag |
---|---|---|---|---|
infinitiv | myslet | myslet | myslet | Vf--------A-I-- |
mysleti | myslet | myslet | Vf--------A-I-2 | |
myslit | myslit | myslet | Vf--------A-I-- | |
mysliti | myslit | myslet | Vf--------A-I-2 | |
l-ové příčestí ženského rodu | myslela | myslet | myslet | VpFS----R-AAI-- |
myslila | myslit | myslet | VpFS----R-AAI-- | |
1. osoba singuláru indikativu prézentu | myslím | myslet | myslet | VB-S---1P-AAI-- |
Příklady variantních sublemmat u substantiv:
- kuchyň (kuchyně: kuchyně/kuchyň) – alternace jen v nominativu singuláru a akuzativu singuláru
- dinosaur (dinosaurus: dinosaurus/dinosaur) – alternace jen v nominativu singuláru
příklad značení (lemma kuchyně):
pozice paradigmatu | tvar | sublemma | lemma | tag |
---|---|---|---|---|
nominativ singuláru | kuchyně | kuchyně | kuchyně | NNFS1-----A---- |
kuchyň | kuchyň | kuchyně | NNFS1-----A---- | |
akuzativ singuláru | kuchyni | kuchyně | kuchyně | NNFS4-----A---- |
kuchyň | kuchyň | kuchyně | NNFS4-----A---- | |
genitiv singuláru | kuchyně | kuchyně | kuchyně | NNFS2-----A---- |
Seznam těchto variantních sublemmat substantiv je uveden na zvláštní stránce.
Příklady variantních sublemmat u dalších slovních druhů:
- von (on: on/von) – alternace u tvarů von, vona, vono;
voni (oni: oni/voni) – alternace u tvarů voni, vony - sedum (sedm: sedm/sedum); osum, vosum (osm: osm/osum/vosum) – alternace u tvarů nominativu singuláru a akuzativu singuláru
[Pozn. Alternace vznikající jen na dalších pozicích paradigmatu mimo lemma (např. předložkové tvary zájmena on) nezakládají nové sublemma. Tyto varianty se liší pouze v tagu. Viz příklad.]
příklad značení (lemma on):
pozice paradigmatu | tvar | sublemma | lemma | tag |
---|---|---|---|---|
nominativ singuláru feminina | ona | on | on | PPFS1--3------- |
vona | von | on | PPFS1--3------- | |
genitiv singuláru feminina | jí | on | on | PPFS2--3------- |
ní | on | on | P5FS2--3------- |
3. Sublemmata jako zástupci oddělených, ale úzce souvisejích paradigmat
Supletivismus a zvláštní kategorie stupňování
Supletivní části paradigmat u substantiv (člověk vs. lidé), supletivní stupňování u adjektiv a adverbií (dobrý vs. lepší, dobře vs. lépe vs. líp) jsou reprezentovány zvláštními sublemmaty. K propojení paradigmat dochází v lemmatu. V rámci lemmatu adjektiv a adverbií se připojují i zvláštní tvary stupňované prefixoidem sebe- (sebedokonalejší, sebelépe, sebelíp):
- supletivní paradigma substantiv (rok: rok/léta; člověk: člověk/lidé)
- supletivní stupňování (dobrý: dobrý/lepší/nejlepší; dobře: dobře/lépe/líp)
- zvláštní typ stupňování (příjemný: příjemný/sebepříjemnější)
příklad značení (lemma dobře):
pozice paradigmatu | tvar | sublemma | lemma | tag |
---|---|---|---|---|
pozitiv | dobře | dobře | dobře | Dg-------1A---- |
komparativ | lépe | lépe | dobře | Dg-------2A---- |
líp | líp | dobře | Dg-------2A---- | |
superlativ | nejlépe | lépe | dobře | Dg-------3A---- |
nejlíp | líp | dobře | Dg-------3A---- | |
tvar sebe- | sebelépe | sebelépe | dobře | Db------------- |
sebelíp | sebelíp | dobře | Db------------- |
Seznam všech supletivních paradigmat substantiv i supletivně stupňovaných adjektiv a adverbií je uveden na zvláštní stránce.
[Pozn. V pravidelně stupňovaných paradigmatech adjektiv a adverbií se u všech stupňovaných tvarů sublemma rovná lemmatu, tj. základnímu tvaru pozitivu.)
Negace adjektiv a adverbií
Pravidelně negované tvary adjektiv a adverbií jsou reprezentovány vlastním negovaným sublemmatem a jsou lemmatizovány afirmativním tvarem:
- negace adjektiv (bezpečný: bezpečný/nebezpečný)
- negace adverbií (dlouho: dlouho/nedlouho)
Osamostatněné původně negativní tvary adjektiv a adverbií (např. nesporný, nevyzpytatelný, neustálý, nevybíravě, nestranně) mají vlastní lemma a v tagu mají značenou afirmaci, viz oddíl negace.
příklad značení (lemmata bezpečný, vybíravě, nevybíravě):
pozice paradigmatu | tvar | sublemma | lemma | tag |
---|---|---|---|---|
afirmativní nominativ singuláru neutra v pozitivu | bezpečné | bezpečný | bezpečný | AANS1----1A---- |
afirmativní nominativ singuláru neutra v komparativu | bezpečnější | bezpečný | bezpečný | AANS1----2A---- |
negovaný nominativ singuláru neutra v pozitivu | nebezpečné | nebezpečný | bezpečný | AANS1----1N---- |
negovaný nominativ singuláru neutra v komparativu | nebezpečnější | nebezpečný | bezpečný | AANS1----2N---- |
pozice paradigmatu | tvar | sublemma | lemma | tag |
---|---|---|---|---|
pozitiv | vybíravě | vybíravě | vybíravě | Dg-------1A---- |
pozitiv | nevybíravě | nevybíravě | nevybíravě | Dg-------1A---- |
K lemmatizaci negace všech slovních druhů více v oddílu negace.
Jmenné tvary adjektiv
Jmenné tvary adjektiv nesou vlastní sublemma (mlád), lemmatizovány jsou dlouhým tvarem adjektiva (mladý). Jako sublemma se používá tvar maskulina. Pokud je tvar maskulina neexistující nebo raritní, užívá se tvaru feminina (patrna).
- jmenný tvar maskulinní (šťastný: šťastný/šťasten)
- jmenný tvar femininní (patrný: patrný/patrna)
[Pozn. Obecněčeské koncovky adjektiv typu „mladej“ nezakládají vlastní sublemma. Tyto varianty se liší pouze v tagu na 15. pozici. Vlastní sublemmata ale zakládají negované varianty jmenných tvarů. Viz příklad.]
příklad značení (lemma šťastný):
pozice paradigmatu | tvar | sublemma | lemma | tag |
---|---|---|---|---|
nominativ singuláru feminina v pozitivu v dlouhém tvaru | šťastná | šťastný | šťastný | AAFS1----1A---- |
singulár feminina v pozitivu ve jmenném tvaru | šťastna | šťasten | šťastný | ACFS------A---- |
negovaný singulár feminina v pozitivu ve jmenném tvaru | nešťastna | nešťasten | šťastný | ACFS------N---- |
nominativ singuláru maskulina živ. v pozitivu v dlouhém tvaru | šťastný | šťastný | šťastný | AAMS1----1A---- |
šťastnej | šťastný | šťastný | AAMS1----1A---6 |
Seznam všech sublemmat jmenných tvarů je uveden na zvláštní stránce.
4. Sublemmata jako varianty neohebných slovních druhů a zájmen
U neohebných slovních druhů a zájmen sublemmata reprezentují nejen hláskovou a ortografickou variantnost, ale i další typy variant se stejným formálním základem (teďka, teďky, teďkonc). Variantnost se týká i vokalizovaných předložek (v, ve) a zájmen, kde jsou v rámci lemmatu sdružena sublemmata s některými postfixy (kterýžto, kdož). V souladu s pojetím v bodě (3) byla do sublemmat propojena/oddělena i zájmena s některými postfixy.
Příklady:
- hned (hned: hned/hnedka/hnedky/hnedle/hnedlinko)
- teď (teď: teď/teďka/teďky/teďko/teďkon/teďkonc)
- doposud (doposud: doposavad/doposavád/doposaváď/doposavaď)
- ahoj (ahoj: ahoj/ahojka/ahojky/ahojte)
- kvůli (kvůli: kvuli/kůli/kvůlivá/kůlivá)
- kdokoli (kdokoli: kdokoli/kdokoliv/kdožkolivěk/kdožkoliv/kdožkoli)
- zájmena (jenž: jenž/jenžto; kdo: kdo/kdož/kdože/ktož; který: který/kerý/kterýž/kterýžto)
- vokalizované předložky (k: k/ke/ku)
Seznamy variantních sublemmat zvlášť neuvádíme. Každý uživatel si je ale může připravit pomocí pokročilého dotazu v rozhraní Kontext, viz návod v sekci .
5. Sublemmata jako varianty u proprií
Variantnost u proprií je řešena v závislosti na typu vlastního jména. Vyjma oblasti geografických názvů a obyvatelským jmen je značení pomocí sublemmat zaměřeno na tzv. varianty s prostupnými paradigmaty, tj. varianty, které se liší v zakončení nominativu, ale mají / mohou mít shodné tvary v dalších pádech (např. Marka může být genitiv od Marek, Mark, Marc, Marko i Marco). Homonymní tvary dostávají v takovém případě sublemma, které je rovno lemmatu. V omezené míře se pomocí sublemmat vyjadřuje variantnost hlásková a pravopisná.
Sublemmata u křestních jmen
U křestních jmen se pod jedno zvolené lemma zahrnují jednak varianty s prostupnými paradigmaty, jednak omezeně i varianty ortografické a hláskové (relevantní jsou jevy jako vokalická délka, rozdíl i/y, í/ý, s/z, zdvojování souhlásek, jen omezeně rozdíl c/k).
- Robert (Robert: Robert/Róbert/Roberto)
- Marek (Marek: Marek/Mark/Marc/Marco/Marko)
- Lydie (Lydie: Lydie/Lýdie/Lydia)
- Platón (Platón: Platón/Platon)
- Nicoletta (Nicoletta: Nicoletta/Nicolette)
[Pozn.: Pokud jsou oba typy variantnosti v konfliktu, dává se přednost variantám s prostupnými paradigmaty (tj. např. Daniella: Daniella/Danielle, nikoliv Daniela: Daniela/Daniella nebo konfliktní Daniela: Daniela/Daniella/Danielle)).]
Sublemmata u příjmení
U příjmení nejsou do jednoho lemmatu sjednocovány hláskové a ortografické varianty. Pod společné lemma se zahrnují jen varianty s prostupnými paradigmaty, a to u skloňovaných mužských slovanských příjmení se zakončeními -ý, -i, -y, -ij, -oj (sjednocují se pod lemma s českým zakončením -ý) a také ženských slovanských příjmení se zakončením -á, -a (sjednocují se pod lemma s českým zakončením -á):
- Lykowský (Lykowský: Lykowský/Lykowski/Lykowsky)
- Dostojevský (Dostojevský: Dostojevský/Dostojevskij)
- Tolstý (Tolstý: Tolstý/Tolstoj)
- Lykowská (Lykowská: Lykowská/Lykowska)
Sublemmata u geografických názvů a obyvatelských jmen
U geografických a obyvatelských jmen se pomocí lemmat a sublemmat sjednocují různé ortografické a hláskové varianty. Kritériem pro uvedení pod jedním lemmatem je (alespoň potenciálně) shodná reference označujícího a zároveň ortografická a hlásková blízkost; pomocným kritériem je shodná/blízká skloňovatelnost (nesjednocuje se tedy např. Řezno a Regensburg; tento vztah porušuje všechna kritéria vyjma shodné reference). Příklady:
- t/th (Atény: Atény/Athény)
- i/í (Kuřívody: Kuřívody/Kuřivody)
- přítomnost spojovníku, v/w, j/i, elize ch (Tchaj-wan: Tchaj-wan/Tchajwan/Tchai-wan/Tchaiwan/Tchajvan/Taiwan/Tajvan/Tajwan)
- o/ó, j/y (Kjóto: Kjóto/Kyoto/Kjótó)
- a/á (Ázerbájdžánec: Ázerbájdžánec/Ázerbajdžánec)