====== Korpus SYN2020: Lemmatizace ====== V korpusu SYN2020 je zavedena tzv. **dvojúrovňová lemmatizace**: každý tvar má vedle atributu **lemma** přiřazen i atribut **sublemma**. Lemma sdružuje i více variant jednoho slova (např. lemma //filozofie// reprezentuje všechny tvary s kořenem //filozof// i //filosof//), sublemmata vymezují podskupiny tvarů podle této variantnosti (sublemma //filozofie// reprezentuje jen tvary s kořenem //filozof//, sublemma //filosofie// jen tvary s kořenem //filosof//). Pokud je slovo nevariantní, sublemma je totožné s lemmatem (např. lemma //kniha// reprezentuje stejnou množinu tvarů jako sublemma //kniha//). Sublemmata však pokrývají nejen tento základní typ variantnosti, ale i další způsoby alternací. Konceptem lemmatu a sublemmatu jsou značeny níže uvedené vztahy mezi slovy (před dvojtečkou je uvedeno lemma, za dvojtečkou jeho sublemmata pokrývající uvedený vztah). ===== 1. Sublemmata jako synonymní varianty napříč celým paradigmatem ===== Základní variantnost. Ortografická a/nebo hlásková alternace je platná na všech pozicích paradigmatu. Příklady: * **ortografická** variantnost, zejména ve slovech cizího původu: s/z (filozof: filozof/filosof; organismus: organismus/organizmus), o/ó (citron: citron/citrón), t/th (teolog: teolog/theolog) a další změny (camping: camping/kempink; lobbista: lobbista/lobista; tsunami: tsunami/cunami; rádio: rádio/radio; brífink: brífink/briefing aj.) * **hlásková** variantnost: ý/ej (mýdlo: mýdlo/mejdlo), í/ej/é (vylézat: vylézat/vylízat/vylejzat) a další změny (seškrábat: seškrábat/seškrabat; dolík: dolík/ďolík; přilba: přilba/přílba aj.) * variantnost v použití **spojovníku**: (popmusic: popmusic/pop-music; gore-tex: gore-tex/goretex); \\ variantní sublemmata s alternací spojovníku jsou uvedena ve [[cnk:syn2020:seznamy:spojovnik_nespojovnik_sublemmata|zvláštním seznamu]]. * speciálním případem jsou alternace tvarů **deverbativních adjektiv**: (stažený: stažený/stáhnutý); \\ tato variantní sublemmata jsou uvedena ve [[cnk:syn2020:seznamy:deverbativni_adj_sublemmata|zvláštnímu seznamu]]. příklad značení (lemma //citron//): ^ pozice paradigmatu ^ tvar ^ sublemma ^ lemma ^ tag ^ | nominativ singuláru | citron | citron | citron | %%NNIS1-----A----%% | | ::: | citrón | citrón | citron | %%NNIS1-----A----%% | | genitiv singuláru | citronu | citron | citron | %%NNIS2-----A----%% | | ::: | citrónu | citrón | citron | %%NNIS2-----A----%% | | atd. ||||| Seznamy sublemmat s hláskovými a ortografickými alternacemi neuvádíme. Publikujeme však návod, jak uvedená sublemmata dohledat v rozhraní Kontext, viz oddíl [[cnk:syn2020:seznamy:pokrocily_dotaz_sublemmata#hlaskova_a_ortograficka_variantnost_apelativ|Hlásková a ortografická variantnost apelativ]]. ===== 2. Sublemmata jako synonymní varianty v části paradigmatu ===== Sublemma zastupuje hláskovou nebo morfologickou alternaci, která je platná na pozici lemmatu a obvykle i na části dalších pozic v paradigmatu. Na pozicích, kde alternace není, se anotuje sublemma, které se rovná lemmatu:\\ === Příklady variantních sublemmat u sloves: === * alternace v **infinitivech a minulém příčestí** (myslet: myslet/myslit);\\ seznam sloves s touto alternací je uveden na [[cnk:syn2020:seznamy:slovesa_castecna_paradigmata_l-ova_pricesti_sublemmata|zvláštní stránce]] * alternace v **infinitivech** (péci: péci/péct/píct; být: být/bejt);\\ seznam sloves s alternací pouze infinitivu je uveden na [[cnk:syn2020:seznamy:slovesa_castecna_paradigmata_infinitivy_sublemmata|zvláštní stránce]] * **kombinované alternace** v infinitivech a dalších částech paradigmat (lít: lít/lejt; \\ obléknout: obléknout/obléci/obléct/oblíknout/oblíct/vobléknout/vobléci/vobléct/voblíct);\\ seznam sloves s dalšími kombinacemi alternací je uveden na [[cnk:syn2020:seznamy:slovesa_castecna_paradigmata_zvlastni_sublemmata|zvláštní stránce]] [Pozn.: Archaické infinitivy na -ti nikdy netvoří sublemma, jsou tvarem pod nejbližšími sublemmaty, např. "mysliti" je pod sublemmatem "myslit". Viz příklad.] Příklad značení (lemma //myslet//): ^ pozice paradigmatu ^ tvar ^ sublemma ^ lemma ^ tag ^ | infinitiv | myslet | myslet | myslet | %%Vf--------A-I--%% | | ::: | mysleti | myslet | myslet | %%Vf--------A-I-2%% | | ::: | myslit | myslit | myslet | %%Vf--------A-I--%% | | ::: | mysliti | myslit | myslet | %%Vf--------A-I-2%% | | l-ové příčestí ženského rodu | myslela | myslet | myslet | %%VpFS----R-AAI--%% | | ::: | myslila | myslit | myslet | %%VpFS----R-AAI--%% | | 1. osoba singuláru indikativu prézentu | myslím | myslet | myslet | %%VB-S---1P-AAI--%% | === Příklady variantních sublemmat u substantiv: === * kuchyň (kuchyně: kuchyně/kuchyň) – alternace jen v nominativu singuláru a akuzativu singuláru * dinosaur (dinosaurus: dinosaurus/dinosaur) – alternace jen v nominativu singuláru příklad značení (lemma //kuchyně//): ^ pozice paradigmatu ^ tvar ^ sublemma ^ lemma ^ tag ^ | nominativ singuláru | kuchyně | kuchyně | kuchyně | %%NNFS1-----A----%% | | ::: | kuchyň | kuchyň | kuchyně | %%NNFS1-----A----%% | | akuzativ singuláru | kuchyni | kuchyně | kuchyně | %%NNFS4-----A----%% | | ::: | kuchyň | kuchyň | kuchyně | %%NNFS4-----A----%% | | genitiv singuláru | kuchyně | kuchyně | kuchyně | %%NNFS2-----A----%% | Seznam těchto variantních sublemmat substantiv je uveden na [[cnk:syn2020:seznamy:substantiva_castecna_paradigmata_sublemmata|zvláštní stránce]]. === Příklady variantních sublemmat u dalších slovních druhů: === * von (on: on/von) – alternace u tvarů von, vona, vono;\\ voni (oni: oni/voni) – alternace u tvarů voni, vony * sedum (sedm: sedm/sedum); osum, vosum (osm: osm/osum/vosum) – alternace u tvarů nominativu singuláru a akuzativu singuláru [Pozn. Alternace vznikající jen na dalších pozicích paradigmatu mimo lemma (např. předložkové tvary zájmena //on//) nezakládají nové sublemma. Tyto varianty se liší pouze v tagu. Viz příklad.] příklad značení (lemma //on//): ^ pozice paradigmatu ^ tvar ^ sublemma ^ lemma ^ tag ^ | nominativ singuláru feminina | ona | on | on | %%PPFS1--3-------%% | | ::: | vona | von | on | %%PPFS1--3-------%% | | genitiv singuláru feminina | jí | on | on | %%PPFS2--3-------%% | | ::: | ní | on | on | %%P5FS2--3-------%% | ===== 3. Sublemmata jako zástupci oddělených, ale úzce souvisejích paradigmat ===== === Supletivismus a zvláštní kategorie stupňování === Supletivní části paradigmat u substantiv (člověk vs. lidé), supletivní stupňování u adjektiv a adverbií (dobrý vs. lepší, dobře vs. lépe vs. líp) jsou reprezentovány zvláštními sublemmaty. K propojení paradigmat dochází v lemmatu. V rámci lemmatu adjektiv a adverbií se připojují i zvláštní tvary stupňované prefixoidem //sebe-// (//sebedokonalejší//, //sebelépe//, //sebelíp//): * supletivní paradigma substantiv (rok: rok/léta; člověk: člověk/lidé) * supletivní stupňování (dobrý: dobrý/lepší/nejlepší; dobře: dobře/lépe/líp) * zvláštní typ stupňování (příjemný: příjemný/sebepříjemnější) příklad značení (lemma //dobře//): ^ pozice paradigmatu ^ tvar ^ sublemma ^ lemma ^ tag ^ | pozitiv | dobře | dobře | dobře | %%Dg-------1A----%% | | komparativ | lépe | lépe | dobře | %%Dg-------2A----%% | | ::: | líp | líp | dobře | %%Dg-------2A----%% | | superlativ | nejlépe | lépe | dobře | %%Dg-------3A----%% | | ::: | nejlíp | líp | dobře | %%Dg-------3A----%% | | tvar sebe- | sebelépe | sebelépe | dobře | %%Db-------------%% | | ::: | sebelíp | sebelíp | dobře | %%Db-------------%% | Seznam všech supletivních paradigmat substantiv i supletivně stupňovaných adjektiv a adverbií je uveden na [[cnk:syn2020:seznamy:supletivismus_sublemmata|zvláštní stránce]]. Pro sublemmata se zvláštním stupňováním (sebe-) publikujeme návod, jak je dohledat, viz sekci [[cnk:syn2020:seznamy:pokrocily_dotaz_sublemmata#sublemmata_zvlastniho_druhu_stupnovani_sebe|Sublemmata zvláštního druhu stupňování]]. [Pozn. V pravidelně stupňovaných paradigmatech adjektiv a adverbií se u všech stupňovaných tvarů sublemma rovná lemmatu, tj. základnímu tvaru pozitivu.) === Negace adjektiv a adverbií === Pravidelně negované tvary adjektiv a adverbií jsou reprezentovány vlastním negovaným sublemmatem a jsou lemmatizovány afirmativním tvarem: * negace adjektiv (bezpečný: bezpečný/nebezpečný) * negace adverbií (dlouho: dlouho/nedlouho) Osamostatněné původně negativní tvary adjektiv a adverbií (např. //nesporný//, //nevyzpytatelný//, //neustálý//, //nevybíravě//, //nestranně//) mají vlastní lemma a v tagu mají značenou afirmaci, viz oddíl [[cnk:syn2020:negace|negace]]. příklad značení (lemmata //bezpečný//, //vybíravě//, //nevybíravě//): ^ pozice paradigmatu ^ tvar ^ sublemma ^ lemma ^ tag ^ | afirmativní nominativ singuláru neutra v pozitivu | bezpečné | bezpečný | bezpečný | %%AANS1----1A----%% | | afirmativní nominativ singuláru neutra v komparativu | bezpečnější | bezpečný | bezpečný | %%AANS1----2A----%% | | negovaný nominativ singuláru neutra v pozitivu | nebezpečné | nebezpečný | bezpečný | %%AANS1----1N----%% | | negovaný nominativ singuláru neutra v komparativu | nebezpečnější | nebezpečný | bezpečný | %%AANS1----2N----%% | ^ pozice paradigmatu ^ tvar ^ sublemma ^ lemma ^ tag ^ | pozitiv | vybíravě | vybíravě | vybíravě | %%Dg-------1A----%% | | pozitiv | nevybíravě | nevybíravě | nevybíravě | %%Dg-------1A----%% | K **lemmatizaci negace** všech slovních druhů více v oddílu [[cnk:syn2020:negace|negace]]. === Jmenné tvary adjektiv === Jmenné tvary adjektiv nesou vlastní sublemma (//mlád//), lemmatizovány jsou dlouhým tvarem adjektiva (//mladý//). Jako sublemma se používá tvar maskulina. Pokud je tvar maskulina neexistující nebo raritní, užívá se tvaru feminina (//patrna//). * jmenný tvar maskulinní (šťastný: šťastný/šťasten) * jmenný tvar femininní (patrný: patrný/patrna) [Pozn. Obecněčeské koncovky adjektiv typu "mladej" nezakládají vlastní sublemma. Tyto varianty se liší pouze v tagu na 15. pozici. Vlastní sublemmata ale zakládají negované varianty jmenných tvarů. Viz příklad.] příklad značení (lemma //šťastný//): ^ pozice paradigmatu ^ tvar ^ sublemma ^ lemma ^ tag ^ | nominativ singuláru feminina v pozitivu v dlouhém tvaru | šťastná | šťastný | šťastný | %%AAFS1----1A----%% | | singulár feminina v pozitivu ve jmenném tvaru | šťastna | šťasten | šťastný | %%ACFS------A----%% | | negovaný singulár feminina v pozitivu ve jmenném tvaru | nešťastna | nešťasten | šťastný | %%ACFS------N----%% | | nominativ singuláru maskulina živ. v pozitivu v dlouhém tvaru | šťastný | šťastný | šťastný | %%AAMS1----1A----%% | | ::: | šťastnej | šťastný | šťastný | %%AAMS1----1A---6%% | Seznam všech sublemmat jmenných tvarů je uveden na [[cnk:syn2020:seznamy:jmenne_tvary_sublemmata|zvláštní stránce]]. ===== 4. Sublemmata jako varianty neohebných slovních druhů a zájmen ===== U neohebných slovních druhů a zájmen sublemmata reprezentují nejen hláskovou a ortografickou variantnost, ale i další typy variant se stejným formálním základem (//teďka//, //teďky//, //teďkonc//). Variantnost se týká i vokalizovaných předložek (//v//, //ve//) a zájmen, kde jsou v rámci lemmatu sdružena sublemmata s některými postfixy (//kterýžto//, //kdož//). V souladu s pojetím v bodě (3) byla do sublemmat propojena/oddělena i zájmena s některými postfixy. Příklady: * hned (hned: hned/hnedka/hnedky/hnedle/hnedlinko) * teď (teď: teď/teďka/teďky/teďko/teďkon/teďkonc) * doposud (doposud: doposavad/doposavád/doposaváď/doposavaď) * ahoj (ahoj: ahoj/ahojka/ahojky/ahojte) * kvůli (kvůli: kvuli/kůli/kvůlivá/kůlivá) * kdokoli (kdokoli: kdokoli/kdokoliv/kdožkolivěk/kdožkoliv/kdožkoli) * zájmena (jenž: jenž/jenžto; kdo: kdo/kdož/kdože/ktož; který: který/kerý/kterýž/kterýžto) * vokalizované předložky (k: k/ke/ku) Seznamy variantních sublemmat zvlášť neuvádíme. Každý uživatel si je ale může připravit pomocí pokročilého dotazu v rozhraní Kontext, viz návod v sekci [[cnk:syn2020:seznamy:pokrocily_dotaz_sublemmata#sublemmata_u_neohebnych_slovnich_druhu_a_zajmen|Sublemmata u neohebných slovních druhů a zájmen]]. ===== 5. Sublemmata jako varianty u proprií ===== Variantnost u proprií je řešena v závislosti na typu vlastního jména. Vyjma oblasti geografických názvů a obyvatelským jmen je značení pomocí sublemmat zaměřeno na tzv. varianty s prostupnými paradigmaty, tj. varianty, které se liší v zakončení nominativu, ale mají / mohou mít shodné tvary v dalších pádech (např. //Marka// může být genitiv od //Marek//, //Mark//, //Marc//, //Marko// i //Marco//). Homonymní tvary dostávají v takovém případě sublemma, které je rovno lemmatu. V omezené míře se pomocí sublemmat vyjadřuje variantnost hlásková a pravopisná. ==== Sublemmata u křestních jmen ==== U křestních jmen se pod jedno zvolené lemma zahrnují jednak varianty s prostupnými paradigmaty, jednak omezeně i varianty ortografické a hláskové (relevantní jsou jevy jako vokalická délka, rozdíl i/y, í/ý, s/z, zdvojování souhlásek, jen omezeně rozdíl c/k). * Robert (Robert: Robert/Róbert/Roberto) * Marek (Marek: Marek/Mark/Marc/Marco/Marko) * Lydie (Lydie: Lydie/Lýdie/Lydia) * Platón (Platón: Platón/Platon) * Nicoletta (Nicoletta: Nicoletta/Nicolette) [Pozn.: Pokud jsou oba typy variantnosti v konfliktu, dává se přednost variantám s prostupnými paradigmaty (tj. např. Daniella: Daniella/Danielle, nikoliv Daniela: Daniela/Daniella nebo konfliktní Daniela: Daniela/Daniella/Danielle)).] ==== Sublemmata u příjmení ==== U příjmení nejsou do jednoho lemmatu sjednocovány hláskové a ortografické varianty. Pod společné lemma se zahrnují jen varianty s prostupnými paradigmaty, a to u skloňovaných mužských slovanských příjmení se zakončeními //-ý//, //-i//, //-y//, //-ij//, //-oj// (sjednocují se pod lemma s českým zakončením //-ý//) a také ženských slovanských příjmení se zakončením //-á//, //-a// (sjednocují se pod lemma s českým zakončením //-á//): * Lykowský (Lykowský: Lykowský/Lykowski/Lykowsky) * Dostojevský (Dostojevský: Dostojevský/Dostojevskij) * Tolstý (Tolstý: Tolstý/Tolstoj) * Lykowská (Lykowská: Lykowská/Lykowska) ==== Sublemmata u geografických názvů a obyvatelských jmen ==== U geografických a obyvatelských jmen se pomocí lemmat a sublemmat sjednocují různé ortografické a hláskové varianty. Kritériem pro uvedení pod jedním lemmatem je (alespoň potenciálně) shodná reference označujícího a zároveň ortografická a hlásková blízkost; pomocným kritériem je shodná/blízká skloňovatelnost (nesjednocuje se tedy např. //Řezno// a //Regensburg//; tento vztah porušuje všechna kritéria vyjma shodné reference). Příklady: * t/th (Atény: Atény/Athény) * i/í (Kuřívody: Kuřívody/Kuřivody) * přítomnost spojovníku, v/w, j/i, elize ch (Tchaj-wan: Tchaj-wan/Tchajwan/Tchai-wan/Tchaiwan/Tchajvan/Taiwan/Tajvan/Tajwan) * o/ó, j/y (Kjóto: Kjóto/Kyoto/Kjótó) * a/á (Ázerbájdžánec: Ázerbájdžánec/Ázerbajdžánec) \\ Seznamy variantních sublemmat u proprií neuvádíme. Publikujeme ale návod, jak sublemmata dohledat v rozhraní Kontext, viz sekci [[cnk:syn2020:seznamy:pokrocily_dotaz_sublemmata#sublemmata_u_proprii|Sublemmata u proprií]]. \\ %%%% >> [[cnk:syn2020|Zpět na hlavní stránku Korpus SYN2020]]