AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus SYN2020: Lemmatizace

V korpusu SYN2020 je zavedena tzv. dvojúrovňová lemmatizace: každý tvar má vedle atributu lemma přiřazen i atribut sublemma. Lemma sdružuje i více variant jednoho slova (např. lemma filozofie reprezentuje všechny tvary s kořenem filozof i filosof), sublemmata vymezují podskupiny tvarů podle této variantnosti (sublemma filozofie reprezentuje jen tvary s kořenem filozof, sublemma filosofie jen tvary s kořenem filosof). Pokud je slovo nevariantní, sublemma je totožné s lemmatem (např. lemma kniha reprezentuje stejnou množinu tvarů jako sublemma kniha).

Sublemmata však pokrývají nejen tento základní typ variantnosti, ale i další způsoby alternací. Konceptem lemmatu a sublemmatu jsou značeny níže uvedené vztahy mezi slovy (před dvojtečkou je uvedeno lemma, za dvojtečkou jeho sublemmata pokrývající uvedený vztah).

1. Sublemmata jako synonymní varianty napříč celým paradigmatem

Základní variantnost. Ortografická a/nebo hlásková alternace je platná na všech pozicích paradigmatu. Příklady:

  • ortografická variantnost, zejména ve slovech cizího původu: s/z (filozof: filozof/filosof; organismus: organismus/organizmus), o/ó (citron: citron/citrón), t/th (teolog: teolog/theolog) a další změny (camping: camping/kempink; lobbista: lobbista/lobista; tsunami: tsunami/cunami; rádio: rádio/radio; brífink: brífink/briefing aj.)
  • hlásková variantnost: ý/ej (mýdlo: mýdlo/mejdlo), í/ej/é (vylézat: vylézat/vylízat/vylejzat) a další změny (seškrábat: seškrábat/seškrabat; dolík: dolík/ďolík; přilba: přilba/přílba aj.)
  • variantnost v použití spojovníku: (email: email/e-mail; gore-tex: gore-tex/goretex);
    variantní sublemmata s alternací spojovníku jsou uvedena ve zvláštním seznamu.
  • speciálním případem jsou alternace tvarů deverbativních adjektiv: (stažený: stažený/stáhnutý);
    tato variantní sublemmata jsou uvedena ve zvláštnímu seznamu.

příklad značení (lemma citron):

pozice paradigmatu tvar sublemma lemma tag
nominativ singuláru citron citron citron NNIS1-----A----
citrón citrón citron NNIS1-----A----
genitiv singuláru citronu citron citron NNIS2-----A----
citrónu citrón citron NNIS2-----A----
atd.

Seznamy slov s s hláskovými a ortografickými změnami neuvádíme. Publikujeme však návod, jak uvedené změny dohledat v rozhraní Kontext, viz oddíl Hlásková a ortografická variantnost apelativ.

2. Sublemmata jako synonymní varianty v části paradigmatu

Sublemma zastupuje hláskovou nebo morfologickou alternaci, která je platná na pozici lemmatu a obvykle i na části dalších pozic v paradigmatu. Na pozicích, kde alternace není, se anotuje sublemma, které se rovná lemmatu:

Příklady variantních sublemmat u sloves:

  • alternace v infinitivech a minulém příčestí (myslet: myslet/myslit);
    seznam slov s touto alternací je uveden na zvláštní stránce
  • alternace v infinitivech (péci: péci/péct/píct; být: být/bejt);
    seznam slov s alternací pouze infinitivu je uveden na zvláštní stránce
  • kombinované alternace v infinitivech a dalších částech paradigmat (lít: lít/lejt;
    obléknout: obléknout/obléci/obléct/oblíknout/oblíct/vobléknout/vobléci/vobléct/voblíct);
    seznam slov s dalšími kombinacemi alternací je uveden na zvláštní stránce

[Pozn.: Archaické infinitivy na -ti nikdy netvoří sublemma, jsou tvarem pod nejbližšími sublemmaty, např. „mysliti“ je pod sublemmatem „myslit“. Viz příklad.]

Příklad značení (lemma myslet):

pozice paradigmatu tvar sublemma lemma tag
infinitiv myslet myslet myslet Vf--------A-I--
mysleti myslet myslet Vf--------A-I-2
myslit myslit myslet Vf--------A-I--
mysliti myslit myslet Vf--------A-I-2
l-ové příčestí ženského rodu myslela myslet myslet VpFS----R-AAI--
myslila myslit myslet VpFS----R-AAI--
1. osoba singuláru indikativu prézentu myslím myslet myslet VB-S---1P-AAI--

Příklady variantních sublemmat u substantiv:

  • kuchyň (kuchyně: kuchyně/kuchyň) – alternace jen v nominativu singuláru a akuzativu singuláru
  • dinosaur (dinosaurus: dinosaurus/dinosaur) – alternace jen v nominativu singuláru

příklad značení (lemma kuchyně):

pozice paradigmatu tvar sublemma lemma tag
nominativ singuláru kuchyně kuchyně kuchyně NNFS1-----A----
kuchyň kuchyň kuchyně NNFS1-----A----
akuzativ singuláru kuchyni kuchyně kuchyně NNFS4-----A----
kuchyň kuchyň kuchyně NNFS4-----A----
genitiv singuláru kuchyně kuchyně kuchyně NNFS2-----A----

Seznam těchto variantních sublemmat substantiv je uveden na zvláštní stránce.

Příklady variantních sublemmat u dalších slovních druhů:

  • von (on: on/von) – alternace u tvarů von, vona, vono;
    voni (oni: oni/voni) – alternace u tvarů voni, vony
  • sedum (sedm: sedm/sedum); osum, vosum (osm: osm/osum/vosum) – alternace u tvarů nominativu singuláru a akuzativu singuláru

[Pozn. Alternace vznikající jen na dalších pozicích paradigmatu mimo lemma (např. předložkové tvary zájmena on) nezakládají nové sublemma. Tyto varianty se liší pouze v tagu. Viz příklad.]

příklad značení (lemma on):

pozice paradigmatu tvar sublemma lemma tag
nominativ singuláru feminina ona on on PPFS1--3-------
vona von on PPFS1--3-------
genitiv singuláru feminina on on PPFS2--3-------
on on P5FS2--3-------

3. Sublemmata jako zástupci oddělených, ale úzce souvisejích paradigmat

Supletivismus a zvláštní kategorie stupňování

Supletivní části paradigmat u substantiv (člověk vs. lidé), supletivní stupňování u adjektiv a adverbií (dobrý vs. lepší, dobře vs. lépe vs. líp) jsou reprezentovány zvláštními sublemmaty. K propojení paradigmat dochází v lemmatu. V rámci lemmatu adjektiv a adverbií se připojují i zvláštní tvary stupňované prefixoidem sebe- (sebedokonalejší, sebelépe, sebelíp):

  • supletivní paradigma substantiv (rok: rok/léta; člověk: člověk/lidé)
  • supletivní stupňování (dobrý: dobrý/lepší/nejlepší; dobře: dobře/lépe/líp)
  • zvláštní typ stupňování (příjemný: příjemný/sebepříjemnější)

příklad značení (lemma dobře):

pozice paradigmatu tvar sublemma lemma tag
pozitiv dobře dobře dobře Dg-------1A----
komparativ lépe lépe dobře Dg-------2A----
líp líp dobře Dg-------2A----
superlativ nejlépe lépe dobře Dg-------3A----
nejlíp líp dobře Dg-------3A----
tvar sebe- sebelépe sebelépe dobře Db-------------
sebelíp sebelíp dobře Db-------------

Seznam všech supletivních paradigmat substantiv i supletivně stupňovaných adjektiv a adverbií je uveden na zvláštní stránce.

[Pozn. V pravidelně stupňovaných paradigmatech adjektiv a adverbií se u všech stupňovaných tvarů sublemma rovná lemmatu, tj. základnímu tvaru pozitivu.)

Negace adjektiv a adverbií

Pravidelně negované tvary adjektiv a adverbií jsou reprezentovány vlastním negovaným sublemmatem a jsou lemmatizovány afirmativním tvarem:

  • negace adjektiv (bezpečný: bezpečný/nebezpečný)
  • negace adverbií (dlouho: dlouho/nedlouho)

Osamostatněné původně negativní tvary adjektiv a adverbií (např. nesporný, nevyzpytatelný, neustálý, nevybíravě, nestranně) mají vlastní lemma a v tagu mají značenou afirmaci, viz oddíl negace.

příklad značení (lemmata bezpečný, vybíravě, nevybíravě):

pozice paradigmatu tvar sublemma lemma tag
afirmativní nominativ singuláru neutra v pozitivu bezpečné bezpečný bezpečný AANS1----1A----
afirmativní nominativ singuláru neutra v komparativu bezpečnější bezpečný bezpečný AANS1----2A----
negovaný nominativ singuláru neutra v pozitivu nebezpečné nebezpečný bezpečný AANS1----1N----
negovaný nominativ singuláru neutra v komparativu nebezpečnější nebezpečný bezpečný AANS1----2N----
pozice paradigmatu tvar sublemma lemma tag
pozitiv vybíravě vybíravě vybíravě Dg-------1A----
pozitiv nevybíravě nevybíravě nevybíravě Dg-------1A----

K lemmatizaci negace všech slovních druhů více v oddílu negace.

Jmenné tvary adjektiv

Jmenné tvary adjektiv nesou vlastní sublemma (mlád), lemmatizovány jsou dlouhým tvarem adjektiva (mladý). Jako sublemma se používá tvar maskulina. Pokud je tvar maskulina neexistující nebo raritní, užívá se tvaru feminina (patrna).

  • jmenný tvar maskulinní (šťastný: šťastný/šťasten)
  • jmenný tvar femininní (patrný: patrný/patrna)

[Pozn. Obecněčeské koncovky adjektiv typu „mladej“ nezakládají vlastní sublemma. Tyto varianty se liší pouze v tagu na 15. pozici. Vlastní sublemmata ale zakládají negované varianty jmenných tvarů. Viz příklad.]

příklad značení (lemma šťastný):

pozice paradigmatu tvar sublemma lemma tag
nominativ singuláru feminina v pozitivu v dlouhém tvaru šťastná šťastný šťastný AAFS1----1A----
singulár feminina v pozitivu ve jmenném tvaru šťastna šťasten šťastný ACFS------A----
negovaný singulár feminina v pozitivu ve jmenném tvaru nešťastna nešťasten šťastný ACFS------N----
nominativ singuláru maskulina živ. v pozitivu v dlouhém tvaru šťastný šťastný šťastný AAMS1----1A----
šťastnej šťastný šťastný AAMS1----1A---6

Seznam všech sublemmat jmenných tvarů je uveden na zvláštní stránce.

4. Sublemmata jako varianty neohebných slovních druhů a zájmen

U neohebných slovních druhů a zájmen sublemmata reprezentují nejen hláskovou a ortografickou variantnost, ale i další typy variant se stejným formálním základem (teďka, teďky, teďkonc). Variantnost se týká i vokalizovaných předložek (v, ve) a zájmen, kde jsou v rámci lemmatu sdružena sublemmata s některými postfixy (kterýžto, kdož). V souladu s pojetím v bodě (3) byla do sublemmat propojena/oddělena i zájmena s některými postfixy.

Příklady:

  • hned (hned: hned/hnedka/hnedky/hnedle/hnedlinko)
  • teď (teď: teď/teďka/teďky/teďko/teďkon/teďkonc)
  • doposud (doposud: doposavad/doposavád/doposaváď/doposavaď)
  • ahoj (ahoj: ahoj/ahojka/ahojky/ahojte)
  • kvůli (kvůli: kvuli/kůli/kvůlivá/kůlivá)
  • kdokoli (kdokoli: kdokoli/kdokoliv/kdožkolivěk/kdožkoliv/kdožkoli)
  • zájmena (jenž: jenž/jenžto; kdo: kdo/kdož/kdože/ktož; který: který/kerý/kterýž/kterýžto)
  • vokalizované předložky (k: k/ke/ku)

Seznamy variantních sublemmat zvlášť neuvádíme. Každý uživatel si je ale může připravit pomocí pokročilého dotazu v rozhraní Kontext, viz návod v sekci .

5. Sublemmata jako varianty u proprií

Variantnost u proprií je řešena v závislosti na typu vlastního jména. Vyjma oblasti geografických názvů a obyvatelským jmen je značení pomocí sublemmat zaměřeno na tzv. varianty s prostupnými paradigmaty, tj. varianty, které se liší v zakončení nominativu, ale mají / mohou mít shodné tvary v dalších pádech (např. Marka může být genitiv od Marek, Mark, Marc, Marko i Marco). Homonymní tvary dostávají v takovém případě sublemma, které je rovno lemmatu. V omezené míře se pomocí sublemmat vyjadřuje variantnost hlásková a pravopisná.

Sublemmata u křestních jmen

U křestních jmen se pod jedno zvolené lemma zahrnují jednak varianty s prostupnými paradigmaty, jednak omezeně i varianty ortografické a hláskové (relevantní jsou jevy jako vokalická délka, rozdíl i/y, í/ý, s/z, zdvojování souhlásek, jen omezeně rozdíl c/k).

  • Robert (Robert: Robert/Róbert/Roberto)
  • Marek (Marek: Marek/Mark/Marc/Marco/Marko)
  • Lydie (Lydie: Lydie/Lýdie/Lydia)
  • Platón (Platón: Platón/Platon)
  • Nicoletta (Nicoletta: Nicoletta/Nicolette)

[Pozn.: Pokud jsou oba typy variantnosti v konfliktu, dává se přednost variantám s prostupnými paradigmaty (tj. např. Daniella: Daniella/Danielle, nikoliv Daniela: Daniela/Daniella nebo konfliktní Daniela: Daniela/Daniella/Danielle)).]

Sublemmata u příjmení

U příjmení nejsou do jednoho lemmatu sjednocovány hláskové a ortografické varianty. Pod společné lemma se zahrnují jen varianty s prostupnými paradigmaty, a to u skloňovaných mužských slovanských příjmení se zakončeními , -i, -y, -ij, -oj (sjednocují se pod lemma s českým zakončením ) a také ženských slovanských příjmení se zakončením , -a (sjednocují se pod lemma s českým zakončením ):

  • Lykowský (Lykowský: Lykowský/Lykowski/Lykowsky)
  • Dostojevský (Dostojevský: Dostojevský/Dostojevskij)
  • Tolstý (Tolstý: Tolstý/Tolstoj)
  • Lykowská (Lykowská: Lykowská/Lykowska)

Sublemmata u geografických názvů a obyvatelských jmen

U geografických a obyvatelských jmen se pomocí lemmat a sublemmat sjednocují různé ortografické a hláskové varianty. Kritériem pro uvedení pod jedním lemmatem je (alespoň potenciálně) shodná reference označujícího a zároveň ortografická a hlásková blízkost; pomocným kritériem je shodná/blízká skloňovatelnost (nesjednocuje se tedy např. Řezno a Regensburg; tento vztah porušuje všechna kritéria vyjma shodné reference). Příklady:

  • t/th (Atény: Atény/Athény)
  • i/í (Kuřívody: Kuřívody/Kuřivody)
  • přítomnost spojovníku, v/w, j/i, elize ch (Tchaj-wan: Tchaj-wan/Tchajwan/Tchai-wan/Tchaiwan/Tchajvan/Taiwan/Tajvan/Tajwan)
  • o/ó, j/y (Kjóto: Kjóto/Kyoto/Kjótó)
  • a/á (Ázerbájdžánec: Ázerbájdžánec/Ázerbajdžánec)


» Zpět na hlavní stránku Korpus SYN2020