AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Lemma

Lemma je reprezentativní slovníková podoba hesla, při automatickém zpracování jazyka je pak tato podoba v procesu lemmatizace přidělována každé formě v korpusu.

Přístupy k lemmatizaci se mohou v drobnostech lišit, obecně však platí, že

  • lemma každého česeského substantiva je jeho nom. sg. (tvary lesům, lesy, lesích má lemma les)
  • u adjektiv je to nom. sg. mask. (tvary chytrého, chytrou, chytrejma má lemma chytrý)
  • u sloves je to infinitiv (tvary chodil, chodíš, chodíme má lemma chodit)

Lemma jako jednotka vzniká abstrakcí morfologických vlastností slovního tvaru (označovaného jako word nebo forma), představuje tedy množinu forem se stejným kořenem lišící se pouze morfologickými afixy, příp. pravopisnou variantou. V některých koncepcích se pak k lemmatu řadí i vybrané varianty slovotvorné.

Vztah lemmatu a lexému

V určitých aspektech je lemma analogické lexému s tím rozdílem, že lemma je zatím vždy jednoslovná jednotka a ve většině korpusů koresponduje s výskytem slovního tvaru v poměru 1:1. V každém korpusu je tedy inventář lemmat menší než inventář slovních tvarů (např. ve stomilionovém korpusu SYN2010 najdeme 1,7 mil. různých slovních tvarů, ale jenom 786 tis. různých lemmat)

Vztah lemmatu a významu

Lemma by mělo být základním nositelem lexikálního významu jednotky. Na základě lemmatu jsou proto sestavovány korpusově založené slovníky. Vedle toho se ovšem stále více akcentuje přístup, který poukazuje na fakt, že význam je úzce spjat s morfologicky vymezeným tvarem, a že lemma je tak přílišnou abstrakcí zanedbávající důležité sémantické distinkce mezi tvary (srov. význam lemmatu nerv a význam tvarů nerv, který se užívá zejména v kontextu anatomického popisu, a nervy, který je typický svými kolokacemi leze na nervy, mít nervy na dranc apod.).

Lemmatizace

Jako součást obv. automatické morfologické (vč. slovnědruhové) ↑anotace je l. přiřazení ↑lemmatu jednomu slovnímu tvaru (příp. skupině slovních tvarů) v textu, který je obv. částí ↑korpusu. L. je typicky součástí procesu ↑disambiguace (zjednoznačnění) slovních tvarů v textu na základě kontextu. L. je jednoduchá nekontextová, patří-li lemmatizovaný slovní tvar k paradigmatu jediného ↑lexému, např. slovesnému tvaru vytvoříme bude přiřazeno lemma vytvořit jakožto reprezentativní podoba příslušného slovesného lexému bez ohledu na kontext. Automatická l. je nesnadná, je-li lemmatizovaný slovní tvar homonymní, tj. patří-li k paradigmatům více lexémů: např. tvar zvířenou náleží jednak paradigmatu adjektivního lexému zvířený, jednak paradigmatu substantivního lexému zvířena. V tomto případě se v procesu l. na základě kontextu rozhodne, které z potenciálních lemmat se danému tvaru přiřadí. U lexikálních homonym, jejichž morfologické paradigma je totožné, se někdy při l. rozlišuje mezi jednotlivými lexikálními významy homonyma, např. travička_1 vs. travička_2. Velkým lingvistickým i počítačovým problémem je l. víceslovných spojení. Jiným neřešeným problémem při automatické lemmatizaci je l. všech tvarů pod jediné lemma i tam, kde to není patřičné: ne všechny tvary slov spadají pod běžné lemmata bez problému. Tak např. zdvořilá prosba o dovolení projít Dovolíte? se neodráží v žádném z registrovaných významů slova dovolit, protože není součásti výlučně morfologické l., a podobné je to u frazémů, kde nelze tvar holičkách (frazému nechat na holičkách) lemmatizovat jako holičky (tvar, který navíc vůbec neexistuje). Automatickou l. provádí počítačový program zvaný lemmatizátor, který bývá součástí morfologického ↑taggeru provádějícího morfologickou disambiguaci textu. Smyslem l. je jednak identifikovat v daném kontextu náležitý lexém u homonymních slovních tvarů, jednak umožnit uživateli pracovat nikoli jen se slovními tvary, nýbrž i s lemmaty jakožto reprezentanty příslušných lexémů a jejich paradigmat, což mu podstatně usnadňuje práci s korpusem. L. zároveň umožňuje pořizovat frekvenční údaje o jednotlivých lexémech a zjišťovat jejich distribuci. Například ve větě Na vyzvání svého předsedy jsme odešli. se jednotlivé slovní tvary lemmatizují typicky takto (v prvním sloupci je uveden slovní tvar, ve druhém jeho lemma, homonymní tvar je vyznačen tučně):