AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
en:pojmy:lemma [2016/12/09 10:23] – created Veronika Pojarováen:pojmy:lemma [2022/04/20 14:07] (current) – [Sublemma] David Lukeš
Line 1: Line 1:
 ====== Lemma ====== ====== Lemma ======
  
-A **lemma** is a representative dictionary form of a word, při automatickém zpracování jazyka je pak tato podoba v procesu lemmatizace přidělována každé formě v korpusu+A **lemma** is a representative dictionary form of a word, and in the proces of lemmatization during automatic language processing it is the form which is assigned to every form of the given word in the corpus
  
-Přístupy k lemmatizaci se mohou v drobnostech lišit, obecně však platí, že  +Approaches to lemmatization can differ in specific details, but it is generally the case that:  
-  * lemma každého českého substantiva je jeho **nom. sg.** (tvary //lesům, lesy, lesích// má lemma **//les//**) +  * the lemma of every Czech noun is its **nom. sg.** (the forms //lesům, lesy, lesích// have the lemma **//les//**) 
-  * u adjektiv je to **nom. sg. mask.** (tvary //chytrého, chytrou, chytrejma// má lemma **//chytrý//**) +  * for adjectives it is **nom. sg. masc.** (the forms //chytrého, chytrou, chytrejma// have the lemma **//chytrý//**) 
-  * u sloves je to **infinitiv** (tvary //chodil, chodíš, chodíme// má lemma **//chodit//**)+  * for verbs it is the **infinitive** (the forms //chodil, chodíš, chodíme// have the lemma **//chodit//**)
    
-Lemma jako jednotka vzniká abstrakcí morfologických vlastností [[pojmy:word|slovního tvaru]] (označovaného jako word nebo forma)představuje tedy množinu forem se stejným kořenem lišící se pouze morfologickými afixy, příppravopisnou variantou. V některých koncepcích se pak k lemmatu řadí i vybrané varianty slovotvorné+The lemma as a unit originates from an abstraction of a [[en:pojmy:word|word form's]] morphological characteristicsand represents a set of forms which have the same root and differ only on their respective morphological affixes or orthographic formIn some approaches, the selected morphological variants are also associated with the lemma
  
-===== Vztah lemmatu a lexému =====+===== Sublemma =====
  
-V určitých aspektech je lemma analogické lexému s tím rozdílemže lemma je zatím vždy jednoslovná jednotka ve většině korpusů koresponduje s výskytem slovního tvaru v poměru 1:1V každém korpusu je tedy počet lemmat menší než počet slovních tvarů (napřve stomilionovém korpusu SYN2010 najdeme 1,7 milrůzných slovních tvarůale jenom 786 tisrůzných lemmat)+Starting with the SYN2020 corpusCzech corpora feature two-level lemmatization: each form is given sublemma attribute in addition to the lemma attributeWhile a lemma may include multiple variants of a single word (e.g. the lemma //filozof// represents all forms with both //filozof// and //filosof// stems)sublemmas delimit subgroups of forms according to this alternation (the sublemma //filozof// represents only forms with the stem //filozof//, while the sublemma //filosof// represents only forms with the stem //filosof//)If the word has no variantsthe sublemma is identical to the lemma (e.g. the lemma //kniha// represents the same set of forms as the sublemma //kniha//).
  
-===== Vztah lemmatu významu =====+Different types of variants are handled as sublemmas (e.g. //mýdlo/mejdlo//, //okno/vokno//, //citron/citrón//, //email/e-mail//, //myslet/myslit//, //mýt/mejt//, //péci/péct/píct//, //kuchyně/kuchyň//, //antivirus/antivir//, //sedm/sedum//, //tenhle/tendle/tenle//, //ačkoli/ačkoliv//, proper names //Robert/Róbert/Roberto//, //Atény/Athény//). Sublemmas are also used to distinguish some specific groups of forms that are subsumed under one lemma (e.g. negated forms of adjectives and adverbs //černý/nečerný//, //hezky/nehezky//, short forms of adjectives //mladý/mlád//, suppletive forms //dobře/lépe/líp//, //člověk/lidé//).
  
-Lemma by mělo být základním nositelem lexikálního významu jednotky. Na základě lemmatu jsou proto sestavovány korpusově založené slovníky. Vedle toho se ovšem stále více zdůrazňuje přístup, který poukazuje na fakt, že význam je úzce spjat s morfologicky vymezeným [[pojmy:word|tvarem]] že lemma je tak přílišnou abstrakcí zanedbávající důležité sémantické distinkce mezi tvary (srov. význam lemmatu //nerv// a význam tvarů //nerv//, který se užívá zejména v kontextu anatomického popisu, a //nervy//, který je typický svými kolokacemi //leze na nervy, mít nervy na dranc// apod.).+===== The link between a lemma and lexeme =====
  
-===== Hyperlemma lemmatizace diachronních textů =====+In certain respects lemma is the same as a lexeme, differing only in the fact that the lemma is always a single word unit and in most corpora corresponds to the word form occurrences in a 1:1 ratio. Therefore in every corpus the number of lemmas is always smaller than the number of word forms (e.g. in the 100 mil. word corpus SYN2010 we find 1,7 mil. different word forms, but only 786 000 different lemmas).
  
-Přístup k lemmatizaci se může v odůvodněných případech lišit. Jedním z takových případů je zpracování [[pojmy:diachronni|diachronních]], dialektologických nebo [[pojmy:mluveny|mluvených]] korpusů, kde potřeba shlukovat slovní tvary pod jednu jednotku může být ovlivněna i jinými kritérii, než je pouze příslišnost k jednomu morfologickému paradigmatu. Vždy ovšem platí, že lemma je pouze pomůcka pro snadnější vyhledávání, nikoli popis nebo interpretace jazykových dat.+===== The relation between a lemma and meaning =====
  
-V případě diachronního korpusu [[cnk:diakorp|DIAKORP]] se proto v budoucnu počítá s lemmatizací pomocí tzv. **hyperlemmat**která uživateli korpusu umožní vyhledat všechny výskyty konkrétního lexému bez ohledu na různost jeho dobovýchpravopisných aj. podob a tvarů (například: při vyhledávání pomocí hyperlemmatu //kůň// bude možno najít i starší české podoby //kóň// a //kuoň//).+A lemma should be the basic bearer of a unit's lexical meaning. This is why corpus-based dictionaries are compiled based on lemmas. Simultaneously, there is increasingly greater emphasis is placed on an approach which points out that meaning is closely linked to a morphologically defined [[en:pojmy:word|form]], and that the lemmawith it's excessive abstraction, neglects some important semantic distinctions between forms.
  
-===== Lemmatizace =====+===== Hyperlemmas and lemmatization of diachronic texts =====
  
-Lemmatizace je součást automatické morfologické (včslovnědruhové) [[pojmy:anotace|anotace]]. Principem lemmatizace je přiřazení lemmatu jednomu slovnímu tvaru (příp. skupině slovních tvarů) v korpusu+Approaches to lemmatization can differ in selected casesOne such case is the processing of [[en:pojmy:diachronni|diachronic]], dialektological or [[en:pojmy:mluveny|spoken]] corpora, where the need to assemble word forms under one unit can be influenced by criteria other than simply falling under one morphological paradigmHowever, it is always the case that a lemma is only a tool for more accessible searching, and not for the description or interpretation of language data.
  
-Lemmatizace je typicky součástí procesu [[pojmy:desambiguace|desambiguace (zjednoznačnění)]] slovních tvarů v textu na základě kontextu. Lemmatizace je jednoduchá a nekontextová (patří-li lemmatizovaný slovní tvar k paradigmatu jediného lexému, napřslovesnému tvaru //vytvoříme// bude přiřazeno lemma //vytvořit// jakožto reprezentativní podoba příslušného slovesného lexému bez ohledu na kontext). +In the case of the diachronic corpus [[en:cnk:diakorp|DIAKORP]], lemmatization with the help of so-called **hyperlemmas** is planned in the futureThis will enable the users to find all occurrences of the given lexeme regardless of its various forms (historical and orthographic variants).
  
-Automatická lemmatizace je naopak nesnadná, je-li lemmatizovaný slovní tvar homonymní, tjpatří-li k paradigmatům více lexémůnapřtvar //zvířenou// náleží jednak paradigmatu adjektivního lexému //zvířený//, jednak paradigmatu substantivního lexému //zvířena//. V tomto případě se v procesu lemmatizace na základě kontextu rozhodnekteré z potenciálních lemmat se danému tvaru přiřadí. U lexikálních homonymjejichž morfologické paradigma je totožné, se někdy přlemmatizaci rozlišuje mezi jednotlivými lexikálními významy homonyma, např. //travička_1// vs. //travička_2//. +===== Lemmatization ===== 
 + 
 +Lemmatization is a part of the process of morphological (incl. word class) [[en:pojmy:anotace|annotation]]. The principle of lemmatization is the assignment of a lemma to one word form (or. group of word forms) in the corpus 
 + 
 +Lemmatization is typically part of the context-based [[en:pojmy:desambiguace|disambiguation]] process of word forms in a text. Lemmatization is simple and independent of context (if the lemmatized word form belongs to the paradigm of one single lexeme, e.gthe verb form //believed// will be assigned the lemma //believe// as a representative form of the verbal lexeme regardless of context) 
 + 
 +On the other handautomatized lemmatization is problematic when the lemmatized word form is homonymous, i.e. it belongs to the paradigms of more than one lexeme: e.g. the form //saw// belongs both the the paradigm of the verbal lexeme //see//, and to the paradigm of the noun lexeme //saw//. In this case the assigned lemma is decided based on context
  
 ==== Problems with lemmatization ==== ==== Problems with lemmatization ====
  
-Velkým lingvistickým i počítačovým problémem je lemmatizace víceslovných spojeníJiným neřešeným problémem při automatické lemmatizaci je lemmatizace všech tvarů pod jediné lemma i tam, kde to není patřičné: napřzdvořilá prosba o dovolení projít //Dovolíte?// se neodráží v žádném z registrovaných významů slova //dovolit//, protože není součástí výlučně morfologické lemmatizace. Podobné je to i u frazémů, kde nelze tvar //holičkách// (frazému //nechat na holičkách//) lemmatizovat jako //holičky// (tvarkterý navíc vůbec neexistuje)+One of the biggest linguistic and computational problems is the lemmatization of multiword expressionsAnother problem of automatic lemmatization which remains unsolved is the lemmatization of all forms under one lemma even in cases where it is not appropriate e.g. //Cheers!//, when no registered meaning of the word //cheer// corresponds with the pragmatic meaningbecause it does not fall under strictly morphological lemmatization
  
-==== Lemmatization process ====+==== The lemmatization process ====
  
-Automatickou lemmatizaci provádí počítačový program zvaný //lemmatizátor//, který bývá součástí morfologického [[pojmy:tag|taggeru]], provádějícího morfologickou [[pojmy:desambiguace|desambiguaci]] textuSmyslem lemmatizace je jednak identifikovat v daném kontextu náležitý lexém u homonymních slovních tvarů, jednak umožnit uživateli pracovat nikoli jen se slovními tvary, nýbrž i s lemmaty jakožto reprezentanty příslušných lexémů jejich paradigmatcož mu podstatně usnadňuje práci s korpusem+Automatic lemmatization is done by a computer program called a //lemmatizátor//, which is often part of a morphological [[en:pojmy:tag|tagger]] carrying out the [[en:pojmy:desambiguace|disambiguation]] of the textThe purpose of lemmatization is firstly to identify in given context the appropriate lexeme among homonymous word forms, and secondly to enable the user to work not only with word forms, but also lemmas as representations of the given lexemes and their paradigmsall of which facilitates work with the corpus
  
 ==== Related links ==== ==== Related links ====
  
 <WRAP round box 49%> <WRAP round box 49%>
-[[en:pojmy:anotace|Annotation]] • [[en:pojmy:desambiguace|Disambiguation]] • [[en:pojmy:tag|Tags and tagging]] • [[en:pojmy:word|Word form+[[en:pojmy:anotace|Annotation]] • [[en:pojmy:desambiguace|Disambiguation]] • [[en:pojmy:tag|Tags and tagging]] • [[en:pojmy:word|Word form]]
 </WRAP> </WRAP>