AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
en:pojmy:lemma [2016/12/09 21:15] – [Hyperlemma a lemmatizace diachronních textů] veronikapojarovaen:pojmy:lemma [2022/04/20 14:07] (current) – [Sublemma] lukes
Line 9: Line 9:
    
 The lemma as a unit originates from an abstraction of a [[en:pojmy:word|word form's]] morphological characteristics, and represents a set of forms which have the same root and differ only on their respective morphological affixes or orthographic form. In some approaches, the selected morphological variants are also associated with the lemma.  The lemma as a unit originates from an abstraction of a [[en:pojmy:word|word form's]] morphological characteristics, and represents a set of forms which have the same root and differ only on their respective morphological affixes or orthographic form. In some approaches, the selected morphological variants are also associated with the lemma. 
 +
 +===== Sublemma =====
 +
 +Starting with the SYN2020 corpus, Czech corpora feature two-level lemmatization: each form is given a sublemma attribute in addition to the lemma attribute. While a lemma may include multiple variants of a single word (e.g. the lemma //filozof// represents all forms with both //filozof// and //filosof// stems), sublemmas delimit subgroups of forms according to this alternation (the sublemma //filozof// represents only forms with the stem //filozof//, while the sublemma //filosof// represents only forms with the stem //filosof//). If the word has no variants, the sublemma is identical to the lemma (e.g. the lemma //kniha// represents the same set of forms as the sublemma //kniha//).
 +
 +Different types of variants are handled as sublemmas (e.g. //mýdlo/mejdlo//, //okno/vokno//, //citron/citrón//, //email/e-mail//, //myslet/myslit//, //mýt/mejt//, //péci/péct/píct//, //kuchyně/kuchyň//, //antivirus/antivir//, //sedm/sedum//, //tenhle/tendle/tenle//, //ačkoli/ačkoliv//, proper names //Robert/Róbert/Roberto//, //Atény/Athény//). Sublemmas are also used to distinguish some specific groups of forms that are subsumed under one lemma (e.g. negated forms of adjectives and adverbs //černý/nečerný//, //hezky/nehezky//, short forms of adjectives //mladý/mlád//, suppletive forms //dobře/lépe/líp//, //člověk/lidé//).
  
 ===== The link between a lemma and lexeme ===== ===== The link between a lemma and lexeme =====
Line 24: Line 30:
 In the case of the diachronic corpus [[en:cnk:diakorp|DIAKORP]], lemmatization with the help of so-called **hyperlemmas** is planned in the future. This will enable the users to find all occurrences of the given lexeme regardless of its various forms (historical and orthographic variants). In the case of the diachronic corpus [[en:cnk:diakorp|DIAKORP]], lemmatization with the help of so-called **hyperlemmas** is planned in the future. This will enable the users to find all occurrences of the given lexeme regardless of its various forms (historical and orthographic variants).
  
-===== Lemmatizace =====+===== Lemmatization =====
  
-Lemmatizace je součást automatické morfologické (slovnědruhové) [[pojmy:anotace|anotace]]. Principem lemmatizace je přiřazení lemmatu jednomu slovnímu tvaru (přípskupině slovních tvarův korpusu+Lemmatization is a part of the process of morphological (inclword class) [[en:pojmy:anotace|annotation]]. The principle of lemmatization is the assignment of a lemma to one word form (orgroup of word formsin the corpus
  
-Lemmatizace je typicky součástí procesu [[pojmy:desambiguace|desambiguace (zjednoznačnění)]] slovních tvarů v textu na základě kontextu. Lemmatizace je jednoduchá nekontextová (patří-li lemmatizovaný slovní tvar k paradigmatu jediného lexémunapřslovesnému tvaru //vytvoříme// bude přiřazeno lemma //vytvořit// jakožto reprezentativní podoba příslušného slovesného lexému bez ohledu na kontext). +Lemmatization is typically part of the context-based [[en:pojmy:desambiguace|disambiguation]] process of word forms in text. Lemmatization is simple and independent of context (if the lemmatized word form belongs to the paradigm of one single lexemee.gthe verb form //believed// will be assigned the lemma //believe// as a representative form of the verbal lexeme regardless of context). 
  
-Automatická lemmatizace je naopak nesnadnáje-li lemmatizovaný slovní tvar homonymnítjpatří-li k paradigmatům více lexémůnapřtvar //zvířenou// náleží jednak paradigmatu adjektivního lexému //zvířený//, jednak paradigmatu substantivního lexému //zvířena//. V tomto případě se v procesu lemmatizace na základě kontextu rozhodne, které z potenciálních lemmat se danému tvaru přiřadí. U lexikálních homonym, jejichž morfologické paradigma je totožné, se někdy při lemmatizaci rozlišuje mezi jednotlivými lexikálními významy homonyma, např. //travička_1// vs. //travička_2//+On the other handautomatized lemmatization is problematic when the lemmatized word form is homonymousi.eit belongs to the paradigms of more than one lexemee.g. the form //saw// belongs both the the paradigm of the verbal lexeme //see//, and to the paradigm of the noun lexeme //saw//. In this case the assigned lemma is decided based on context
  
 ==== Problems with lemmatization ==== ==== Problems with lemmatization ====
  
-Velkým lingvistickým i počítačovým problémem je lemmatizace víceslovných spojeníJiným neřešeným problémem při automatické lemmatizaci je lemmatizace všech tvarů pod jediné lemma i tam, kde to není patřičné: napřzdvořilá prosba o dovolení projít //Dovolíte?// se neodráží v žádném z registrovaných významů slova //dovolit//, protože není součástí výlučně morfologické lemmatizace. Podobné je to i u frazémů, kde nelze tvar //holičkách// (frazému //nechat na holičkách//) lemmatizovat jako //holičky// (tvarkterý navíc vůbec neexistuje)+One of the biggest linguistic and computational problems is the lemmatization of multiword expressionsAnother problem of automatic lemmatization which remains unsolved is the lemmatization of all forms under one lemma even in cases where it is not appropriate e.g. //Cheers!//, when no registered meaning of the word //cheer// corresponds with the pragmatic meaningbecause it does not fall under strictly morphological lemmatization
  
 ==== The lemmatization process ==== ==== The lemmatization process ====
  
-Automatickou lemmatizaci provádí počítačový program zvaný //lemmatizátor//, který bývá součástí morfologického [[pojmy:tag|taggeru]], provádějícího morfologickou [[pojmy:desambiguace|desambiguaci]] textuSmyslem lemmatizace je jednak identifikovat v daném kontextu náležitý lexém u homonymních slovních tvarů, jednak umožnit uživateli pracovat nikoli jen se slovními tvary, nýbrž i s lemmaty jakožto reprezentanty příslušných lexémů jejich paradigmatcož mu podstatně usnadňuje práci s korpusem+Automatic lemmatization is done by a computer program called a //lemmatizátor//, which is often part of a morphological [[en:pojmy:tag|tagger]] carrying out the [[en:pojmy:desambiguace|disambiguation]] of the textThe purpose of lemmatization is firstly to identify in given context the appropriate lexeme among homonymous word forms, and secondly to enable the user to work not only with word forms, but also lemmas as representations of the given lexemes and their paradigmsall of which facilitates work with the corpus
  
 ==== Related links ==== ==== Related links ====
  
 <WRAP round box 49%> <WRAP round box 49%>
-[[en:pojmy:anotace|Annotation]] • [[en:pojmy:desambiguace|Disambiguation]] • [[en:pojmy:tag|Tags and tagging]] • [[en:pojmy:word|Word form+[[en:pojmy:anotace|Annotation]] • [[en:pojmy:desambiguace|Disambiguation]] • [[en:pojmy:tag|Tags and tagging]] • [[en:pojmy:word|Word form]]
 </WRAP> </WRAP>