AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:lemma [2013/06/10 16:48] Václav Cvrčekpojmy:lemma [2022/01/03 17:52] (aktuální) Jan Křivan
Řádek 1: Řádek 1:
 ====== Lemma ====== ====== Lemma ======
  
-Lemma je základní slovníkový tvar.+Lemma je reprezentativní slovníková podoba hesla, při automatickém zpracování jazyka je pak tato podoba v procesu lemmatizace přidělována každé formě v korpusu
  
-===== Placeholder =====+Přístupy k lemmatizaci se mohou v drobnostech lišit, obecně však platí, že  
 +  * lemma každého českého substantiva je jeho **nom. sg.** (tvary //lesům, lesy, lesích// mají lemma **//les//**) 
 +  * u adjektiv je to **nom. sg. mask. pozitiv** (tvary //chytrého, chytrou, chytrejma, nejchytřejší// mají lemma **//chytrý//**) 
 +  * u zájmen je to **nom. sg. mask.** (tvary //ta, to, ti, tomu// mají lemma **//ten//**) 
 +  * u sloves je to **infinitiv** (tvary //chodil, chodíš, chodíme// mají lemma **//chodit//**) 
 +  
 +Lemma jako jednotka vzniká abstrakcí morfologických vlastností [[pojmy:word|slovního tvaru]] (označovaného jako word nebo forma), představuje tedy množinu forem se stejným kořenem lišící se pouze morfologickými afixy, příp. pravopisnou variantou. V některých koncepcích se pak k lemmatu řadí i vybrané varianty slovotvorné. 
  
 +===== Sublemma =====
  
-Lorem ipsum dolor sit amet, consectetur adipiscing elitPraesent nunc enim, adipiscing rutrum dictum sed, fringilla sit amet nisiInteger imperdiet eleifend porta. Pellentesque a dui at elit mollis ultricies et nec mi. Nullam vel scelerisque turpis. In hac habitasse platea dictumst. Aliquam mi nequecommodo non placerat etiaculis non elitAenean imperdiet ante vitae ultrices tincidunt. Pellentesque a turpis massa. Nam arcu ipsumeuismod eget velit nec, imperdiet aliquam duiAliquam nec porta sapien. Duis varius, magna at vulputate ullamcorper, risus libero tincidunt nisi, vel venenatis tortor nulla in turpis.+Počínaje korpusem [[cnk:syn2020|SYN2020]] je lemmatizace v českých korpusech dvojúrovňová: každý tvar má vedle atributu **lemma** přiřazen i atribut **sublemma**Zatímco lemma může sdružovat i více variant jednoho slova (napřlemma //filozofie// reprezentuje všechny tvary s kořenem //filozof// i //filosof//)sublemmata vymezují podskupiny tvarů podle této variantnosti (sublemma //filozofie// reprezentuje jen tvary s kořenem //filozof//sublemma //filosofie// jen tvary s kořenem //filosof//)Pokud je slovo nevariantnísublemma je totožné s lemmatem (napřlemma //kniha// reprezentuje stejnou množinu tvarů jako sublemma //kniha//).
  
-Suspendisse ut posuere nisiFusce eget urna ornarevestibulum mauris vestibulumconvallis ligula. Cras nibh liberolacinia gravida suscipit sedcongue eu purus. Donec lectus anteconsectetur eu elit etporttitor ullamcorper urna. Maecenas facilisis enim vel leo pellentesque mattis. Nunc tincidunt faucibus dui vel pulvinar. Quisque porta imperdiet dolor aliquam condimentum. Pellentesque molestie est sed porta mollis. Aliquam sodales fermentum auguevitae auctor augue accumsan non. Quisque rhoncusurna tincidunt convallis dictumdolor diam aliquet risusquis eleifend velit augue in purus. Aliquam eu venenatis maurisnon mollis nunc. Integer tristiqueipsum in vehicula dignissimtortor nisl sagittis risusrhoncus suscipit neque felis et nullaPhasellus venenatis nulla sapien, mollis euismod augue placerat a. Pellentesque leo turpislobortis vel hendrerit sedaccumsan vel augue. Praesent imperdiet orci ut congue sollicitudin. Fusce magna dolorfacilisis vitae dictum sit ametvulputate sit amet lorem.+Jako sublemmata jsou řešeny různé typy variant (např//mýdlo/mejdlo////okno/vokno////citron/citrón////email/e-mail////myslet/myslit////mýt/mejt////péci/péct/píct////kuchyně/kuchyň////antivirus/antivir////sedm/sedum////tenhle/tendle/tenle////ačkoli/ačkoliv//propriální //Robert/Róbert/Roberto////Atény/Athény//) a jejich pomocí jsou odlišeny i některé specifické skupiny tvarůkteré jsou zahrnuty pod jedním lemmatem (napřnegované tvary u adjektiv adverbií //černý/nečerný////hezky/nehezky//jmenné tvary adjektiv //mladý/mlád//supletivní tvary //dobře/lépe/líp////člověk/lidé//).
  
-Ut eleifend, velit ut congue consectetur, mi urna facilisis lorem, in bibendum ipsum lorem eget nulla. Sed accumsan ornare neque ac vulputate. Maecenas id lorem non eros pellentesque semper. Sed accumsan lacus vitae odio molestie, dignissim accumsan orci cursus. Vestibulum urna est, porta sed dignissim rhoncus, ullamcorper eget tellus. Fusce ornare viverra nunc, eu commodo nunc lobortis semper. Class aptent taciti sociosqu ad litora torquent per conubia nostra, per inceptos himenaeos. Curabitur varius eros laoreet pellentesque dignissim. Nunc id interdum metus. Morbi eget ipsum sit amet nisl rhoncus vehicula eget in neque. Proin sed neque at magna porta scelerisque. Ut lobortis nisi imperdiet condimentum semper. Nullam in odio eget neque scelerisque cursus.+Podrobný popis dvojúrovňové lemmatizace je uveden na stránce [[cnk:syn2020:lemmatizace|lemmatizace SYN2020]].
  
-Nulla facilisi. Nullam vel turpis nec ante hendrerit aliquam vel at nibh. Nullam nec tortor et ipsum facilisis commodo. Nam condimentum mi erat, porttitor nisl tincidunt et. In hac habitasse platea dictumst. Pellentesque eget dolor purus. Quisque tempor quam vitae sodales ornare. Interdum et malesuada fames ac ante ipsum primis in faucibus. Aenean odio metus, faucibus eget pretium egestas, condimentum ac est. Sed sem ante, viverra quis libero varius, lobortis aliquam libero. Sed laoreet ligula nec nunc vehicula, in blandit enim consequat. Proin nisl leo, rutrum nec semper in, rutrum sed neque. Curabitur ornare sem at suscipit ornare.+===== Vztah lemmatu lexému =====
  
-Integer id pretium magna. Nullam urna diamtincidunt sed condimentum a, lacinia quis mauris. Aliquam pretium lectus at consectetur consequat. Donec vitae enim et turpis aliquam elementum. Phasellus sit amet augue in neque luctus mattisVivamus iaculis ut mauris ac varius. Donec pretium risus sed metus sodales, at aliquet tellus tincidunt. Maecenas et gravida urna, vehicula faucibus arcuIn condimentum vel eros ac rhoncus. Duis quis tristique massasit amet hendrerit massaAenean dictum commodo elit eu mollis. Aenean ut porta magna. Mauris sed mauris adipiscing, eleifend mauris aimperdiet enim.+V určitých aspektech je lemma analogické lexému s tím rozdílemže lemma je zatím vždy jednoslovná jednotka ve většině korpusů koresponduje s výskytem slovního tvaru v poměru 1:1V každém korpusu je tedy počet lemmat menší než počet slovních tvarů (napřve stomilionovém korpusu SYN2010 najdeme 1,7 milrůzných slovních tvarůale jenom 786 tisrůzných lemmat)
  
-Lorem ipsum dolor sit amet, consectetur adipiscing elit. Praesent nunc enim, adipiscing rutrum dictum sed, fringilla sit amet nisi. Integer imperdiet eleifend porta. Pellentesque dui at elit mollis ultricies et nec mi. Nullam vel scelerisque turpis. In hac habitasse platea dictumst. Aliquam mi neque, commodo non placerat et, iaculis non elit. Aenean imperdiet ante vitae ultrices tincidunt. Pellentesque a turpis massa. Nam arcu ipsum, euismod eget velit nec, imperdiet aliquam dui. Aliquam nec porta sapien. Duis varius, magna at vulputate ullamcorper, risus libero tincidunt nisi, vel venenatis tortor nulla in turpis.+===== Vztah lemmatu významu =====
  
-Suspendisse ut posuere nisiFusce eget urna ornare, vestibulum mauris vestibulum, convallis ligulaCras nibh liberolacinia gravida suscipit sedcongue eu purusDonec lectus anteconsectetur eu elit etporttitor ullamcorper urna. Maecenas facilisis enim vel leo pellentesque mattis. Nunc tincidunt faucibus dui vel pulvinar. Quisque porta imperdiet dolor aliquam condimentum. Pellentesque molestie est sed porta mollis. Aliquam sodales fermentum augue, vitae auctor augue accumsan non. Quisque rhoncus, urna tincidunt convallis dictum, dolor diam aliquet risus, quis eleifend velit augue in purus. Aliquam eu venenatis mauris, non mollis nunc. Integer tristique, ipsum in vehicula dignissim, tortor nisl sagittis risus, rhoncus suscipit neque felis et nulla. Phasellus venenatis nulla sapien, mollis euismod augue placerat a. Pellentesque leo turpislobortis vel hendrerit sedaccumsan vel auguePraesent imperdiet orci ut congue sollicitudin. Fusce magna dolor, facilisis vitae dictum sit amet, vulputate sit amet lorem.+Lemma by mělo být základním nositelem lexikálního významu jednotkyNa základě lemmatu jsou proto sestavovány korpusově založené slovníkyVedle toho se ovšem stále více zdůrazňuje přístupkterý poukazuje na faktže význam je úzce spjat s morfologicky vymezeným [[pojmy:word|tvarem]] a že lemma je tak přílišnou abstrakcí zanedbávající důležité sémantické distinkce mezi tvary (srovvýznam lemmatu //nerv// a význam tvarů //nerv//který se užívá zejména v kontextu anatomického popisu, a //nervy//který je typický svými kolokacemi //leze na nervymít nervy na dranc// apod.).
  
-Ut eleifend, velit ut congue consectetur, mi urna facilisis lorem, in bibendum ipsum lorem eget nulla. Sed accumsan ornare neque ac vulputate. Maecenas id lorem non eros pellentesque semper. Sed accumsan lacus vitae odio molestie, dignissim accumsan orci cursus. Vestibulum urna est, porta sed dignissim rhoncus, ullamcorper eget tellus. Fusce ornare viverra nunc, eu commodo nunc lobortis semper. Class aptent taciti sociosqu ad litora torquent per conubia nostra, per inceptos himenaeos. Curabitur varius eros laoreet pellentesque dignissim. Nunc id interdum metus. Morbi eget ipsum sit amet nisl rhoncus vehicula eget in neque. Proin sed neque at magna porta scelerisque. Ut lobortis nisi imperdiet condimentum semper. Nullam in odio eget neque scelerisque cursus.+===== Hyperlemma a lemmatizace diachronních textů =====
  
-Nulla facilisiNullam vel turpis nec ante hendrerit aliquam vel at nibh. Nullam nec tortor et ipsum facilisis commodo. Nam condimentum mi erata porttitor nisl tincidunt et. In hac habitasse platea dictumst. Pellentesque eget dolor purus. Quisque tempor quam vitae sodales ornare. Interdum et malesuada fames ac ante ipsum primis in faucibus. Aenean odio metusfaucibus eget pretium egestascondimentum ac estSed sem anteviverra quis libero variuslobortis aliquam libero. Sed laoreet ligula nec nunc vehicula, in blandit enim consequat. Proin nisl leo, rutrum nec semper in, rutrum sed neque. Curabitur ornare sem at suscipit ornare.+Přístup k lemmatizaci se může v odůvodněných případech lišitJedním z takových případů je zpracování [[pojmy:diachronni|diachronních]]dialektologických nebo [[pojmy:mluveny|mluvených]] korpusůkde potřeba shlukovat slovní tvary pod jednu jednotku může být ovlivněna i jinými kritériinež je pouze příslušnost k jednomu morfologickému paradigmatuVždy ovšem platíže lemma je pouze pomůcka pro snadnější vyhledávánínikoli popis nebo interpretace jazykových dat.
  
-Integer id pretium magnaNullam urna diamtincidunt sed condimentum alacinia quis maurisAliquam pretium lectus at consectetur consequat. Donec vitae enim et turpis aliquam elementum. Phasellus sit amet augue in neque luctus mattis. Vivamus iaculis ut mauris ac varius. Donec pretium risus sed metus sodales, at aliquet tellus tincidunt. Maecenas et gravida urna, vehicula faucibus arcu. In condimentum vel eros ac rhoncus. Duis quis tristique massa, sit amet hendrerit massa. Aenean dictum commodo elit eu mollis. Aenean ut porta magna. Mauris sed mauris adipiscing, eleifend mauris a, imperdiet enim.+V případě diachronního korpusu [[cnk:diakorp|DIAKORP]] se proto v budoucnu počítá s lemmatizací pomocí tzv**hyperlemmat**která uživateli korpusu umožní vyhledat všechny výskyty konkrétního lexému bez ohledu na různost jeho dobovýchpravopisných ajpodob tvarů (například: při vyhledávání pomocí hyperlemmatu //kůň// bude možno najít i starší české podoby //kóň// a //kuoň//).
  
-Lorem ipsum dolor sit amet, consectetur adipiscing elit. Praesent nunc enim, adipiscing rutrum dictum sed, fringilla sit amet nisi. Integer imperdiet eleifend porta. Pellentesque a dui at elit mollis ultricies et nec mi. Nullam vel scelerisque turpis. In hac habitasse platea dictumst. Aliquam mi neque, commodo non placerat et, iaculis non elit. Aenean imperdiet ante vitae ultrices tincidunt. Pellentesque a turpis massa. Nam arcu ipsum, euismod eget velit nec, imperdiet aliquam dui. Aliquam nec porta sapien. Duis varius, magna at vulputate ullamcorper, risus libero tincidunt nisi, vel venenatis tortor nulla in turpis.+===== Lemmatizace =====
  
-Suspendisse ut posuere nisiFusce eget urna ornare, vestibulum mauris vestibulum, convallis ligulaCras nibh libero, lacinia gravida suscipit sed, congue eu purusDonec lectus ante, consectetur eu elit et, porttitor ullamcorper urna. Maecenas facilisis enim vel leo pellentesque mattis. Nunc tincidunt faucibus dui vel pulvinar. Quisque porta imperdiet dolor aliquam condimentum. Pellentesque molestie est sed porta mollis. Aliquam sodales fermentum augue, vitae auctor augue accumsan non. Quisque rhoncus, urna tincidunt convallis dictum, dolor diam aliquet risus, quis eleifend velit augue in purus. Aliquam eu venenatis mauris, non mollis nunc. Integer tristique, ipsum in vehicula dignissim, tortor nisl sagittis risus, rhoncus suscipit neque felis et nulla. Phasellus venenatis nulla sapien, mollis euismod augue placerat a. Pellentesque leo turpis, lobortis vel hendrerit sed, accumsan vel augue. Praesent imperdiet orci ut congue sollicitudin. Fusce magna dolor, facilisis vitae dictum sit amet, vulputate sit amet lorem.+Lemmatizace je součást automatické morfologické (včslovnědruhové) [[pojmy:anotace|anotace]]Principem lemmatizace je přiřazení lemmatu jednomu slovnímu tvaru (přípskupině slovních tvarů) v korpusu
  
-Ut eleifend, velit ut congue consectetur, mi urna facilisis lorem, in bibendum ipsum lorem eget nullaSed accumsan ornare neque ac vulputate. Maecenas id lorem non eros pellentesque semper. Sed accumsan lacus vitae odio molestiedignissim accumsan orci cursus. Vestibulum urna est, porta sed dignissim rhoncus, ullamcorper eget tellus. Fusce ornare viverra nunc, eu commodo nunc lobortis semper. Class aptent taciti sociosqu ad litora torquent per conubia nostra, per inceptos himenaeos. Curabitur varius eros laoreet pellentesque dignissim. Nunc id interdum metus. Morbi eget ipsum sit amet nisl rhoncus vehicula eget in neque. Proin sed neque at magna porta scelerisque. Ut lobortis nisi imperdiet condimentum semperNullam in odio eget neque scelerisque cursus.+Lemmatizace je typicky součástí procesu [[pojmy:desambiguace|desambiguace (zjednoznačnění)]] slovních tvarů v textu na základě kontextuLemmatizace je jednoduchá a nekontextová (patří-li lemmatizovaný slovní tvar k paradigmatu jediného lexémunapřslovesnému tvaru //vytvoříme// bude přiřazeno lemma //vytvořit// jakožto reprezentativní podoba příslušného slovesného lexému bez ohledu na kontext)
  
-Nulla facilisiNullam vel turpis nec ante hendrerit aliquam vel at nibhNullam nec tortor et ipsum facilisis commodo. Nam condimentum mi erata porttitor nisl tincidunt etIn hac habitasse platea dictumst. Pellentesque eget dolor purus. Quisque tempor quam vitae sodales ornare. Interdum et malesuada fames ac ante ipsum primis in faucibus. Aenean odio metus, faucibus eget pretium egestascondimentum ac estSed sem anteviverra quis libero variuslobortis aliquam libero. Sed laoreet ligula nec nunc vehiculain blandit enim consequatProin nisl leo, rutrum nec semper in, rutrum sed nequeCurabitur ornare sem at suscipit ornare.+Automatická lemmatizace je naopak nesnadná, je-li lemmatizovaný slovní tvar homonymní, tjpatří-li k paradigmatům více lexémů: napřtvar //zvířenou// náleží jednak paradigmatu adjektivního lexému //zvířený//jednak paradigmatu substantivního lexému //zvířena//V tomto případě se v procesu lemmatizace na základě kontextu rozhodnekteré z potenciálních lemmat se danému tvaru přiřadíU lexikálních homonymjejichž morfologické paradigma je totožnése někdy při lemmatizaci rozlišuje mezi jednotlivými lexikálními významy homonymanapř//travička_1// vs//travička_2//
  
-Integer id pretium magna. Nullam urna diam, tincidunt sed condimentum a, lacinia quis mauris. Aliquam pretium lectus at consectetur consequat. Donec vitae enim et turpis aliquam elementum. Phasellus sit amet augue in neque luctus mattis. Vivamus iaculis ut mauris ac varius. Donec pretium risus sed metus sodales, at aliquet tellus tincidunt. Maecenas et gravida urna, vehicula faucibus arcu. In condimentum vel eros ac rhoncus. Duis quis tristique massa, sit amet hendrerit massa. Aenean dictum commodo elit eu mollis. Aenean ut porta magna. Mauris sed mauris adipiscing, eleifend mauris a, imperdiet enim.+==== Problémy lemmatizace ====
  
-====== Lemmatizace ======+Velkým lingvistickým i počítačovým problémem je lemmatizace víceslovných spojení. Jiným neřešeným problémem při automatické lemmatizaci je lemmatizace všech tvarů pod jediné lemma i tam, kde to není patřičné: např. zdvořilá prosba o dovolení projít //Dovolíte?// se neodráží v žádném z registrovaných významů slova //dovolit//, protože není součástí výlučně morfologické lemmatizace. Podobné je to i u frazémů, kde nelze tvar //holičkách// (frazému //nechat na holičkách//) lemmatizovat jako //holičky// (tvar, který navíc vůbec neexistuje). 
  
-bla bla+==== Proces lemmatizace ==== 
 + 
 +Automatickou lemmatizaci provádí počítačový program zvaný //lemmatizátor//, který bývá součástí morfologického [[pojmy:tag|taggeru]], provádějícího morfologickou [[pojmy:desambiguace|desambiguaci]] textu. Smyslem lemmatizace je jednak identifikovat v daném kontextu náležitý lexém u homonymních slovních tvarů, jednak umožnit uživateli pracovat nikoli jen se slovními tvary, nýbrž i s lemmaty jakožto reprezentanty příslušných lexémů a jejich paradigmat, což mu podstatně usnadňuje práci s korpusem.  
 + 
 +Podrobný postup celého procesu automatické anotace včetně údajů o míře úspěšnosti je popsán na příkladu korpusu [[cnk:SYN2020|SYN2020]] na stránce [[cnk:SYN2020:automaticka_anotace|automatická anotace korpusu SYN2020]]. 
 + 
 +==== Související odkazy ==== 
 + 
 +<WRAP round box 49%> 
 +[[pojmy:anotace|Anotace]] • [[pojmy:desambiguace|Desambiguace]] • [[pojmy:tag|Tagy a tagování]] • [[pojmy:word|Slovní tvar (word)]] • [[cnk:SYN2020:automaticka_anotace|Automatická anotace SYN2020]] 
 +</WRAP>