AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:lemma [2013/06/18 17:55] Václav Cvrčekpojmy:lemma [2022/01/03 17:52] (aktuální) Jan Křivan
Řádek 4: Řádek 4:
  
 Přístupy k lemmatizaci se mohou v drobnostech lišit, obecně však platí, že  Přístupy k lemmatizaci se mohou v drobnostech lišit, obecně však platí, že 
-  * lemma každého česeského substantiva je jeho nom. sg. (tvary //lesům, lesy, lesích// má lemma //les//) +  * lemma každého českého substantiva je jeho **nom. sg.** (tvary //lesům, lesy, lesích// mají lemma **//les//**
-  * u adjektiv je to nom. sg. mask. (tvary //chytrého, chytrou, chytrejma// má lemma //chytrý//+  * u adjektiv je to **nom. sg. mask. pozitiv** (tvary //chytrého, chytrou, chytrejma, nejchytřejší// mají lemma **//chytrý//**) 
-  * u sloves je to infinitiv (tvary //chodil, chodíš, chodíme// má lemma //chodit//)+  * u zájmen je to **nom. sg. mask.** (tvary //ta, to, ti, tomu// mají lemma **//ten//**
 +  * u sloves je to **infinitiv** (tvary //chodil, chodíš, chodíme// mají lemma **//chodit//**)
    
 Lemma jako jednotka vzniká abstrakcí morfologických vlastností [[pojmy:word|slovního tvaru]] (označovaného jako word nebo forma), představuje tedy množinu forem se stejným kořenem lišící se pouze morfologickými afixy, příp. pravopisnou variantou. V některých koncepcích se pak k lemmatu řadí i vybrané varianty slovotvorné.  Lemma jako jednotka vzniká abstrakcí morfologických vlastností [[pojmy:word|slovního tvaru]] (označovaného jako word nebo forma), představuje tedy množinu forem se stejným kořenem lišící se pouze morfologickými afixy, příp. pravopisnou variantou. V některých koncepcích se pak k lemmatu řadí i vybrané varianty slovotvorné. 
 +
 +===== Sublemma =====
 +
 +Počínaje korpusem [[cnk:syn2020|SYN2020]] je lemmatizace v českých korpusech dvojúrovňová: každý tvar má vedle atributu **lemma** přiřazen i atribut **sublemma**. Zatímco lemma může sdružovat i více variant jednoho slova (např. lemma //filozofie// reprezentuje všechny tvary s kořenem //filozof// i //filosof//), sublemmata vymezují podskupiny tvarů podle této variantnosti (sublemma //filozofie// reprezentuje jen tvary s kořenem //filozof//, sublemma //filosofie// jen tvary s kořenem //filosof//). Pokud je slovo nevariantní, sublemma je totožné s lemmatem (např. lemma //kniha// reprezentuje stejnou množinu tvarů jako sublemma //kniha//).
 +
 +Jako sublemmata jsou řešeny různé typy variant (např. //mýdlo/mejdlo//, //okno/vokno//, //citron/citrón//, //email/e-mail//, //myslet/myslit//, //mýt/mejt//, //péci/péct/píct//, //kuchyně/kuchyň//, //antivirus/antivir//, //sedm/sedum//, //tenhle/tendle/tenle//, //ačkoli/ačkoliv//, propriální //Robert/Róbert/Roberto//, //Atény/Athény//) a jejich pomocí jsou odlišeny i některé specifické skupiny tvarů, které jsou zahrnuty pod jedním lemmatem (např. negované tvary u adjektiv a adverbií //černý/nečerný//, //hezky/nehezky//, jmenné tvary adjektiv //mladý/mlád//, supletivní tvary //dobře/lépe/líp//, //člověk/lidé//).
 +
 +Podrobný popis dvojúrovňové lemmatizace je uveden na stránce [[cnk:syn2020:lemmatizace|lemmatizace SYN2020]].
  
 ===== Vztah lemmatu a lexému ===== ===== Vztah lemmatu a lexému =====
  
-V určitých aspektech je lemma analogické lexému s tím rozdílem, že lemma je zatím vždy jednoslovná jednotka a ve většině korpusů koresponduje s výskytem slovního tvaru v poměru 1:1. V každém korpusu je tedy inventář lemmat menší než inventář slovních tvarů (např. ve stomilionovém korpusu SYN2010 najdeme 1,7 mil. různých slovních tvarů, ale jenom 786 tis. různých lemmat)+V určitých aspektech je lemma analogické lexému s tím rozdílem, že lemma je zatím vždy jednoslovná jednotka a ve většině korpusů koresponduje s výskytem slovního tvaru v poměru 1:1. V každém korpusu je tedy počet lemmat menší než počet slovních tvarů (např. ve stomilionovém korpusu SYN2010 najdeme 1,7 mil. různých slovních tvarů, ale jenom 786 tis. různých lemmat)
  
 ===== Vztah lemmatu a významu ===== ===== Vztah lemmatu a významu =====
  
-Lemma by mělo být základním nositelem lexikálního významu jednotky. Na základě lemmatu jsou proto sestavovány korpusově založené slovníky. Vedle toho se ovšem stále více akcentuje přístup, který poukazuje na fakt, že význam je úzce spjat s morfologicky vymezeným [[pojmy:word|tvarem]]a že lemma je tak přílišnou abstrakcí zanedbávající důležité sémantické distinkce mezi tvary (srov. význam lemmatu //nerv// a význam tvarů //nerv//, který se užívá zejména v kontextu anatomického popisu, a //nervy//, který je typický svými kolokacemi //leze na nervy, mít nervy na dranc// apod.).+Lemma by mělo být základním nositelem lexikálního významu jednotky. Na základě lemmatu jsou proto sestavovány korpusově založené slovníky. Vedle toho se ovšem stále více zdůrazňuje přístup, který poukazuje na fakt, že význam je úzce spjat s morfologicky vymezeným [[pojmy:word|tvarem]] a že lemma je tak přílišnou abstrakcí zanedbávající důležité sémantické distinkce mezi tvary (srov. význam lemmatu //nerv// a význam tvarů //nerv//, který se užívá zejména v kontextu anatomického popisu, a //nervy//, který je typický svými kolokacemi //leze na nervy, mít nervy na dranc// apod.). 
 + 
 +===== Hyperlemma a lemmatizace diachronních textů ===== 
 + 
 +Přístup k lemmatizaci se může v odůvodněných případech lišit. Jedním z takových případů je zpracování [[pojmy:diachronni|diachronních]], dialektologických nebo [[pojmy:mluveny|mluvených]] korpusů, kde potřeba shlukovat slovní tvary pod jednu jednotku může být ovlivněna i jinými kritérii, než je pouze příslušnost k jednomu morfologickému paradigmatu. Vždy ovšem platí, že lemma je pouze pomůcka pro snadnější vyhledávání, nikoli popis nebo interpretace jazykových dat. 
 + 
 +V případě diachronního korpusu [[cnk:diakorp|DIAKORP]] se proto v budoucnu počítá s lemmatizací pomocí tzv. **hyperlemmat**, která uživateli korpusu umožní vyhledat všechny výskyty konkrétního lexému bez ohledu na různost jeho dobových, pravopisných aj. podob a tvarů (například: při vyhledávání pomocí hyperlemmatu //kůň// bude možno najít i starší české podoby //kóň// a //kuoň//).
  
 ===== Lemmatizace ===== ===== Lemmatizace =====
  
-Lemmatizace je součást automatické morfologické (vč. slovnědruhové) [[pojmy:anotace|anotace]], jejím principem je přiřazení lemmatu jednomu slovnímu tvaru (příp. skupině slovních tvarů) v korpusu. +Lemmatizace je součást automatické morfologické (vč. slovnědruhové) [[pojmy:anotace|anotace]]. Principem lemmatizace je přiřazení lemmatu jednomu slovnímu tvaru (příp. skupině slovních tvarů) v korpusu. 
  
-Lemmatizace je typicky součástí procesu [[pojmy:desambiguace|desambiguace (zjednoznačnění)]] slovních tvarů v textu na základě kontextu. Lemmatizace je jednoduchá nekontextovápatří-li lemmatizovaný slovní tvar k paradigmatu jediného lexému, např. slovesnému tvaru //vytvoříme// bude přiřazeno lemma //vytvořit// jakožto reprezentativní podoba příslušného slovesného lexému bez ohledu na kontext. +Lemmatizace je typicky součástí procesu [[pojmy:desambiguace|desambiguace (zjednoznačnění)]] slovních tvarů v textu na základě kontextu. Lemmatizace je jednoduchá nekontextová (patří-li lemmatizovaný slovní tvar k paradigmatu jediného lexému, např. slovesnému tvaru //vytvoříme// bude přiřazeno lemma //vytvořit// jakožto reprezentativní podoba příslušného slovesného lexému bez ohledu na kontext)
  
-Automatická lemmatizace je naopak nesnadná, je-li lemmatizovaný slovní tvar homonymní, tj. patří-li k paradigmatům více lexémů: např. tvar //zvířenou// náleží jednak paradigmatu adjektivního lexému //zvířený//, jednak paradigmatu substantivního lexému //zvířena//. V tomto případě se v procesu lemmatizace na základě kontextu rozhodne, které z potenciálních lemmat se danému tvaru přiřadí. U lexikálních homonym, jejichž morfologické paradigma je totožné, se někdy při lemmatizaci rozlišuje mezi jednotlivými lexikálními významy homonyma, např. //travička_1// vs //travička_2//+Automatická lemmatizace je naopak nesnadná, je-li lemmatizovaný slovní tvar homonymní, tj. patří-li k paradigmatům více lexémů: např. tvar //zvířenou// náleží jednak paradigmatu adjektivního lexému //zvířený//, jednak paradigmatu substantivního lexému //zvířena//. V tomto případě se v procesu lemmatizace na základě kontextu rozhodne, které z potenciálních lemmat se danému tvaru přiřadí. U lexikálních homonym, jejichž morfologické paradigma je totožné, se někdy při lemmatizaci rozlišuje mezi jednotlivými lexikálními významy homonyma, např. //travička_1// vs//travička_2//
  
 ==== Problémy lemmatizace ==== ==== Problémy lemmatizace ====
  
-Velkým lingvistickým i počítačovým problémem je lemmatizace víceslovných spojení. Jiným neřešeným problémem při automatické lemmatizaci je lemmatizace všech tvarů pod jediné lemma i tam, kde to není patřičné: např. zdvořilá prosba o dovolení projít //Dovolíte?// se neodráží v žádném z registrovaných významů slova //dovolit//, protože není součástí výlučně morfologické lemmatizace, a podobné je to u frazémů, kde nelze tvar //holičkách// (frazému //nechat na holičkách//) lemmatizovat jako //holičky// (tvar, který navíc vůbec neexistuje). +Velkým lingvistickým i počítačovým problémem je lemmatizace víceslovných spojení. Jiným neřešeným problémem při automatické lemmatizaci je lemmatizace všech tvarů pod jediné lemma i tam, kde to není patřičné: např. zdvořilá prosba o dovolení projít //Dovolíte?// se neodráží v žádném z registrovaných významů slova //dovolit//, protože není součástí výlučně morfologické lemmatizace. Podobné je to u frazémů, kde nelze tvar //holičkách// (frazému //nechat na holičkách//) lemmatizovat jako //holičky// (tvar, který navíc vůbec neexistuje). 
  
 ==== Proces lemmatizace ==== ==== Proces lemmatizace ====
  
-Automatickou lemmatizaci provádí počítačový program zvaný lemmatizátor, který bývá součástí morfologického [[pojmy:tag|taggeru]] provádějícího morfologickou [[pojmy:desambiguace|desambiguaci]] textu. Smyslem lemmatizace je jednak identifikovat v daném kontextu náležitý lexém u homonymních slovních tvarů, jednak umožnit uživateli pracovat nikoli jen se slovními tvary, nýbrž i s lemmaty jakožto reprezentanty příslušných lexémů a jejich paradigmat, což mu podstatně usnadňuje práci s korpusem. +Automatickou lemmatizaci provádí počítačový program zvaný //lemmatizátor//, který bývá součástí morfologického [[pojmy:tag|taggeru]]provádějícího morfologickou [[pojmy:desambiguace|desambiguaci]] textu. Smyslem lemmatizace je jednak identifikovat v daném kontextu náležitý lexém u homonymních slovních tvarů, jednak umožnit uživateli pracovat nikoli jen se slovními tvary, nýbrž i s lemmaty jakožto reprezentanty příslušných lexémů a jejich paradigmat, což mu podstatně usnadňuje práci s korpusem.  
 + 
 +Podrobný postup celého procesu automatické anotace včetně údajů o míře úspěšnosti je popsán na příkladu korpusu [[cnk:SYN2020|SYN2020]] na stránce [[cnk:SYN2020:automaticka_anotace|automatická anotace korpusu SYN2020]]. 
 + 
 +==== Související odkazy ==== 
 + 
 +<WRAP round box 49%> 
 +[[pojmy:anotace|Anotace]] • [[pojmy:desambiguace|Desambiguace]] • [[pojmy:tag|Tagy a tagování]] • [[pojmy:word|Slovní tvar (word)]] • [[cnk:SYN2020:automaticka_anotace|Automatická anotace SYN2020]] 
 +</WRAP>