AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:lemma [2019/03/04 09:29] – [Lemma] Dominika Kováříkovápojmy:lemma [2022/01/03 17:52] (aktuální) Jan Křivan
Řádek 4: Řádek 4:
  
 Přístupy k lemmatizaci se mohou v drobnostech lišit, obecně však platí, že  Přístupy k lemmatizaci se mohou v drobnostech lišit, obecně však platí, že 
-  * lemma každého českého substantiva je jeho **nom. sg.** (tvary //lesům, lesy, lesích// má lemma **//les//**) +  * lemma každého českého substantiva je jeho **nom. sg.** (tvary //lesům, lesy, lesích// mají lemma **//les//**) 
-  * u adjektiv je to **nom. sg. mask.pozitiv** (tvary //chytrého, chytrou, chytrejma, nejchytřejší// má lemma **//chytrý//**) +  * u adjektiv je to **nom. sg. mask. pozitiv** (tvary //chytrého, chytrou, chytrejma, nejchytřejší// mají lemma **//chytrý//**) 
-  * u zájmen je to **nom. sg. mask.** (tvary //ta, to, ti, tomu// má lemma **//ten//**) +  * u zájmen je to **nom. sg. mask.** (tvary //ta, to, ti, tomu// mají lemma **//ten//**) 
-  * u sloves je to **infinitiv** (tvary //chodil, chodíš, chodíme// má lemma **//chodit//**)+  * u sloves je to **infinitiv** (tvary //chodil, chodíš, chodíme// mají lemma **//chodit//**)
    
 Lemma jako jednotka vzniká abstrakcí morfologických vlastností [[pojmy:word|slovního tvaru]] (označovaného jako word nebo forma), představuje tedy množinu forem se stejným kořenem lišící se pouze morfologickými afixy, příp. pravopisnou variantou. V některých koncepcích se pak k lemmatu řadí i vybrané varianty slovotvorné.  Lemma jako jednotka vzniká abstrakcí morfologických vlastností [[pojmy:word|slovního tvaru]] (označovaného jako word nebo forma), představuje tedy množinu forem se stejným kořenem lišící se pouze morfologickými afixy, příp. pravopisnou variantou. V některých koncepcích se pak k lemmatu řadí i vybrané varianty slovotvorné. 
 +
 +===== Sublemma =====
 +
 +Počínaje korpusem [[cnk:syn2020|SYN2020]] je lemmatizace v českých korpusech dvojúrovňová: každý tvar má vedle atributu **lemma** přiřazen i atribut **sublemma**. Zatímco lemma může sdružovat i více variant jednoho slova (např. lemma //filozofie// reprezentuje všechny tvary s kořenem //filozof// i //filosof//), sublemmata vymezují podskupiny tvarů podle této variantnosti (sublemma //filozofie// reprezentuje jen tvary s kořenem //filozof//, sublemma //filosofie// jen tvary s kořenem //filosof//). Pokud je slovo nevariantní, sublemma je totožné s lemmatem (např. lemma //kniha// reprezentuje stejnou množinu tvarů jako sublemma //kniha//).
 +
 +Jako sublemmata jsou řešeny různé typy variant (např. //mýdlo/mejdlo//, //okno/vokno//, //citron/citrón//, //email/e-mail//, //myslet/myslit//, //mýt/mejt//, //péci/péct/píct//, //kuchyně/kuchyň//, //antivirus/antivir//, //sedm/sedum//, //tenhle/tendle/tenle//, //ačkoli/ačkoliv//, propriální //Robert/Róbert/Roberto//, //Atény/Athény//) a jejich pomocí jsou odlišeny i některé specifické skupiny tvarů, které jsou zahrnuty pod jedním lemmatem (např. negované tvary u adjektiv a adverbií //černý/nečerný//, //hezky/nehezky//, jmenné tvary adjektiv //mladý/mlád//, supletivní tvary //dobře/lépe/líp//, //člověk/lidé//).
 +
 +Podrobný popis dvojúrovňové lemmatizace je uveden na stránce [[cnk:syn2020:lemmatizace|lemmatizace SYN2020]].
  
 ===== Vztah lemmatu a lexému ===== ===== Vztah lemmatu a lexému =====
Řádek 40: Řádek 48:
  
 Automatickou lemmatizaci provádí počítačový program zvaný //lemmatizátor//, který bývá součástí morfologického [[pojmy:tag|taggeru]], provádějícího morfologickou [[pojmy:desambiguace|desambiguaci]] textu. Smyslem lemmatizace je jednak identifikovat v daném kontextu náležitý lexém u homonymních slovních tvarů, jednak umožnit uživateli pracovat nikoli jen se slovními tvary, nýbrž i s lemmaty jakožto reprezentanty příslušných lexémů a jejich paradigmat, což mu podstatně usnadňuje práci s korpusem.  Automatickou lemmatizaci provádí počítačový program zvaný //lemmatizátor//, který bývá součástí morfologického [[pojmy:tag|taggeru]], provádějícího morfologickou [[pojmy:desambiguace|desambiguaci]] textu. Smyslem lemmatizace je jednak identifikovat v daném kontextu náležitý lexém u homonymních slovních tvarů, jednak umožnit uživateli pracovat nikoli jen se slovními tvary, nýbrž i s lemmaty jakožto reprezentanty příslušných lexémů a jejich paradigmat, což mu podstatně usnadňuje práci s korpusem. 
 +
 +Podrobný postup celého procesu automatické anotace včetně údajů o míře úspěšnosti je popsán na příkladu korpusu [[cnk:SYN2020|SYN2020]] na stránce [[cnk:SYN2020:automaticka_anotace|automatická anotace korpusu SYN2020]].
  
 ==== Související odkazy ==== ==== Související odkazy ====
  
 <WRAP round box 49%> <WRAP round box 49%>
-[[pojmy:anotace|Anotace]] • [[pojmy:desambiguace|Desambiguace]] • [[pojmy:tag|Tagy a tagování]] • [[pojmy:word|Slovní tvar (word)]]+[[pojmy:anotace|Anotace]] • [[pojmy:desambiguace|Desambiguace]] • [[pojmy:tag|Tagy a tagování]] • [[pojmy:word|Slovní tvar (word)]] • [[cnk:SYN2020:automaticka_anotace|Automatická anotace SYN2020]]
 </WRAP> </WRAP>