AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
pojmy:lemma [2020/12/17 11:42] – [Lemma] Vladimír Petkevičpojmy:lemma [2022/01/03 17:52] (aktuální) Jan Křivan
Řádek 10: Řádek 10:
    
 Lemma jako jednotka vzniká abstrakcí morfologických vlastností [[pojmy:word|slovního tvaru]] (označovaného jako word nebo forma), představuje tedy množinu forem se stejným kořenem lišící se pouze morfologickými afixy, příp. pravopisnou variantou. V některých koncepcích se pak k lemmatu řadí i vybrané varianty slovotvorné.  Lemma jako jednotka vzniká abstrakcí morfologických vlastností [[pojmy:word|slovního tvaru]] (označovaného jako word nebo forma), představuje tedy množinu forem se stejným kořenem lišící se pouze morfologickými afixy, příp. pravopisnou variantou. V některých koncepcích se pak k lemmatu řadí i vybrané varianty slovotvorné. 
 +
 +===== Sublemma =====
 +
 +Počínaje korpusem [[cnk:syn2020|SYN2020]] je lemmatizace v českých korpusech dvojúrovňová: každý tvar má vedle atributu **lemma** přiřazen i atribut **sublemma**. Zatímco lemma může sdružovat i více variant jednoho slova (např. lemma //filozofie// reprezentuje všechny tvary s kořenem //filozof// i //filosof//), sublemmata vymezují podskupiny tvarů podle této variantnosti (sublemma //filozofie// reprezentuje jen tvary s kořenem //filozof//, sublemma //filosofie// jen tvary s kořenem //filosof//). Pokud je slovo nevariantní, sublemma je totožné s lemmatem (např. lemma //kniha// reprezentuje stejnou množinu tvarů jako sublemma //kniha//).
 +
 +Jako sublemmata jsou řešeny různé typy variant (např. //mýdlo/mejdlo//, //okno/vokno//, //citron/citrón//, //email/e-mail//, //myslet/myslit//, //mýt/mejt//, //péci/péct/píct//, //kuchyně/kuchyň//, //antivirus/antivir//, //sedm/sedum//, //tenhle/tendle/tenle//, //ačkoli/ačkoliv//, propriální //Robert/Róbert/Roberto//, //Atény/Athény//) a jejich pomocí jsou odlišeny i některé specifické skupiny tvarů, které jsou zahrnuty pod jedním lemmatem (např. negované tvary u adjektiv a adverbií //černý/nečerný//, //hezky/nehezky//, jmenné tvary adjektiv //mladý/mlád//, supletivní tvary //dobře/lépe/líp//, //člověk/lidé//).
 +
 +Podrobný popis dvojúrovňové lemmatizace je uveden na stránce [[cnk:syn2020:lemmatizace|lemmatizace SYN2020]].
  
 ===== Vztah lemmatu a lexému ===== ===== Vztah lemmatu a lexému =====
Řádek 40: Řádek 48:
  
 Automatickou lemmatizaci provádí počítačový program zvaný //lemmatizátor//, který bývá součástí morfologického [[pojmy:tag|taggeru]], provádějícího morfologickou [[pojmy:desambiguace|desambiguaci]] textu. Smyslem lemmatizace je jednak identifikovat v daném kontextu náležitý lexém u homonymních slovních tvarů, jednak umožnit uživateli pracovat nikoli jen se slovními tvary, nýbrž i s lemmaty jakožto reprezentanty příslušných lexémů a jejich paradigmat, což mu podstatně usnadňuje práci s korpusem.  Automatickou lemmatizaci provádí počítačový program zvaný //lemmatizátor//, který bývá součástí morfologického [[pojmy:tag|taggeru]], provádějícího morfologickou [[pojmy:desambiguace|desambiguaci]] textu. Smyslem lemmatizace je jednak identifikovat v daném kontextu náležitý lexém u homonymních slovních tvarů, jednak umožnit uživateli pracovat nikoli jen se slovními tvary, nýbrž i s lemmaty jakožto reprezentanty příslušných lexémů a jejich paradigmat, což mu podstatně usnadňuje práci s korpusem. 
 +
 +Podrobný postup celého procesu automatické anotace včetně údajů o míře úspěšnosti je popsán na příkladu korpusu [[cnk:SYN2020|SYN2020]] na stránce [[cnk:SYN2020:automaticka_anotace|automatická anotace korpusu SYN2020]].
  
 ==== Související odkazy ==== ==== Související odkazy ====
  
 <WRAP round box 49%> <WRAP round box 49%>
-[[pojmy:anotace|Anotace]] • [[pojmy:desambiguace|Desambiguace]] • [[pojmy:tag|Tagy a tagování]] • [[pojmy:word|Slovní tvar (word)]]+[[pojmy:anotace|Anotace]] • [[pojmy:desambiguace|Desambiguace]] • [[pojmy:tag|Tagy a tagování]] • [[pojmy:word|Slovní tvar (word)]] • [[cnk:SYN2020:automaticka_anotace|Automatická anotace SYN2020]]
 </WRAP> </WRAP>