AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
pojmy:lemma [2014/03/19 14:06] – Meziverze vaclavcvrcekpojmy:lemma [2019/03/04 09:29] – [Lemma] dominikakovarikova
Řádek 5: Řádek 5:
 Přístupy k lemmatizaci se mohou v drobnostech lišit, obecně však platí, že  Přístupy k lemmatizaci se mohou v drobnostech lišit, obecně však platí, že 
   * lemma každého českého substantiva je jeho **nom. sg.** (tvary //lesům, lesy, lesích// má lemma **//les//**)   * lemma každého českého substantiva je jeho **nom. sg.** (tvary //lesům, lesy, lesích// má lemma **//les//**)
-  * u adjektiv je to **nom. sg. mask.** (tvary //chytrého, chytrou, chytrejma// má lemma **//chytrý//**)+  * u adjektiv je to **nom. sg. mask.pozitiv** (tvary //chytrého, chytrou, chytrejma, nejchytřejší// má lemma **//chytrý//**) 
 +  * u zájmen je to **nom. sg. mask.** (tvary //ta, to, ti, tomu// má lemma **//ten//**)
   * u sloves je to **infinitiv** (tvary //chodil, chodíš, chodíme// má lemma **//chodit//**)   * u sloves je to **infinitiv** (tvary //chodil, chodíš, chodíme// má lemma **//chodit//**)
    
Řádek 20: Řádek 21:
 ===== Hyperlemma a lemmatizace diachronních textů ===== ===== Hyperlemma a lemmatizace diachronních textů =====
  
-Přístup k lemmatizaci se může v odůvodněných případech lišit. Jedním z takových případů je zpracování [[pojmy:diachronni|diachronních]], dialektologických nebo [[pojmy:mluveny|mluvených]] korpusů, kde potřeba shlukovat slovní tvary pod jednu jednotku může být ovlivněna i jinými kritérii, než je pouze příslišnost k jednomu morfologickému paradigmatu. Vždy ovšem platí, že lemma je pouze pomůcka pro snadnější vyhledávání, nikoli popis nebo interpretace jazykových dat.+Přístup k lemmatizaci se může v odůvodněných případech lišit. Jedním z takových případů je zpracování [[pojmy:diachronni|diachronních]], dialektologických nebo [[pojmy:mluveny|mluvených]] korpusů, kde potřeba shlukovat slovní tvary pod jednu jednotku může být ovlivněna i jinými kritérii, než je pouze příslušnost k jednomu morfologickému paradigmatu. Vždy ovšem platí, že lemma je pouze pomůcka pro snadnější vyhledávání, nikoli popis nebo interpretace jazykových dat.
  
 V případě diachronního korpusu [[cnk:diakorp|DIAKORP]] se proto v budoucnu počítá s lemmatizací pomocí tzv. **hyperlemmat**, která uživateli korpusu umožní vyhledat všechny výskyty konkrétního lexému bez ohledu na různost jeho dobových, pravopisných aj. podob a tvarů (například: při vyhledávání pomocí hyperlemmatu //kůň// bude možno najít i starší české podoby //kóň// a //kuoň//). V případě diachronního korpusu [[cnk:diakorp|DIAKORP]] se proto v budoucnu počítá s lemmatizací pomocí tzv. **hyperlemmat**, která uživateli korpusu umožní vyhledat všechny výskyty konkrétního lexému bez ohledu na různost jeho dobových, pravopisných aj. podob a tvarů (například: při vyhledávání pomocí hyperlemmatu //kůň// bude možno najít i starší české podoby //kóň// a //kuoň//).