Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
pojmy:lemma [2013/11/18 17:53] – [Hyperlemma a lemmatizace diachronních textů] michalkren | pojmy:lemma [2019/03/04 09:28] – [Lemma] dominikakovarikova |
---|
* lemma každého českého substantiva je jeho **nom. sg.** (tvary //lesům, lesy, lesích// má lemma **//les//**) | * lemma každého českého substantiva je jeho **nom. sg.** (tvary //lesům, lesy, lesích// má lemma **//les//**) |
* u adjektiv je to **nom. sg. mask.** (tvary //chytrého, chytrou, chytrejma// má lemma **//chytrý//**) | * u adjektiv je to **nom. sg. mask.** (tvary //chytrého, chytrou, chytrejma// má lemma **//chytrý//**) |
| * u zájmen je to **nom. sg. mask.** (tvary //ta, to, ti, tomu// má lemma **//ten//**) |
* u sloves je to **infinitiv** (tvary //chodil, chodíš, chodíme// má lemma **//chodit//**) | * u sloves je to **infinitiv** (tvary //chodil, chodíš, chodíme// má lemma **//chodit//**) |
| |
===== Hyperlemma a lemmatizace diachronních textů ===== | ===== Hyperlemma a lemmatizace diachronních textů ===== |
| |
Přístup k lemmatizaci se může v odůvodněných případech lišit. Jedním z takových případů je zpracování [[pojmy:diachronni|diachronních]], dialektologických nebo [[pojmy:mluveny|mluvených]] korpusů, kde potřeba shlukovat slovní tvary pod jednu jednotku může být ovlivněna i jinými kritérii, než je pouze příslišnost k jednomu morfologickému paradigmatu. Vždy ovšem platí, že lemma je pouze pomůcka pro snadnější vyhledávání, nikoli popis nebo interpretace jazykových dat. | Přístup k lemmatizaci se může v odůvodněných případech lišit. Jedním z takových případů je zpracování [[pojmy:diachronni|diachronních]], dialektologických nebo [[pojmy:mluveny|mluvených]] korpusů, kde potřeba shlukovat slovní tvary pod jednu jednotku může být ovlivněna i jinými kritérii, než je pouze příslušnost k jednomu morfologickému paradigmatu. Vždy ovšem platí, že lemma je pouze pomůcka pro snadnější vyhledávání, nikoli popis nebo interpretace jazykových dat. |
| |
V případě diachronního korpusu [[cnk:diakorp|DIAKORP]] se proto v budoucnu počítá s lemmatizací pomocí tzv. **hyperlemmat**, která uživateli korpusu umožní vyhledat všechny výskyty konkrétního lexému bez ohledu na různost jeho dobových, pravopisných aj. podob a tvarů (například: při vyhledávání pomocí hyperlemmatu //kůň// bude možno najít i starší české podoby //kóň// a //kuoň//). | V případě diachronního korpusu [[cnk:diakorp|DIAKORP]] se proto v budoucnu počítá s lemmatizací pomocí tzv. **hyperlemmat**, která uživateli korpusu umožní vyhledat všechny výskyty konkrétního lexému bez ohledu na různost jeho dobových, pravopisných aj. podob a tvarů (například: při vyhledávání pomocí hyperlemmatu //kůň// bude možno najít i starší české podoby //kóň// a //kuoň//). |
| |
<WRAP round box 49%> | <WRAP round box 49%> |
[[pojmy:anotace|Anotace]] • [[pojmy:desambiguace|Desambiguace]] • [[pojmy:tag|Tagy a tagování]] •[[pojmy:word|Slovní tvar (word)]] | [[pojmy:anotace|Anotace]] • [[pojmy:desambiguace|Desambiguace]] • [[pojmy:tag|Tagy a tagování]] • [[pojmy:word|Slovní tvar (word)]] |
</WRAP> | </WRAP> |