Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- pojmy:lemma [2013/11/18 17:53] – [Hyperlemma a lemmatizace diachronních textů] michalkren
+++ pojmy:lemma [2019/03/04 09:28] – [Lemma] dominikakovarikova
@@ Řádek 6: / Řádek 6: @@
   * lemma každého českého substantiva je jeho **nom. sg.** (tvary //lesům, lesy, lesích// má lemma **//les//**)
   * u adjektiv je to **nom. sg. mask.** (tvary //chytrého, chytrou, chytrejma// má lemma **//chytrý//**)
+  * u zájmen je to **nom. sg. mask.** (tvary //ta, to, ti, tomu// má lemma **//ten//**)
   * u sloves je to **infinitiv** (tvary //chodil, chodíš, chodíme// má lemma **//chodit//**)
@@ Řádek 20: / Řádek 21: @@
 ===== Hyperlemma a lemmatizace diachronních textů =====
-Přístup k lemmatizaci se může v odůvodněných případech lišit. Jedním z takových případů je zpracování [[pojmy:diachronni|diachronních]], dialektologických nebo [[pojmy:mluveny|mluvených]] korpusů, kde potřeba shlukovat slovní tvary pod jednu jednotku může být ovlivněna i jinými kritérii, než je pouze příslišnost k jednomu morfologickému paradigmatu. Vždy ovšem platí, že lemma je pouze pomůcka pro snadnější vyhledávání, nikoli popis nebo interpretace jazykových dat.
+Přístup k lemmatizaci se může v odůvodněných případech lišit. Jedním z takových případů je zpracování [[pojmy:diachronni|diachronních]], dialektologických nebo [[pojmy:mluveny|mluvených]] korpusů, kde potřeba shlukovat slovní tvary pod jednu jednotku může být ovlivněna i jinými kritérii, než je pouze příslušnost k jednomu morfologickému paradigmatu. Vždy ovšem platí, že lemma je pouze pomůcka pro snadnější vyhledávání, nikoli popis nebo interpretace jazykových dat.
 V případě diachronního korpusu [[cnk:diakorp|DIAKORP]] se proto v budoucnu počítá s lemmatizací pomocí tzv. **hyperlemmat**, která uživateli korpusu umožní vyhledat všechny výskyty konkrétního lexému bez ohledu na různost jeho dobových, pravopisných aj. podob a tvarů (například: při vyhledávání pomocí hyperlemmatu //kůň// bude možno najít i starší české podoby //kóň// a //kuoň//).
@@ Řádek 43: / Řádek 44: @@
 <WRAP round box 49%>
-[[pojmy:anotace|Anotace]] • [[pojmy:desambiguace|Desambiguace]] • [[pojmy:tag|Tagy a tagování]] •[[pojmy:word|Slovní tvar (word)]]
+[[pojmy:anotace|Anotace]] • [[pojmy:desambiguace|Desambiguace]] • [[pojmy:tag|Tagy a tagování]] • [[pojmy:word|Slovní tvar (word)]]
 </WRAP>

Historie: • specify_query • frekvencni_distribuce • filtr • syntakticke_znacky • manualy • nahodne_vzorky • index • verze3 • diakorp • anotace

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence