Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
pojmy:lemma [2013/06/10 16:48] – vaclavcvrcek | pojmy:lemma [2019/03/04 09:29] – [Lemma] dominikakovarikova | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Lemma ====== | ====== Lemma ====== | ||
- | Lemma je základní slovníkový tvar. | + | Lemma je reprezentativní slovníková podoba hesla, při automatickém zpracování jazyka je pak tato podoba v procesu lemmatizace přidělována každé formě v korpusu. |
- | ===== Placeholder ===== | + | Přístupy k lemmatizaci se mohou v drobnostech lišit, obecně však platí, že |
+ | * lemma každého českého substantiva je jeho **nom. sg.** (tvary //lesům, lesy, lesích// má lemma **// | ||
+ | * u adjektiv je to **nom. sg. mask.pozitiv** (tvary // | ||
+ | * u zájmen je to **nom. sg. mask.** (tvary //ta, to, ti, tomu// má lemma **// | ||
+ | * u sloves je to **infinitiv** (tvary //chodil, chodíš, chodíme// má lemma **// | ||
+ | |||
+ | Lemma jako jednotka vzniká abstrakcí morfologických vlastností [[pojmy: | ||
+ | ===== Vztah lemmatu a lexému ===== | ||
- | Lorem ipsum dolor sit amet, consectetur adipiscing elit. Praesent nunc enim, adipiscing rutrum dictum sed, fringilla sit amet nisi. Integer imperdiet eleifend porta. Pellentesque | + | V určitých aspektech je lemma analogické lexému s tím rozdílem, že lemma je zatím vždy jednoslovná jednotka |
- | Suspendisse ut posuere nisi. Fusce eget urna ornare, vestibulum mauris vestibulum, convallis ligula. Cras nibh libero, lacinia gravida suscipit sed, congue eu purus. Donec lectus ante, consectetur eu elit et, porttitor ullamcorper urna. Maecenas facilisis enim vel leo pellentesque mattis. Nunc tincidunt faucibus dui vel pulvinar. Quisque porta imperdiet dolor aliquam condimentum. Pellentesque molestie est sed porta mollis. Aliquam sodales fermentum augue, vitae auctor augue accumsan non. Quisque rhoncus, urna tincidunt convallis dictum, dolor diam aliquet risus, quis eleifend velit augue in purus. Aliquam eu venenatis mauris, non mollis nunc. Integer tristique, ipsum in vehicula dignissim, tortor nisl sagittis risus, rhoncus suscipit neque felis et nulla. Phasellus venenatis nulla sapien, mollis euismod augue placerat | + | ===== Vztah lemmatu |
- | Ut eleifend, velit ut congue consectetur, | + | Lemma by mělo být základním nositelem lexikálního významu jednotky. Na základě lemmatu jsou proto sestavovány korpusově založené slovníky. Vedle toho se ovšem stále více zdůrazňuje přístup, který poukazuje na fakt, že význam je úzce spjat s morfologicky vymezeným [[pojmy: |
- | Nulla facilisi. Nullam vel turpis nec ante hendrerit aliquam vel at nibh. Nullam nec tortor et ipsum facilisis commodo. Nam condimentum mi erat, a porttitor nisl tincidunt et. In hac habitasse platea dictumst. Pellentesque eget dolor purus. Quisque tempor quam vitae sodales ornare. Interdum et malesuada fames ac ante ipsum primis in faucibus. Aenean odio metus, faucibus eget pretium egestas, condimentum ac est. Sed sem ante, viverra quis libero varius, lobortis aliquam libero. Sed laoreet ligula nec nunc vehicula, in blandit enim consequat. Proin nisl leo, rutrum nec semper in, rutrum sed neque. Curabitur ornare sem at suscipit ornare. | + | ===== Hyperlemma |
- | Integer id pretium magna. Nullam urna diam, tincidunt sed condimentum a, lacinia quis mauris. Aliquam pretium lectus at consectetur consequat. Donec vitae enim et turpis aliquam elementum. Phasellus sit amet augue in neque luctus mattis. Vivamus iaculis ut mauris ac varius. Donec pretium risus sed metus sodales, at aliquet tellus tincidunt. Maecenas et gravida urna, vehicula faucibus arcu. In condimentum vel eros ac rhoncus. Duis quis tristique massa, sit amet hendrerit massa. Aenean dictum commodo elit eu mollis. Aenean ut porta magna. Mauris sed mauris adipiscing, eleifend mauris a, imperdiet enim. | + | Přístup k lemmatizaci se může v odůvodněných případech lišit. Jedním z takových případů je zpracování [[pojmy: |
- | Lorem ipsum dolor sit amet, consectetur adipiscing elit. Praesent nunc enim, adipiscing rutrum dictum sed, fringilla sit amet nisi. Integer imperdiet eleifend porta. Pellentesque | + | V případě diachronního korpusu [[cnk: |
- | Suspendisse ut posuere nisi. Fusce eget urna ornare, vestibulum mauris vestibulum, convallis ligula. Cras nibh libero, lacinia gravida suscipit sed, congue eu purus. Donec lectus ante, consectetur eu elit et, porttitor ullamcorper urna. Maecenas facilisis enim vel leo pellentesque mattis. Nunc tincidunt faucibus dui vel pulvinar. Quisque porta imperdiet dolor aliquam condimentum. Pellentesque molestie est sed porta mollis. Aliquam sodales fermentum augue, vitae auctor augue accumsan non. Quisque rhoncus, urna tincidunt convallis dictum, dolor diam aliquet risus, quis eleifend velit augue in purus. Aliquam eu venenatis mauris, non mollis nunc. Integer tristique, ipsum in vehicula dignissim, tortor nisl sagittis risus, rhoncus suscipit neque felis et nulla. Phasellus venenatis nulla sapien, mollis euismod augue placerat a. Pellentesque leo turpis, lobortis vel hendrerit sed, accumsan vel augue. Praesent imperdiet orci ut congue sollicitudin. Fusce magna dolor, facilisis vitae dictum sit amet, vulputate sit amet lorem. | + | ===== Lemmatizace ===== |
- | Ut eleifend, velit ut congue consectetur, | + | Lemmatizace je součást automatické morfologické (vč. slovnědruhové) [[pojmy: |
- | Nulla facilisi. Nullam vel turpis nec ante hendrerit aliquam vel at nibh. Nullam nec tortor et ipsum facilisis commodo. Nam condimentum mi erat, a porttitor nisl tincidunt et. In hac habitasse platea dictumst. Pellentesque eget dolor purus. Quisque tempor quam vitae sodales ornare. Interdum et malesuada fames ac ante ipsum primis in faucibus. Aenean odio metus, faucibus eget pretium egestas, condimentum ac est. Sed sem ante, viverra quis libero varius, lobortis aliquam libero. Sed laoreet ligula nec nunc vehicula, in blandit enim consequat. Proin nisl leo, rutrum nec semper in, rutrum sed neque. Curabitur ornare sem at suscipit ornare. | + | Lemmatizace je typicky součástí procesu [[pojmy: |
- | Integer id pretium magna. Nullam urna diam, tincidunt sed condimentum a, lacinia quis mauris. Aliquam pretium lectus at consectetur consequat. Donec vitae enim et turpis aliquam elementum. Phasellus sit amet augue in neque luctus mattis. Vivamus iaculis ut mauris ac varius. Donec pretium risus sed metus sodales, at aliquet tellus tincidunt. Maecenas et gravida urna, vehicula faucibus arcu. In condimentum vel eros ac rhoncus. Duis quis tristique massa, sit amet hendrerit massa. Aenean dictum commodo elit eu mollis. Aenean ut porta magna. Mauris sed mauris adipiscing, eleifend mauris a, imperdiet enim. | + | Automatická lemmatizace je naopak nesnadná, je-li lemmatizovaný slovní tvar homonymní, tj. patří-li k paradigmatům více lexémů: např. tvar // |
- | Lorem ipsum dolor sit amet, consectetur adipiscing elit. Praesent nunc enim, adipiscing rutrum dictum sed, fringilla sit amet nisi. Integer imperdiet eleifend porta. Pellentesque a dui at elit mollis ultricies et nec mi. Nullam vel scelerisque turpis. In hac habitasse platea dictumst. Aliquam mi neque, commodo non placerat et, iaculis non elit. Aenean imperdiet ante vitae ultrices tincidunt. Pellentesque a turpis massa. Nam arcu ipsum, euismod eget velit nec, imperdiet aliquam dui. Aliquam nec porta sapien. Duis varius, magna at vulputate ullamcorper, | + | ==== Problémy lemmatizace ==== |
- | Suspendisse ut posuere nisi. Fusce eget urna ornare, vestibulum mauris vestibulum, convallis ligula. Cras nibh libero, lacinia gravida suscipit sed, congue eu purus. Donec lectus ante, consectetur eu elit et, porttitor ullamcorper urna. Maecenas facilisis enim vel leo pellentesque mattis. Nunc tincidunt faucibus dui vel pulvinar. Quisque porta imperdiet dolor aliquam condimentum. Pellentesque molestie est sed porta mollis. Aliquam sodales fermentum augue, vitae auctor augue accumsan non. Quisque rhoncus, urna tincidunt convallis dictum, dolor diam aliquet risus, quis eleifend velit augue in purus. Aliquam eu venenatis mauris, non mollis nunc. Integer tristique, ipsum in vehicula dignissim, tortor nisl sagittis risus, rhoncus suscipit neque felis et nulla. Phasellus venenatis nulla sapien, mollis euismod augue placerat a. Pellentesque leo turpis, lobortis vel hendrerit sed, accumsan vel augue. Praesent imperdiet orci ut congue sollicitudin. Fusce magna dolor, facilisis vitae dictum sit amet, vulputate sit amet lorem. | + | Velkým lingvistickým i počítačovým problémem je lemmatizace víceslovných spojení. Jiným neřešeným problémem při automatické lemmatizaci je lemmatizace všech tvarů pod jediné lemma i tam, kde to není patřičné: |
- | Ut eleifend, velit ut congue consectetur, | + | ==== Proces lemmatizace ==== |
- | Nulla facilisi. Nullam vel turpis nec ante hendrerit aliquam vel at nibh. Nullam nec tortor et ipsum facilisis commodo. Nam condimentum mi erat, a porttitor nisl tincidunt et. In hac habitasse platea dictumst. Pellentesque eget dolor purus. Quisque tempor quam vitae sodales ornare. Interdum et malesuada fames ac ante ipsum primis in faucibus. Aenean odio metus, faucibus eget pretium egestas, condimentum ac est. Sed sem ante, viverra quis libero varius, lobortis aliquam libero. Sed laoreet ligula nec nunc vehicula, in blandit enim consequat. Proin nisl leo, rutrum nec semper in, rutrum sed neque. Curabitur ornare sem at suscipit ornare. | + | Automatickou lemmatizaci provádí počítačový program zvaný // |
- | Integer id pretium magna. Nullam urna diam, tincidunt sed condimentum a, lacinia quis mauris. Aliquam pretium lectus at consectetur consequat. Donec vitae enim et turpis aliquam elementum. Phasellus sit amet augue in neque luctus mattis. Vivamus iaculis ut mauris ac varius. Donec pretium risus sed metus sodales, at aliquet tellus tincidunt. Maecenas et gravida urna, vehicula faucibus arcu. In condimentum vel eros ac rhoncus. Duis quis tristique massa, sit amet hendrerit massa. Aenean dictum commodo elit eu mollis. Aenean ut porta magna. Mauris sed mauris adipiscing, eleifend mauris a, imperdiet enim. | + | ==== Související odkazy ==== |
- | ====== Lemmatizace ====== | + | <WRAP round box 49%> |
- | + | [[pojmy: | |
- | bla bla | + | </ |