Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Obě strany předchozí revizePředchozí verze | |
| cnk:lemtag_mluv [2025/05/27 11:21] – [Lemmatizace a tagování mluvených korpusů ORAL (verze 1), ORTOFON (verze 1 a 2), DIALEKT (verze 1 a 2)] martinawaclawicova | cnk:lemtag_mluv [2025/05/27 11:21] (aktuální) – [Lemmatizace a tagování mluvených korpusů ORAL (verze 1), ORTOFON (verze 1 a 2), DIALEKT (verze 1 a 2), ORATOR (verze 2)] martinawaclawicova |
|---|
| Následující způsob lemmatizace a morfologického značkování byl použit pro korpusy [[cnk:oral|ORAL]] v1, [[cnk:ortofon|ORTOFON]] v1 a v2, [[cnk:dialekt|DIALEKT]] v1 a v2 a [[cnk:orator|ORATOR]] v2. Jeho přínos spočívá především v lemmatizaci a označení slovních druhů. Při vyhledávání však doporučujeme jejich důslednou kontrolu, zvlášť pečlivou v případě dalších morfologických kategorií. | Následující způsob lemmatizace a morfologického značkování byl použit pro korpusy [[cnk:oral|ORAL]] v1, [[cnk:ortofon|ORTOFON]] v1 a v2, [[cnk:dialekt|DIALEKT]] v1 a v2 a [[cnk:orator|ORATOR]] v2. Jeho přínos spočívá především v lemmatizaci a označení slovních druhů. Při vyhledávání však doporučujeme jejich důslednou kontrolu, zvlášť pečlivou v případě dalších morfologických kategorií. |
| |
| Užitý způsob lemmatizace a tagování, jakkoli pracný, je pouze prvním pokusem usnadnit uživateli práci s rozsáhlými daty korpusů ORAL, ORTOFON a DIALEKT a jako takový obsahuje chyby a nepřesnosti, které ale zároveň vedou k obecnějším otázkám o koncepci značkování mluveného jazyka. Ty se snad podaří vyřešit v dalších verzích vytvořením nového tagovacího schématu (NovaMorf) a nástrojů k jeho implemantaci. I přes zmíněné nedostatky přináší tento korpus mnohem lepší podmínky pro práci s mluvenými daty, než tomu bylo dosud. | Užitý způsob lemmatizace a tagování, jakkoli pracný, je pouze prvním pokusem usnadnit uživateli práci s rozsáhlými daty korpusů ORAL, ORTOFON, ORATOR a DIALEKT a jako takový obsahuje chyby a nepřesnosti, které ale zároveň vedou k obecnějším otázkám o koncepci značkování mluveného jazyka. Ty se snad podaří vyřešit v dalších verzích vytvořením nového tagovacího schématu (NovaMorf) a nástrojů k jeho implemantaci. I přes zmíněné nedostatky přináší tento korpus mnohem lepší podmínky pro práci s mluvenými daty, než tomu bylo dosud. |
| |
| **Pojetí lemmatu** | **Pojetí lemmatu** |