AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
cnk:lemtag_mluv [2025/05/27 11:21] – [Lemmatizace a tagování mluvených korpusů ORAL (verze 1), ORTOFON (verze 1 a 2), DIALEKT (verze 1 a 2)] martinawaclawicovacnk:lemtag_mluv [2025/05/27 11:21] (aktuální) – [Lemmatizace a tagování mluvených korpusů ORAL (verze 1), ORTOFON (verze 1 a 2), DIALEKT (verze 1 a 2), ORATOR (verze 2)] martinawaclawicova
Řádek 6: Řádek 6:
 Následující způsob lemmatizace a morfologického značkování byl použit pro korpusy [[cnk:oral|ORAL]] v1, [[cnk:ortofon|ORTOFON]] v1 a v2, [[cnk:dialekt|DIALEKT]] v1 a v2 a [[cnk:orator|ORATOR]] v2. Jeho přínos spočívá především v lemmatizaci a označení slovních druhů. Při vyhledávání však doporučujeme jejich důslednou kontrolu, zvlášť pečlivou v případě dalších morfologických kategorií. Následující způsob lemmatizace a morfologického značkování byl použit pro korpusy [[cnk:oral|ORAL]] v1, [[cnk:ortofon|ORTOFON]] v1 a v2, [[cnk:dialekt|DIALEKT]] v1 a v2 a [[cnk:orator|ORATOR]] v2. Jeho přínos spočívá především v lemmatizaci a označení slovních druhů. Při vyhledávání však doporučujeme jejich důslednou kontrolu, zvlášť pečlivou v případě dalších morfologických kategorií.
  
-Užitý způsob lemmatizace a tagování, jakkoli pracný, je pouze prvním pokusem usnadnit uživateli práci s rozsáhlými daty korpusů ORAL, ORTOFON a DIALEKT a jako takový obsahuje chyby a nepřesnosti, které ale zároveň vedou k obecnějším otázkám o koncepci značkování mluveného jazyka. Ty se snad podaří vyřešit v dalších verzích vytvořením nového tagovacího schématu (NovaMorf) a nástrojů k jeho implemantaci. I přes zmíněné nedostatky přináší tento korpus mnohem lepší podmínky pro práci s mluvenými daty, než tomu bylo dosud.+Užitý způsob lemmatizace a tagování, jakkoli pracný, je pouze prvním pokusem usnadnit uživateli práci s rozsáhlými daty korpusů ORAL, ORTOFON, ORATOR a DIALEKT a jako takový obsahuje chyby a nepřesnosti, které ale zároveň vedou k obecnějším otázkám o koncepci značkování mluveného jazyka. Ty se snad podaří vyřešit v dalších verzích vytvořením nového tagovacího schématu (NovaMorf) a nástrojů k jeho implemantaci. I přes zmíněné nedostatky přináší tento korpus mnohem lepší podmínky pro práci s mluvenými daty, než tomu bylo dosud.
  
 **Pojetí lemmatu** **Pojetí lemmatu**