AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:lemtag_mluv [2017/07/10 08:29] – [Literatura] zuzanakomrskovacnk:lemtag_mluv [2024/06/05 21:28] (aktuální) – [Lemmatizace a tagování mluvených korpusů ORAL (verze 1), ORTOFON (verze 1 a 2), DIALEKT (verze 1 a 2)] jankrivan
Řádek 1: Řádek 1:
-====== Lemmatizace a tagování mluvených korpusů ======+====== Lemmatizace a tagování mluvených korpusů ORAL (verze 1), ORTOFON (verze 1 a 2), DIALEKT (verze 1 a 2) ======
  
 Lemmatizace a tagování transkriptu mluveného projevu je mnohem náročnější než u jazyka psaného. Přibývá zde neznámých tvarů (zachycované redukce výslovnosti, nářeční tvary, nová slova), jež mohou být homonymní s tvary zastoupenými v morfologickém slovníku pro psaný jazyk (např. //pudu// jako zápis výslovnosti slovesného tvaru //půjdu// je homonymní s dativem a lokálem substantiva //pud// a se zaznamenanou krácenou výslovností genitivu plurálu substantiva //půda//). Odlišná struktura neformálního dialogu, kterou charakterizuje množství nedokončených, přerušených a modifikovaných výpovědí, opakujících se slov, výplňkových výrazů, odkazy k mimojazykovému kontextu ap., znesnadňuje určení morfologických kategorií i lingvistům.  Lemmatizace a tagování transkriptu mluveného projevu je mnohem náročnější než u jazyka psaného. Přibývá zde neznámých tvarů (zachycované redukce výslovnosti, nářeční tvary, nová slova), jež mohou být homonymní s tvary zastoupenými v morfologickém slovníku pro psaný jazyk (např. //pudu// jako zápis výslovnosti slovesného tvaru //půjdu// je homonymní s dativem a lokálem substantiva //pud// a se zaznamenanou krácenou výslovností genitivu plurálu substantiva //půda//). Odlišná struktura neformálního dialogu, kterou charakterizuje množství nedokončených, přerušených a modifikovaných výpovědí, opakujících se slov, výplňkových výrazů, odkazy k mimojazykovému kontextu ap., znesnadňuje určení morfologických kategorií i lingvistům. 
 Vzhledem k velikosti korpusu je potřebná zejména lemmatizace, bez níž není prakticky možné vyhledat všechny tvary příslušného lemmatu (například tvary redukované a nářeční). Se způsobem transkripce (zejména s užíváním pauzové interpunkce místo interpunkce syntaktické) souvisí i nemožnost použít nástrojů a postupů běžně užívaných pro psaný jazyk.  Vzhledem k velikosti korpusu je potřebná zejména lemmatizace, bez níž není prakticky možné vyhledat všechny tvary příslušného lemmatu (například tvary redukované a nářeční). Se způsobem transkripce (zejména s užíváním pauzové interpunkce místo interpunkce syntaktické) souvisí i nemožnost použít nástrojů a postupů běžně užívaných pro psaný jazyk. 
  
-Následující způsob lemmatizace a morfologického značkování byl použit pro korpusy [[cnk:oral|ORAL]], [[cnk:ortofon|ORTOFON]] a [[cnk:dialekt|DIALEKT]]. Jeho přínos spočívá především v lemmatizaci a označení slovních druhů. Při vyhledávání však doporučujeme jejich důslednou kontrolu, zvlášť pečlivou v případě dalších morfologických kategorií.+Následující způsob lemmatizace a morfologického značkování byl použit pro korpusy [[cnk:oral|ORAL]] v1, [[cnk:ortofon|ORTOFON]] v1 a v2 a [[cnk:dialekt|DIALEKT]] v1 a v2. Jeho přínos spočívá především v lemmatizaci a označení slovních druhů. Při vyhledávání však doporučujeme jejich důslednou kontrolu, zvlášť pečlivou v případě dalších morfologických kategorií.
  
 Užitý způsob lemmatizace a tagování, jakkoli pracný, je pouze prvním pokusem usnadnit uživateli práci s rozsáhlými daty korpusů ORAL, ORTOFON a DIALEKT a jako takový obsahuje chyby a nepřesnosti, které ale zároveň vedou k obecnějším otázkám o koncepci značkování mluveného jazyka. Ty se snad podaří vyřešit v dalších verzích vytvořením nového tagovacího schématu (NovaMorf) a nástrojů k jeho implemantaci. I přes zmíněné nedostatky přináší tento korpus mnohem lepší podmínky pro práci s mluvenými daty, než tomu bylo dosud. Užitý způsob lemmatizace a tagování, jakkoli pracný, je pouze prvním pokusem usnadnit uživateli práci s rozsáhlými daty korpusů ORAL, ORTOFON a DIALEKT a jako takový obsahuje chyby a nepřesnosti, které ale zároveň vedou k obecnějším otázkám o koncepci značkování mluveného jazyka. Ty se snad podaří vyřešit v dalších verzích vytvořením nového tagovacího schématu (NovaMorf) a nástrojů k jeho implemantaci. I přes zmíněné nedostatky přináší tento korpus mnohem lepší podmínky pro práci s mluvenými daty, než tomu bylo dosud.