AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:lemtag_mluv [2017/06/01 08:22] Zuzana Komrskovácnk:lemtag_mluv [2017/07/10 08:29] (aktuální) – [Literatura] Zuzana Komrsková
Řádek 1: Řádek 1:
 ====== Lemmatizace a tagování mluvených korpusů ====== ====== Lemmatizace a tagování mluvených korpusů ======
  
-Lemmatizace a tagování transkriptu mluveného projevu je mnohem náročnější než u jazyka psaného. Přibývá zde neznámých tvarů (zachycované redukce výslovnosti, nářeční tvary, nová slova). Tyto tvary pak mohou být homonymní s tvary zastoupenými v morfologickém slovníku pro jazyk psaný (např. //pudu// jako zápis výslovnosti slovesného tvaru //půjdu// je homonymní s dativem a lokálem substantiva //pud// a se zaznamenanou krácenou výslovností genitivu plurálu substantiva //půda//). Odlišná struktura neformálního dialogu, kterou charakterizuje množství nedokončených, přerušených a modifikovaných výpovědí, opakujících se slov, výplňkových slov, odkazy k mimojazykovému kontextu ap., znesnadňuje určení morfologických kategorií i lingvistům.  +Lemmatizace a tagování transkriptu mluveného projevu je mnohem náročnější než u jazyka psaného. Přibývá zde neznámých tvarů (zachycované redukce výslovnosti, nářeční tvary, nová slova), jež mohou být homonymní s tvary zastoupenými v morfologickém slovníku pro psaný jazyk (např. //pudu// jako zápis výslovnosti slovesného tvaru //půjdu// je homonymní s dativem a lokálem substantiva //pud// a se zaznamenanou krácenou výslovností genitivu plurálu substantiva //půda//). Odlišná struktura neformálního dialogu, kterou charakterizuje množství nedokončených, přerušených a modifikovaných výpovědí, opakujících se slov, výplňkových výrazů, odkazy k mimojazykovému kontextu ap., znesnadňuje určení morfologických kategorií i lingvistům.  
-Vzhledem k velikosti korpusu je potřebná zejména lemmatizace, bez níž není prakticky možné vyhledat všechny tvary příslušného lemmatu (v transkriptu se navíc objevují tvary redukované a nářeční). Se způsobem transkripce (zejména užíváním pauzové interpunkce místo interpunkce syntaktické) souvisí i nemožnost použít nástrojů a postupů běžně užívaných pro psaný jazyk. +Vzhledem k velikosti korpusu je potřebná zejména lemmatizace, bez níž není prakticky možné vyhledat všechny tvary příslušného lemmatu (například tvary redukované a nářeční). Se způsobem transkripce (zejména užíváním pauzové interpunkce místo interpunkce syntaktické) souvisí i nemožnost použít nástrojů a postupů běžně užívaných pro psaný jazyk. 
  
-Následující způsob lemmatizace a morfologického značkování byl použit pro korpusy [[cnk:oral|ORAL]], [[cnk:ortofon|ORTOFON]] a [[cnk:dialekt|DIALEKT]]. Jeho přínos spočívá především v lemmatizaci a označení slovních druhů, které přesto doporučujeme při vyhledávání pečlivě kontrolovat. Zvlášť pečlivou kontrolu však doporučujeme pro další morfologické kategorie.+Následující způsob lemmatizace a morfologického značkování byl použit pro korpusy [[cnk:oral|ORAL]], [[cnk:ortofon|ORTOFON]] a [[cnk:dialekt|DIALEKT]]. Jeho přínos spočívá především v lemmatizaci a označení slovních druhů. Při vyhledávání však doporučujeme jejich důslednou kontrolu, zvlášť pečlivou v případě dalších morfologických kategorií.
  
 Užitý způsob lemmatizace a tagování, jakkoli pracný, je pouze prvním pokusem usnadnit uživateli práci s rozsáhlými daty korpusů ORAL, ORTOFON a DIALEKT a jako takový obsahuje chyby a nepřesnosti, které ale zároveň vedou k obecnějším otázkám o koncepci značkování mluveného jazyka. Ty se snad podaří vyřešit v dalších verzích vytvořením nového tagovacího schématu (NovaMorf) a nástrojů k jeho implemantaci. I přes zmíněné nedostatky přináší tento korpus mnohem lepší podmínky pro práci s mluvenými daty, než tomu bylo dosud. Užitý způsob lemmatizace a tagování, jakkoli pracný, je pouze prvním pokusem usnadnit uživateli práci s rozsáhlými daty korpusů ORAL, ORTOFON a DIALEKT a jako takový obsahuje chyby a nepřesnosti, které ale zároveň vedou k obecnějším otázkám o koncepci značkování mluveného jazyka. Ty se snad podaří vyřešit v dalších verzích vytvořením nového tagovacího schématu (NovaMorf) a nástrojů k jeho implemantaci. I přes zmíněné nedostatky přináší tento korpus mnohem lepší podmínky pro práci s mluvenými daty, než tomu bylo dosud.
Řádek 14: Řádek 14:
 **Způsob tagování** **Způsob tagování**
  
-[[seznamy:tagy#pozice_1_-_slovni_druh|Systém morfologických značek]] je stejný jako v psaných korpusech, jsou zde ovšem ponechány některé značky pro sdružené kategorie (např. X pro libovolný rod, Y pro maskulinum životné nebo neživoté atd.) tak, jak jsou obsaženy v použitém morfologickém slovníku MorFlex CZ (Hajič–Hlaváčková, 2013). Tento slovník byl ručně i poloautomaticky doplňován o nerozpoznané frekventované tvary (např. nářeční koncovky, tvary s odlišnou kvantitou, protetickým v). K samotnému značkování byl použit stochastický tagovací systém MorphoDiTa (Straka a kol., 2014).+[[seznamy:tagy#pozice_1_-_slovni_druh|Systém morfologických značek]] je stejný jako v psaných korpusech, jsou zde ovšem ponechány některé značky pro sdružené kategorie (např. X pro libovolný rod, Y pro maskulinum životné nebo neživotné atd.) tak, jak jsou obsaženy v použitém morfologickém slovníku MorfFlex CZ (Hajič–Hlaváčová, 2013). Tento slovník byl ručně i poloautomaticky doplňován o nerozpoznané frekventované tvary (např. nářeční koncovky, tvary s odlišnou kvantitou, protetickým v). K samotnému značkování byl použit stochastický tagovací systém MorphoDiTa (Straka a kol., 2014).
 ===== Úpravy morfologického slovníku ===== ===== Úpravy morfologického slovníku =====
  
-Výchozí morfologický slovník MorfFlex CZ (Hajič Hlaváčová, 2013) byl ručně a poloautomaticky doplňován, upravován nebo byly některé interpretace gramatických kategorií vynechány s ohledem na cílový registr (např. tvar //bej// představuje v mluvených datech pouze redukovanou variantu slovesa //být//, a nikoliv substantivum). Nerozpoznané tvary byly doplňovány od frekvence 5 výskytů. +Výchozí morfologický slovník MorfFlex CZ (HajičHlaváčová, 2013) byl ručně a poloautomaticky doplňován, upravován nebo byly některé interpretace gramatických kategorií vynechány s ohledem na cílový registr (např. tvar //bej// představuje v mluvených datech pouze redukovanou variantu slovesa //být//, a nikoliv substantivum). Nerozpoznané tvary byly doplňovány od frekvence 5 výskytů. 
 Příklady některých úprav: Příklady některých úprav:
  
 **Poloautomatické** doplňování: **Poloautomatické** doplňování:
-  * **nářeční koncovky** jako např. ak. sg. fem. na -u (//nedělu, chvilu//), slovesné tvary minulého aktivního příčeští (//dělale, chodile//)+  * **nářeční koncovky** jako např. ak. sg. fem. zakončení na -u (//nedělu, chvilu//), slovesné tvary minulého aktivního příčeští (//dělale, chodile//)
   * varianty lišící se **kvantitou samohlásek** (//myslim, vim, makem, polivka//), **palatalizací** (//tydeň//), **přítomností protetického v-** (//vokýnko, vobrazovka//)   * varianty lišící se **kvantitou samohlásek** (//myslim, vim, makem, polivka//), **palatalizací** (//tydeň//), **přítomností protetického v-** (//vokýnko, vobrazovka//)
-  * "namapování" neznámých tvarů ke známým (se všemi jeho morfologickými intepretacemi)+  * "namapování" neznámých tvarů ke známým (se všemi jeho morfologickými interpretacemi)
  
 **Manuální doplňování**: **Manuální doplňování**:
Řádek 31: Řádek 31:
  
 **Odstranění některých interpretací**: **Odstranění některých interpretací**:
-  * odstranění interpretace jako adverbium: //prostě// +  * odstranění interpretace výrazu jako adverbium: //prostě// 
-  * odstranění interpretace jako imperativ //viď// +  * odstranění interpretace výrazu jako imperativ//viď// 
-  * odstranění interpretace jako vokativu //pote// (redukovaná výslovnost //pojďte//)+  * odstranění interpretace výrazu jako vokativ: //pote// (redukovaná výslovnost //pojďte//)
  
 **Doplnění některých interpretací** **Doplnění některých interpretací**
Řádek 40: Řádek 40:
 ===== Podoba lemmatu ===== ===== Podoba lemmatu =====
  
-  * většinu slov má lemma v podobě **spisovného lemmatu**, tedy stejnou jako v psaném jazyce, a to i v případech, kdy regionální podoba frekvenčně převažuje (např. pod lemma **týden** spadají všechny tvary regionálních variant //tejden, tydeň, tédeň//+  * většina slov má lemma v podobě **spisovného lemmatu**, tedy stejnou jako v psaném jazyce, a to i v případech, kdy regionální podoba frekvenčně převažuje (např. pod lemma **//týden//** spadají všechny tvary regionálních variant //tejden, tyden, tydeň, tédeň//
-  * slova s** dvojí spisovnou podobou** mají dvojité lemma  (//polívka/polévka//+  * slova s** dvojí spisovnou podobou** mají vícenásobné lemma (//polívka/polévka//
-  * slova, u nichž **nelze jednoznačně přiřadit jednotlivé tvary** mají také dvojité lemma (//myslet/myslit, muset/musit//+  * slova, u nichž **nelze jednoznačně přiřadit jednotlivé tvary**mají také vícenásobné lemma (//myslet/myslit, muset/musit//
-  * **zkratky** mají dvojIté lemma:// SMS/esemeska, endéer/NDR// +  * **zkratky** mají vícenásobné lemma: //SMS/esemeska, endéer/NDR//  
 + 
 +Vícenásobné lemma funguje jako multihodnota, to znamená, že při zadání jedné z možností vždy dostaneme všechny tvary přiřazené k vícenásobnému lemmatu.
  
-Dvojité lemma funguje jako multihodnota, to znamená, že při zadání jedné z možností vždy dostaneme všechny tvary přiřazené k dvojitému lemmatu. 
  
 ===== Podoba tagu ===== ===== Podoba tagu =====
Řádek 53: Řádek 54:
  
   * **F** pro nedořečená slova (např. //nepoda*//)   * **F** pro nedořečená slova (např. //nepoda*//)
-  * **H** pro neverbální zvuky (hezitační zvuky označené @, responzní //hmm, emm//)+  * **H** pro neverbální zvuky (hezitační zvukyoznačené @, responzní //hmm, emm//)
   * **M** pro komentáře (vždy uvedené v kulatých závorkách)   * **M** pro komentáře (vždy uvedené v kulatých závorkách)
 +
 +===== Poděkování =====
 +Rádi bychom poděkovali za konzultace doc. Kláře Osolsobě a Mgr. Daně Hlaváčkové, Ph.D. 
  
 ===== Literatura ===== ===== Literatura =====
Řádek 60: Řádek 64:
 <WRAP round tip 70%> <WRAP round tip 70%>
  
-Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P.: Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie// 2017 (v tisku).+Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. (2017): Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie//, 15, 47-67.
  
 Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015) : Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: TSD 2015, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350. Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015) : Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: TSD 2015, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350.