Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:lemtag_mluv [2017/06/01 11:01] – [Lemmatizace a tagování mluvených korpusů] petrapoukarova | cnk:lemtag_mluv [2017/07/10 08:29] (aktuální) – [Literatura] zuzanakomrskova |
---|
**Způsob tagování** | **Způsob tagování** |
| |
[[seznamy:tagy#pozice_1_-_slovni_druh|Systém morfologických značek]] je stejný jako v psaných korpusech, jsou zde ovšem ponechány některé značky pro sdružené kategorie (např. X pro libovolný rod, Y pro maskulinum životné nebo neživotné atd.) tak, jak jsou obsaženy v použitém morfologickém slovníku MorFlex CZ (Hajič–Hlaváčková, 2013). Tento slovník byl ručně i poloautomaticky doplňován o nerozpoznané frekventované tvary (např. nářeční koncovky, tvary s odlišnou kvantitou, protetickým v). K samotnému značkování byl použit stochastický tagovací systém MorphoDiTa (Straka a kol., 2014). | [[seznamy:tagy#pozice_1_-_slovni_druh|Systém morfologických značek]] je stejný jako v psaných korpusech, jsou zde ovšem ponechány některé značky pro sdružené kategorie (např. X pro libovolný rod, Y pro maskulinum životné nebo neživotné atd.) tak, jak jsou obsaženy v použitém morfologickém slovníku MorfFlex CZ (Hajič–Hlaváčová, 2013). Tento slovník byl ručně i poloautomaticky doplňován o nerozpoznané frekventované tvary (např. nářeční koncovky, tvary s odlišnou kvantitou, protetickým v). K samotnému značkování byl použit stochastický tagovací systém MorphoDiTa (Straka a kol., 2014). |
===== Úpravy morfologického slovníku ===== | ===== Úpravy morfologického slovníku ===== |
| |
Výchozí morfologický slovník MorfFlex CZ (Hajič - Hlaváčová, 2013) byl ručně a poloautomaticky doplňován, upravován nebo byly některé interpretace gramatických kategorií vynechány s ohledem na cílový registr (např. tvar //bej// představuje v mluvených datech pouze redukovanou variantu slovesa //být//, a nikoliv substantivum). Nerozpoznané tvary byly doplňovány od frekvence 5 výskytů. | Výchozí morfologický slovník MorfFlex CZ (Hajič–Hlaváčová, 2013) byl ručně a poloautomaticky doplňován, upravován nebo byly některé interpretace gramatických kategorií vynechány s ohledem na cílový registr (např. tvar //bej// představuje v mluvených datech pouze redukovanou variantu slovesa //být//, a nikoliv substantivum). Nerozpoznané tvary byly doplňovány od frekvence 5 výskytů. |
Příklady některých úprav: | Příklady některých úprav: |
| |
**Poloautomatické** doplňování: | **Poloautomatické** doplňování: |
* **nářeční koncovky** jako např. ak. sg. fem. na -u (//nedělu, chvilu//), slovesné tvary minulého aktivního příčeští (//dělale, chodile//) | * **nářeční koncovky** jako např. u ak. sg. fem. zakončení na -u (//nedělu, chvilu//), slovesné tvary minulého aktivního příčeští (//dělale, chodile//) |
* varianty lišící se **kvantitou samohlásek** (//myslim, vim, makem, polivka//), **palatalizací** (//tydeň//), **přítomností protetického v-** (//vokýnko, vobrazovka//) | * varianty lišící se **kvantitou samohlásek** (//myslim, vim, makem, polivka//), **palatalizací** (//tydeň//), **přítomností protetického v-** (//vokýnko, vobrazovka//) |
* "namapování" neznámých tvarů ke známým (se všemi jeho morfologickými intepretacemi) | * "namapování" neznámých tvarů ke známým (se všemi jeho morfologickými interpretacemi) |
| |
**Manuální doplňování**: | **Manuální doplňování**: |
| |
**Odstranění některých interpretací**: | **Odstranění některých interpretací**: |
* odstranění interpretace jako adverbium: //prostě// | * odstranění interpretace výrazu jako adverbium: //prostě// |
* odstranění interpretace jako imperativ //viď// | * odstranění interpretace výrazu jako imperativ: //viď// |
* odstranění interpretace jako vokativu //pote// (redukovaná výslovnost //pojďte//) | * odstranění interpretace výrazu jako vokativ: //pote// (redukovaná výslovnost //pojďte//) |
| |
**Doplnění některých interpretací** | **Doplnění některých interpretací** |
===== Podoba lemmatu ===== | ===== Podoba lemmatu ===== |
| |
* většinu slov má lemma v podobě **spisovného lemmatu**, tedy stejnou jako v psaném jazyce, a to i v případech, kdy regionální podoba frekvenčně převažuje (např. pod lemma **týden** spadají všechny tvary regionálních variant //tejden, tydeň, tédeň//) | * většina slov má lemma v podobě **spisovného lemmatu**, tedy stejnou jako v psaném jazyce, a to i v případech, kdy regionální podoba frekvenčně převažuje (např. pod lemma **//týden//** spadají všechny tvary regionálních variant //tejden, tyden, tydeň, tédeň//) |
* slova s** dvojí spisovnou podobou** mají dvojité lemma (//polívka/polévka//) | * slova s** dvojí spisovnou podobou** mají vícenásobné lemma (//polívka/polévka//) |
* slova, u nichž **nelze jednoznačně přiřadit jednotlivé tvary** mají také dvojité lemma (//myslet/myslit, muset/musit//) | * slova, u nichž **nelze jednoznačně přiřadit jednotlivé tvary**, mají také vícenásobné lemma (//myslet/myslit, muset/musit//) |
* **zkratky** mají dvojIté lemma:// SMS/esemeska, endéer/NDR// | * **zkratky** mají vícenásobné lemma: //SMS/esemeska, endéer/NDR// |
| |
| Vícenásobné lemma funguje jako multihodnota, to znamená, že při zadání jedné z možností vždy dostaneme všechny tvary přiřazené k vícenásobnému lemmatu. |
| |
Dvojité lemma funguje jako multihodnota, to znamená, že při zadání jedné z možností vždy dostaneme všechny tvary přiřazené k dvojitému lemmatu. | |
| |
===== Podoba tagu ===== | ===== Podoba tagu ===== |
| |
* **F** pro nedořečená slova (např. //nepoda*//) | * **F** pro nedořečená slova (např. //nepoda*//) |
* **H** pro neverbální zvuky (hezitační zvuky označené @, responzní //hmm, emm//) | * **H** pro neverbální zvuky (hezitační zvuky, označené @, responzní //hmm, emm//) |
* **M** pro komentáře (vždy uvedené v kulatých závorkách) | * **M** pro komentáře (vždy uvedené v kulatých závorkách) |
| |
| ===== Poděkování ===== |
| Rádi bychom poděkovali za konzultace doc. Kláře Osolsobě a Mgr. Daně Hlaváčkové, Ph.D. |
| |
===== Literatura ===== | ===== Literatura ===== |
<WRAP round tip 70%> | <WRAP round tip 70%> |
| |
Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P.: Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie// 2017 (v tisku). | Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. (2017): Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie//, 15, 47-67. |
| |
Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015) : Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: TSD 2015, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350. | Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015) : Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: TSD 2015, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350. |