Differences

This shows you the differences between two versions of the page.

--- en:cnk:lemtag_mluv [2017/06/20 23:13] – created michalkren
+++ en:cnk:lemtag_mluv [2017/07/18 15:12] (current) – [Lemmatization and tagging in spoken corpora] michalkren
@@ Line 1: / Line 1: @@
-====== Lemmatizace a tagování mluvených korpusů ======
+====== Lemmatization and tagging in spoken corpora ======
-Lemmatizace a tagování transkriptu mluveného projevu je mnohem náročnější než u jazyka psaného. Přibývá zde neznámých tvarů (zachycované redukce výslovnosti, nářeční tvary, nová slova), jež mohou být homonymní s tvary zastoupenými v morfologickém slovníku pro psaný jazyk (např. //pudu// jako zápis výslovnosti slovesného tvaru //půjdu// je homonymní s dativem a lokálem substantiva //pud// a se zaznamenanou krácenou výslovností genitivu plurálu substantiva //půda//). Odlišná struktura neformálního dialogu, kterou charakterizuje množství nedokončených, přerušených a modifikovaných výpovědí, opakujících se slov, výplňkových výrazů, odkazy k mimojazykovému kontextu ap., znesnadňuje určení morfologických kategorií i lingvistům.
+Lemmatizing and tagging a transcription of spoken language is much more demanding than for written language. There is a larger amount of unknown forms (reduced pronunciation, dialectal forms, neologisms), which can be homonymous with forms contained in the morphological dictionary for written language (e.g. //pudu// as recorded pronunciation of the verbal form //půjdu// is homonymous with the dative and locative forms of the noun //pud// and with the recorded shortened pronunciation of the plural genitive of the noun //půda//). The distinct structure of informal dialogue, which is characterized by the quantity of unfinished, interrupted and modified utterances, repeated words, filler sounds, references to the extralinguistic context etc., makes the identification of morphological categories difficult even for linguists.
-Vzhledem k velikosti korpusu je potřebná zejména lemmatizace, bez níž není prakticky možné vyhledat všechny tvary příslušného lemmatu (například tvary redukované a nářeční). Se způsobem transkripce (zejména s užíváním pauzové interpunkce místo interpunkce syntaktické) souvisí i nemožnost použít nástrojů a postupů běžně užívaných pro psaný jazyk.
+With regard to the size of the corpus, lemmatization, in particular, is indispensable, without which it would be virtually impossible to find all forms of a given lemma (for example reduced and dialectal forms). Due to the mode of transcription (namely the use of pause punctuation in the place of syntactic punctuation), tools and procedures commonly used for written language cannot be used.
-Následující způsob lemmatizace a morfologického značkování byl použit pro korpusy [[cnk:oral|ORAL]], [[cnk:ortofon|ORTOFON]] a [[cnk:dialekt|DIALEKT]]. Jeho přínos spočívá především v lemmatizaci a označení slovních druhů. Při vyhledávání však doporučujeme jejich důslednou kontrolu, zvlášť pečlivou v případě dalších morfologických kategorií.
+The following method for lemmatization and morphological tagging has been used for the [[en:cnk:oral|ORAL]], [[en:cnk:ortofon|ORTOFON]] and [[en:cnk:dialekt|DIALEKT]] corpora. Its primary contribution lies in the lemmatization and tagging of word classes. However, it is recommended to carefully double check this when searching, especially in the case of morphological categories.
-Užitý způsob lemmatizace a tagování, jakkoli pracný, je pouze prvním pokusem usnadnit uživateli práci s rozsáhlými daty korpusů ORAL, ORTOFON a DIALEKT a jako takový obsahuje chyby a nepřesnosti, které ale zároveň vedou k obecnějším otázkám o koncepci značkování mluveného jazyka. Ty se snad podaří vyřešit v dalších verzích vytvořením nového tagovacího schématu (NovaMorf) a nástrojů k jeho implemantaci. I přes zmíněné nedostatky přináší tento korpus mnohem lepší podmínky pro práci s mluvenými daty, než tomu bylo dosud.
+The lemmatization and tagging method used, although laborious, is only the first attempt to facilitate working with the extensive data of the ORAL, ORTOFON and DIALEKT corpora, and as such contains errors and inaccuracies, which in turn lead to more general questions regarding the notion of tagging spoken corpora. It is hoped that these will be solved in the upcoming versions by the creation of a new tagging scheme (NovaMorf) and tools for its implementation. Despite these shortcomings, this corpus provides vastly improved conditions for working with spoken data in comparison to previous corpora.
-**Pojetí lemmatu**
+**Concept of lemma**
-Pojetí lemmatu je širší, než je tomu u psaného jazyka. Prioritou je možnost vyhledat všechny tvary určitého slova, které mohou být zaznamenány s redukovanou výslovností, ale i nářeční tvary, jež by mohly mít samostatné lemma (např. //týden – tejden – tédeň – tydeň//). Velkou variantností se vyznačují zejména ukazovací zájmena, např. lemma **tenhleten** obsahuje 105 slovních tvarů (např. nom. sg. neutra může být zapsán následujícími deseti způsoby: //tohleto, todnecto, todleto, todlecto, todlencto, tohlencto, tohlento, toleto, tohlensto, todlensto//).
+The concept of lemma is broader than in written language. The main priority is to be able to find all forms of a given words, which can be recorded with reduced pronunciation, but also dialectal forms, which could have a separate lemma (e.g. //týden – tejden – tédeň – tydeň//). Large-scale variation is typical namely for demonstrative pronouns e.g. lemma **tenhleten** contains 105 word forms (e.g. nom. sg. neut. can be written in the following ten ways: //tohleto, todnecto, todleto, todlecto, todlencto, tohlencto, tohlento, toleto, tohlensto, todlensto//).
-**Způsob tagování**
+**Tagging method**
-[[seznamy:tagy#pozice_1_-_slovni_druh|Systém morfologických značek]] je stejný jako v psaných korpusech, jsou zde ovšem ponechány některé značky pro sdružené kategorie (např. X pro libovolný rod, Y pro maskulinum životné nebo neživotné atd.) tak, jak jsou obsaženy v použitém morfologickém slovníku MorfFlex CZ (Hajič–Hlaváčová, 2013). Tento slovník byl ručně i poloautomaticky doplňován o nerozpoznané frekventované tvary (např. nářeční koncovky, tvary s odlišnou kvantitou, protetickým v). K samotnému značkování byl použit stochastický tagovací systém MorphoDiTa (Straka a kol., 2014).
+[[seznamy:tagy#pozice_1_-_slovni_druh|The morphological tagging system]] (the description is in Czech only) is the same as for written corpora, however, some tags for associated categories are retained (e.g. X for any gender, Y for masculine animate or inanimate etc.) just as they are contained in the morphological dictionary MorfFlex CZ (Hajič–Hlaváčová, 2013). This dictionary was manually and semiautomatically supplemented by frequently unrecognised forms (e.g. dialectal suffixes, forms with varying quantity, prothetic v). The stochastic tagging system MorphoDiTa (Straka a kol., 2014) was used for the tagging itself.
-===== Úpravy morfologického slovníku =====
-Výchozí morfologický slovník MorfFlex CZ (Hajič–Hlaváčová, 2013) byl ručně a poloautomaticky doplňován, upravován nebo byly některé interpretace gramatických kategorií vynechány s ohledem na cílový registr (např. tvar //bej// představuje v mluvených datech pouze redukovanou variantu slovesa //být//, a nikoliv substantivum). Nerozpoznané tvary byly doplňovány od frekvence 5 výskytů.
+===== Modifications to the morphological dictionary =====
-Příklady některých úprav:
-**Poloautomatické** doplňování:
+The original morphological dictionary MorfFlex CZ (Hajič–Hlaváčová, 2013) was manually and semiautomatically supplemented, edited, and selected interpretations of grammatical categories were omitted with regard to the target register (e.g. the form //bej// in spoken data represents only a reduced variant of the verb //být//, and not a noun). Unrecognised forms were added from a frequency of 5 occurrences or higher.
-  * **nářeční koncovky** jako např. u ak. sg. fem. zakončení na -u (//nedělu, chvilu//), slovesné tvary minulého aktivního příčeští (//dělale, chodile//)
+Examples of some modifications:
-  * varianty lišící se **kvantitou samohlásek** (//myslim, vim, makem, polivka//), **palatalizací** (//tydeň//), **přítomností protetického v-** (//vokýnko, vobrazovka//)
-  * "namapování" neznámých tvarů ke známým (se všemi jeho morfologickými interpretacemi)
-**Manuální doplňování**:
+**Semiautomatic additions**:
-  * přiřazení a sjednocení **výslovnostních variant** (např. //třeba, čovek, depák; dokavád, dovaď, dovad//) pod jedno lemma
+  * **dialectal suffixes** such as the acc. sg. fem. ending with -u (//nedělu, chvilu//), verbal forms of the past active participle (//dělale, chodile//)
-  * přiřazení **nářečních podob** (//dňama, Davidoj, ňou//) ke spisovnému lemmatu
+  * variants differing in **vowel quantity** (//myslim, vim, makem, polivka//), **palatalization** (//tydeň//), **the presence of a prothetic v-** (//vokýnko, vobrazovka//)
+  * "mapping" unknown forms to familiar forms (with all of their morphological interpretations)
+**Manual additions**:
+  * assigning and merging **pronunciation variants** (e.g. //třeba, čovek, depák; dokavád, dovaď, dovad//) into one single lemma
+  * assigning **dialectal forms** (//dňama, Davidoj, ňou//) to a standard lemma
-**Odstranění některých interpretací**:
-  * odstranění interpretace výrazu jako adverbium: //prostě//
-  * odstranění interpretace výrazu jako imperativ: //viď//
-  * odstranění interpretace výrazu jako vokativ: //pote// (redukovaná výslovnost //pojďte//)
-**Doplnění některých interpretací**
+**Removal of selected interpretations**:
-  * přidání kategorie částice: //jen// (původně pouze adverbium)
+  * removal of the expression's adverbial interpretation: //prostě//
-  * změna interpretace: //puč// neoznačujeme jako substantivum, jedná se o redukovanou výslovnost imperativu slovesa //půjčit//
+  * removal of the expression's imperative interpretation: //viď//
-===== Podoba lemmatu =====
+  * removal of the expression's vocative interpretation: //pote// (reduced pronunciation of //pojďte//)
-  * většina slov má lemma v podobě **spisovného lemmatu**, tedy stejnou jako v psaném jazyce, a to i v případech, kdy regionální podoba frekvenčně převažuje (např. pod lemma **//týden//** spadají všechny tvary regionálních variant //tejden, tyden, tydeň, tédeň//)
+**Addition of selected interpretations**
-  * slova s** dvojí spisovnou podobou** mají vícenásobné lemma (//polívka/polévka//)
+  * addition of the particle category: //jen// (originally only adverb)
-  * slova, u nichž **nelze jednoznačně přiřadit jednotlivé tvary**, mají také vícenásobné lemma (//myslet/myslit, muset/musit//)
+  * new interpretation: //puč// is no longer a noun, but the imperative of the verb //půjčit// with reduced pronunciation
-  * **zkratky** mají vícenásobné lemma: //SMS/esemeska, endéer/NDR//
+===== Lemma forms =====
-Vícenásobné lemma funguje jako multihodnota, to znamená, že při zadání jedné z možností vždy dostaneme všechny tvary přiřazené k vícenásobnému lemmatu.
+  * most words have a lemma in the form of a **standard lemma**, i.e. the same as in written language, even in cases where the regional form has a higher frequency (e.g. the lemma **//týden//** subsumes all regional variant forms //tejden, tyden, tydeň, tédeň//)
+  * words with a **dual standard form** have a multiple lemma (//polívka/polévka//)
+  * words which **can not be unambiguously assigned one specific form**, also have a multiple lemma (//myslet/myslit, muset/musit//)
+  * **abbreviations** have a multiple lemma: //SMS/esemeska, endéer/NDR//
+The multiple lemma functions as a multi-value, which means that if we enter any one of the forms, the search returns all of the forms assigned to the multiple lemma.
-===== Podoba tagu =====
-Podoba tagu odpovídá [[seznamy:tagy#pozice_1_-_slovni_druh|morfologickým značkám]] používaným pro psané korpusy řady [[cnk:syn|SYN]] před zjednodušením systému značek, neobsahuje označení vidu na 16. pozici.
+===== Tag forms=====
-Kromě těchto značek označuje na první pozici slovního druhu a v atributu POS hodnoty:
-  * **F** pro nedořečená slova (např. //nepoda*//)
+The form of the tags corresponds to that of the [[seznamy:tagy#pozice_1_-_slovni_druh|morphological tags]] (Czech only) used in the [[en:cnk:syn|SYN]] series written corpora before the simplification of the tagging system and does not include aspect in the 16th position.
-  * **H** pro neverbální zvuky (hezitační zvuky, označené @, responzní //hmm, emm//)
+Apart from these tags, the first position for the word class and the POS attribute can have the following values:
-  * **M** pro komentáře (vždy uvedené v kulatých závorkách)
-===== Poděkování =====
+  * **F** for unfinished words (e.g. //nepoda*//)
-Rádi bychom poděkovali za konzultace doc. Kláře Osolsobě a Mgr. Daně Hlaváčkové, Ph.D.
+  * **H** for non-verbal sounds (hesitations, marked @, responsive //hmm, emm//)
+  * **M** for comments (always in round brackets)
-===== Literatura =====
+===== Acknowledgements =====
+We would like to thank doc. Klára Osolsobě and Dr. Dana Hlaváčková for providing valuable consultations.
+===== Sources =====
 <WRAP round tip 70%>
-Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P.: Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie// 2017 (v tisku).
+Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P.: Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie// 2017 (in print).
-Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015) : Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: TSD 2015, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350.
+Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015): Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: TSD 2015, Ed. P. Král a V. Matoušek. Springer International Publishing, 342-350.
 </WRAP>
-===== Související odkazy =====
+===== Related links =====
 <WRAP round box 72%>
-[[cnk:oral|ORAL]] • [[cnk:ortofon|ORTOFON]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]] • [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]] • [[kurz:hledani_ORTOFON|Hledání v korpusu ORTOFON]] • [[cnk:dialekt:prace|Hledání v korpusu DIALEKT]]
+[[en:cnk:oral|ORAL]] • [[en:cnk:ortofon|ORTOFON]] • [[en:cnk:dialekt|DIALEKT]]
  </WRAP>

Trace:

Differences

Search

Navigation

Print/export

Tools

Languages

Licence