Lemmatization and tagging in spoken corpora

Lemmatizing and tagging a transcription of spoken language is much more demanding than for written language. There is a larger amount of unknown forms (reduced pronunciation, dialectal forms, neologisms), which can be homonymous with forms contained in the morphological dictionary for written language (e.g. pudu as recorded pronunciation of the verbal form půjdu is homonymous with the dative and locative forms of the noun pud and with the recorded shortened pronunciation of the plural genitive of the noun půda). The distinct structure of informal dialogue, which is characterized by the quantity of unfinished, interrupted and modified utterances, repeated words, filler sounds, references to the extralinguistic context etc., makes the identification of morphological categories difficult even for linguists. With regard to the size of the corpus, lemmatization, in particular, is indispensable, without which it would be virtually impossible to find all forms of a given lemma (for example reduced and dialectal forms). Due to the mode of transcription (namely the use of pause punctuation in the place of syntactic punctuation), tools and procedures commonly used for written language cannot be used.

The following method for lemmatization and morphological tagging has been used for the ORAL, ORTOFON and DIALEKT corpora. Its primary contribution lies in the lemmatization and tagging of word classes. However, it is recommended to carefully double check this when searching, especially in the case of morphological categories.

The lemmatization and tagging method used, although laborious, is only the first attempt to facilitate working with the extensive data of the ORAL, ORTOFON and DIALEKT corpora, and as such contains errors and inaccuracies, which in turn lead to more general questions regarding the notion of tagging spoken corpora. It is hoped that these will be solved in the upcoming versions by the creation of a new tagging scheme (NovaMorf) and tools for its implementation. Despite these shortcomings, this corpus provides vastly improved conditions for working with spoken data in comparison to previous corpora.

Concept of lemma

Pojetí lemmatu je širší, než je tomu u psaného jazyka. Prioritou je možnost vyhledat všechny tvary určitého slova, které mohou být zaznamenány s redukovanou výslovností, ale i nářeční tvary, jež by mohly mít samostatné lemma (např. týden – tejden – tédeň – tydeň). Velkou variantností se vyznačují zejména ukazovací zájmena, např. lemma tenhleten obsahuje 105 slovních tvarů (např. nom. sg. neutra může být zapsán následujícími deseti způsoby: tohleto, todnecto, todleto, todlecto, todlencto, tohlencto, tohlento, toleto, tohlensto, todlensto).

Tagging method

Systém morfologických značek je stejný jako v psaných korpusech, jsou zde ovšem ponechány některé značky pro sdružené kategorie (např. X pro libovolný rod, Y pro maskulinum životné nebo neživotné atd.) tak, jak jsou obsaženy v použitém morfologickém slovníku MorfFlex CZ (Hajič–Hlaváčová, 2013). Tento slovník byl ručně i poloautomaticky doplňován o nerozpoznané frekventované tvary (např. nářeční koncovky, tvary s odlišnou kvantitou, protetickým v). K samotnému značkování byl použit stochastický tagovací systém MorphoDiTa (Straka a kol., 2014).

Úpravy morfologického slovníku

Výchozí morfologický slovník MorfFlex CZ (Hajič–Hlaváčová, 2013) byl ručně a poloautomaticky doplňován, upravován nebo byly některé interpretace gramatických kategorií vynechány s ohledem na cílový registr (např. tvar bej představuje v mluvených datech pouze redukovanou variantu slovesa být, a nikoliv substantivum). Nerozpoznané tvary byly doplňovány od frekvence 5 výskytů. Příklady některých úprav:

Poloautomatické doplňování:

nářeční koncovky jako např. u ak. sg. fem. zakončení na -u (nedělu, chvilu), slovesné tvary minulého aktivního příčeští (dělale, chodile)
varianty lišící se kvantitou samohlásek (myslim, vim, makem, polivka), palatalizací (tydeň), přítomností protetického v- (vokýnko, vobrazovka)
“namapování” neznámých tvarů ke známým (se všemi jeho morfologickými interpretacemi)

Manuální doplňování:

přiřazení a sjednocení výslovnostních variant (např. třeba, čovek, depák; dokavád, dovaď, dovad) pod jedno lemma
přiřazení nářečních podob (dňama, Davidoj, ňou) ke spisovnému lemmatu

Odstranění některých interpretací:

odstranění interpretace výrazu jako adverbium: prostě
odstranění interpretace výrazu jako imperativ: viď
odstranění interpretace výrazu jako vokativ: pote (redukovaná výslovnost pojďte)

Doplnění některých interpretací

přidání kategorie částice: jen (původně pouze adverbium)
změna interpretace: puč neoznačujeme jako substantivum, jedná se o redukovanou výslovnost imperativu slovesa půjčit

Podoba lemmatu

většina slov má lemma v podobě spisovného lemmatu, tedy stejnou jako v psaném jazyce, a to i v případech, kdy regionální podoba frekvenčně převažuje (např. pod lemma týden spadají všechny tvary regionálních variant tejden, tyden, tydeň, tédeň)
slova s dvojí spisovnou podobou mají vícenásobné lemma (polívka/polévka)
slova, u nichž nelze jednoznačně přiřadit jednotlivé tvary, mají také vícenásobné lemma (myslet/myslit, muset/musit)
zkratky mají vícenásobné lemma: SMS/esemeska, endéer/NDR

Vícenásobné lemma funguje jako multihodnota, to znamená, že při zadání jedné z možností vždy dostaneme všechny tvary přiřazené k vícenásobnému lemmatu.

Tag forms

The form of the tags corresponds to that of the morphological tags used in the SYN series written corpora before the simplification of the tagging system, and does not include aspect on the 16th position. Apart from these tags, the first position for the word class and the POS attribute can have the following values:

F for unfinished words (e.g. nepoda*)
H for non-verbal sounds (hesitations, marked @, responsive hmm, emm)
M for comments (always in round brackets)

Acknowledgements

We would like to thank doc. Klára Osolsobě and Mgr. Dana Hlaváčková, Ph.D. for providing valuable consultation.

Sources

Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P.: Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In Korpus - Gramatika - Axiologie 2017 (in print).

Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015): Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: TSD 2015, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350.