Lemmatizace a tagování mluvených korpusů

Lemmatizace a tagování transkriptu mluveného projevu je mnohem náročnější než u jazyka psaného. Přibývá zde neznámých tvarů (zachycované redukce výslovnosti, nářeční tvary, nová slova), jež mohou být homonymní s tvary zastoupenými v morfologickém slovníku pro psaný jazyk (např. pudu jako zápis výslovnosti slovesného tvaru půjdu je homonymní s dativem a lokálem substantiva pud a se zaznamenanou krácenou výslovností genitivu plurálu substantiva půda). Odlišná struktura neformálního dialogu, kterou charakterizuje množství nedokončených, přerušených a modifikovaných výpovědí, opakujících se slov, výplňkových výrazů, odkazy k mimojazykovému kontextu ap., znesnadňuje určení morfologických kategorií i lingvistům. Vzhledem k velikosti korpusu je potřebná zejména lemmatizace, bez níž není prakticky možné vyhledat všechny tvary příslušného lemmatu (například tvary redukované a nářeční). Se způsobem transkripce (zejména s užíváním pauzové interpunkce místo interpunkce syntaktické) souvisí i nemožnost použít nástrojů a postupů běžně užívaných pro psaný jazyk.

Následující způsob lemmatizace a morfologického značkování byl použit pro korpusy ORAL, ORTOFON a DIALEKT. Jeho přínos spočívá především v lemmatizaci a označení slovních druhů. Při vyhledávání však doporučujeme jejich důslednou kontrolu, zvlášť pečlivou v případě dalších morfologických kategorií.

Užitý způsob lemmatizace a tagování, jakkoli pracný, je pouze prvním pokusem usnadnit uživateli práci s rozsáhlými daty korpusů ORAL, ORTOFON a DIALEKT a jako takový obsahuje chyby a nepřesnosti, které ale zároveň vedou k obecnějším otázkám o koncepci značkování mluveného jazyka. Ty se snad podaří vyřešit v dalších verzích vytvořením nového tagovacího schématu (NovaMorf) a nástrojů k jeho implemantaci. I přes zmíněné nedostatky přináší tento korpus mnohem lepší podmínky pro práci s mluvenými daty, než tomu bylo dosud.

Pojetí lemmatu

Pojetí lemmatu je širší, než je tomu u psaného jazyka. Prioritou je možnost vyhledat všechny tvary určitého slova, které mohou být zaznamenány s redukovanou výslovností, ale i nářeční tvary, jež by mohly mít samostatné lemma (např. týden – tejden – tédeň – tydeň). Velkou variantností se vyznačují zejména ukazovací zájmena, např. lemma tenhleten obsahuje 105 slovních tvarů (např. nom. sg. neutra může být zapsán následujícími deseti způsoby: tohleto, todnecto, todleto, todlecto, todlencto, tohlencto, tohlento, toleto, tohlensto, todlensto).

Způsob tagování

Systém morfologických značek je stejný jako v psaných korpusech, jsou zde ovšem ponechány některé značky pro sdružené kategorie (např. X pro libovolný rod, Y pro maskulinum životné nebo neživotné atd.) tak, jak jsou obsaženy v použitém morfologickém slovníku MorfFlex CZ (Hajič–Hlaváčová, 2013). Tento slovník byl ručně i poloautomaticky doplňován o nerozpoznané frekventované tvary (např. nářeční koncovky, tvary s odlišnou kvantitou, protetickým v). K samotnému značkování byl použit stochastický tagovací systém MorphoDiTa (Straka a kol., 2014).

Úpravy morfologického slovníku

Výchozí morfologický slovník MorfFlex CZ (Hajič–Hlaváčová, 2013) byl ručně a poloautomaticky doplňován, upravován nebo byly některé interpretace gramatických kategorií vynechány s ohledem na cílový registr (např. tvar bej představuje v mluvených datech pouze redukovanou variantu slovesa být, a nikoliv substantivum). Nerozpoznané tvary byly doplňovány od frekvence 5 výskytů. Příklady některých úprav:

Poloautomatické doplňování:

nářeční koncovky jako např. u ak. sg. fem. zakončení na -u (nedělu, chvilu), slovesné tvary minulého aktivního příčeští (dělale, chodile)
varianty lišící se kvantitou samohlásek (myslim, vim, makem, polivka), palatalizací (tydeň), přítomností protetického v- (vokýnko, vobrazovka)
„namapování“ neznámých tvarů ke známým (se všemi jeho morfologickými interpretacemi)

Manuální doplňování:

přiřazení a sjednocení výslovnostních variant (např. třeba, čovek, depák; dokavád, dovaď, dovad) pod jedno lemma
přiřazení nářečních podob (dňama, Davidoj, ňou) ke spisovnému lemmatu

Odstranění některých interpretací:

odstranění interpretace výrazu jako adverbium: prostě
odstranění interpretace výrazu jako imperativ: viď
odstranění interpretace výrazu jako vokativ: pote (redukovaná výslovnost pojďte)

Doplnění některých interpretací

přidání kategorie částice: jen (původně pouze adverbium)
změna interpretace: puč neoznačujeme jako substantivum, jedná se o redukovanou výslovnost imperativu slovesa půjčit

Podoba lemmatu

většina slov má lemma v podobě spisovného lemmatu, tedy stejnou jako v psaném jazyce, a to i v případech, kdy regionální podoba frekvenčně převažuje (např. pod lemma týden spadají všechny tvary regionálních variant tejden, tydeň, tédeň)
slova s dvojí spisovnou podobou mají vícenásobné lemma (polívka/polévka)
slova, u nichž nelze jednoznačně přiřadit jednotlivé tvary, mají také vícenásobné lemma (myslet/myslit, muset/musit)
zkratky mají vícenásobné lemma: SMS/esemeska, endéer/NDR

Dvojité lemma funguje jako multihodnota, to znamená, že při zadání jedné z možností vždy dostaneme všechny tvary přiřazené k dvojitému lemmatu.

Podoba tagu

Podoba tagu odpovídá morfologickým značkám používaným pro psané korpusy řady SYN před zjednodušením systému značek, neobsahuje označení vidu na 16. pozici. Kromě těchto značek označuje na první pozici slovního druhu a v atributu POS hodnoty:

F pro nedořečená slova (např. nepoda*)
H pro neverbální zvuky (hezitační zvuky, označené @, responzní hmm, emm)
M pro komentáře (vždy uvedené v kulatých závorkách)

Literatura

Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P.: Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In Korpus - Gramatika - Axiologie 2017 (v tisku).

Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015) : Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: TSD 2015, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350.