Lemmatizace a tagování mluvených korpusů

Lemmatizace a tagování transkriptu mluveného projevu je mnohem náročnější než u jazyka psaného. Přibývá zde neznámých tvarů (zachycované redukce výslovnosti, nářeční tvary, nová slova), jež mohou být homonymní s tvary zastoupenými v morfologickém slovníku pro psaný jazyk (např. pudu jako zápis výslovnosti slovesného tvaru půjdu je homonymní s dativem a lokálem substantiva pud a se zaznamenanou krácenou výslovností genitivu plurálu substantiva půda). Odlišná struktura neformálního dialogu, kterou charakterizuje množství nedokončených, přerušených a modifikovaných výpovědí, opakujících se slov, výplňkových výrazů, odkazy k mimojazykovému kontextu ap., znesnadňuje určení morfologických kategorií i lingvistům. Vzhledem k velikosti korpusu je potřebná zejména lemmatizace, bez níž není prakticky možné vyhledat všechny tvary příslušného lemmatu (například tvary redukované a nářeční). Se způsobem transkripce (zejména s užíváním pauzové interpunkce místo interpunkce syntaktické) souvisí i nemožnost použít nástrojů a postupů běžně užívaných pro psaný jazyk.

Následující způsob lemmatizace a morfologického značkování byl použit pro korpusy ORAL, ORTOFON a DIALEKT. Jeho přínos spočívá především v lemmatizaci a označení slovních druhů. Při vyhledávání však doporučujeme jejich důslednou kontrolu, zvlášť pečlivou v případě dalších morfologických kategorií.

Užitý způsob lemmatizace a tagování, jakkoli pracný, je pouze prvním pokusem usnadnit uživateli práci s rozsáhlými daty korpusů ORAL, ORTOFON a DIALEKT a jako takový obsahuje chyby a nepřesnosti, které ale zároveň vedou k obecnějším otázkám o koncepci značkování mluveného jazyka. Ty se snad podaří vyřešit v dalších verzích vytvořením nového tagovacího schématu (NovaMorf) a nástrojů k jeho implemantaci. I přes zmíněné nedostatky přináší tento korpus mnohem lepší podmínky pro práci s mluvenými daty, než tomu bylo dosud.

Pojetí lemmatu

Pojetí lemmatu je širší, než je tomu u psaného jazyka. Prioritou je možnost vyhledat všechny tvary určitého slova, které mohou být zaznamenány s redukovanou výslovností, ale i nářeční tvary, jež by mohly mít samostatné lemma (např. týden – tejden – tédeň – tydeň). Velkou variantností se vyznačují zejména ukazovací zájmena, např. lemma tenhleten obsahuje 105 slovních tvarů (např. nom. sg. neutra může být zapsán následujícími deseti způsoby: tohleto, todnecto, todleto, todlecto, todlencto, tohlencto, tohlento, toleto, tohlensto, todlensto).

Způsob tagování

Systém morfologických značek je stejný jako v psaných korpusech, jsou zde ovšem ponechány některé značky pro sdružené kategorie (např. X pro libovolný rod, Y pro maskulinum životné nebo neživotné atd.) tak, jak jsou obsaženy v použitém morfologickém slovníku MorfFlex CZ (Hajič–Hlaváčová, 2013). Tento slovník byl ručně i poloautomaticky doplňován o nerozpoznané frekventované tvary (např. nářeční koncovky, tvary s odlišnou kvantitou, protetickým v). K samotnému značkování byl použit stochastický tagovací systém MorphoDiTa (Straka a kol., 2014).

Úpravy morfologického slovníku

Výchozí morfologický slovník MorfFlex CZ (Hajič–Hlaváčová, 2013) byl ručně a poloautomaticky doplňován, upravován nebo byly některé interpretace gramatických kategorií vynechány s ohledem na cílový registr (např. tvar bej představuje v mluvených datech pouze redukovanou variantu slovesa být, a nikoliv substantivum). Nerozpoznané tvary byly doplňovány od frekvence 5 výskytů. Příklady některých úprav:

Poloautomatické doplňování:

nářeční koncovky jako např. u ak. sg. fem. zakončení na -u (nedělu, chvilu), slovesné tvary minulého aktivního příčeští (dělale, chodile)
varianty lišící se kvantitou samohlásek (myslim, vim, makem, polivka), palatalizací (tydeň), přítomností protetického v- (vokýnko, vobrazovka)
„namapování“ neznámých tvarů ke známým (se všemi jeho morfologickými interpretacemi)

Manuální doplňování:

přiřazení a sjednocení výslovnostních variant (např. třeba, čovek, depák; dokavád, dovaď, dovad) pod jedno lemma
přiřazení nářečních podob (dňama, Davidoj, ňou) ke spisovnému lemmatu

Odstranění některých interpretací:

odstranění interpretace výrazu jako adverbium: prostě
odstranění interpretace výrazu jako imperativ: viď
odstranění interpretace výrazu jako vokativ: pote (redukovaná výslovnost pojďte)

Doplnění některých interpretací

přidání kategorie částice: jen (původně pouze adverbium)
změna interpretace: puč neoznačujeme jako substantivum, jedná se o redukovanou výslovnost imperativu slovesa půjčit

Podoba lemmatu

většina slov má lemma v podobě spisovného lemmatu, tedy stejnou jako v psaném jazyce, a to i v případech, kdy regionální podoba frekvenčně převažuje (např. pod lemma týden spadají všechny tvary regionálních variant tejden, tydeň, tédeň)
slova s dvojí spisovnou podobou mají dvojité lemma (polívka/polévka)
slova, u nichž nelze jednoznačně přiřadit jednotlivé tvary, mají také dvojité lemma (myslet/myslit, muset/musit)
zkratky mají dvojité lemma:/ /SMS/esemeska, endéer/NDR Dvojité lemma funguje jako multihodnota, to znamená, že při zadání jedné z možností vždy dostaneme všechny tvary přiřazené k dvojitému lemmatu. ===== Podoba tagu ===== Podoba tagu odpovídá morfologickým značkám používaným pro psané korpusy řady SYN před zjednodušením systému značek, neobsahuje označení vidu na 16. pozici. Kromě těchto značek označuje na první pozici slovního druhu a v atributu POS hodnoty: * F pro nedořečená slova (např. nepoda*) * H pro neverbální zvuky (hezitační zvuky označené @, responzní hmm, emm) * M pro komentáře (vždy uvedené v kulatých závorkách) ===== Literatura =====

Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P.: Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In Korpus - Gramatika - Axiologie 2017 (v tisku).

Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015) : Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: TSD 2015, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350.

===== Související odkazy =====

ORAL • ORTOFON • Dialekt • Korpus mluveného jazyka • Struktura korpusů ORAL • Hledání v mluvených korpusech • Hledání v korpusu ORTOFON • Hledání v korpusu DIALEKT