====== Lemmatizace a tagování mluvených korpusů ORAL (verze 1), ORTOFON (verze 1 a 2), DIALEKT (verze 1 a 2), ORATOR (verze 2) ======

Lemmatizace a tagování transkriptu mluveného projevu je mnohem náročnější než u jazyka psaného. Přibývá zde neznámých tvarů (zachycované redukce výslovnosti, nářeční tvary, nová slova), jež mohou být homonymní s tvary zastoupenými v morfologickém slovníku pro psaný jazyk (např. //pudu// jako zápis výslovnosti slovesného tvaru //půjdu// je homonymní s dativem a lokálem substantiva //pud// a se zaznamenanou krácenou výslovností genitivu plurálu substantiva //půda//). Odlišná struktura neformálního dialogu, kterou charakterizuje množství nedokončených, přerušených a modifikovaných výpovědí, opakujících se slov, výplňkových výrazů, odkazy k mimojazykovému kontextu ap., znesnadňuje určení morfologických kategorií i lingvistům. 
Vzhledem k velikosti korpusu je potřebná zejména lemmatizace, bez níž není prakticky možné vyhledat všechny tvary příslušného lemmatu (například tvary redukované a nářeční). Se způsobem transkripce (zejména s užíváním pauzové interpunkce místo interpunkce syntaktické) souvisí i nemožnost použít nástrojů a postupů běžně užívaných pro psaný jazyk. 

Následující způsob lemmatizace a morfologického značkování byl použit pro korpusy [[cnk:oral|ORAL]] v1, [[cnk:ortofon|ORTOFON]] v1 a v2, [[cnk:dialekt|DIALEKT]] v1 a v2 a [[cnk:orator|ORATOR]] v2. Jeho přínos spočívá především v lemmatizaci a označení slovních druhů. Při vyhledávání však doporučujeme jejich důslednou kontrolu, zvlášť pečlivou v případě dalších morfologických kategorií.

Užitý způsob lemmatizace a tagování, jakkoli pracný, je pouze prvním pokusem usnadnit uživateli práci s rozsáhlými daty korpusů ORAL, ORTOFON, ORATOR a DIALEKT a jako takový obsahuje chyby a nepřesnosti, které ale zároveň vedou k obecnějším otázkám o koncepci značkování mluveného jazyka. Ty se snad podaří vyřešit v dalších verzích vytvořením nového tagovacího schématu (NovaMorf) a nástrojů k jeho implemantaci. I přes zmíněné nedostatky přináší tento korpus mnohem lepší podmínky pro práci s mluvenými daty, než tomu bylo dosud.

**Pojetí lemmatu**

Pojetí lemmatu je širší, než je tomu u psaného jazyka. Prioritou je možnost vyhledat všechny tvary určitého slova, které mohou být zaznamenány s redukovanou výslovností, ale i nářeční tvary, jež by mohly mít samostatné lemma (např. //týden – tejden – tédeň – tydeň//). Velkou variantností se vyznačují zejména ukazovací zájmena, např. lemma **tenhleten** obsahuje 105 slovních tvarů (např. nom. sg. neutra může být zapsán následujícími deseti způsoby: //tohleto, todnecto, todleto, todlecto, todlencto, tohlencto, tohlento, toleto, tohlensto, todlensto//).

**Způsob tagování**

[[seznamy:tagy#pozice_1_-_slovni_druh|Systém morfologických značek]] je stejný jako v psaných korpusech, jsou zde ovšem ponechány některé značky pro sdružené kategorie (např. X pro libovolný rod, Y pro maskulinum životné nebo neživotné atd.) tak, jak jsou obsaženy v použitém morfologickém slovníku MorfFlex CZ (Hajič–Hlaváčová, 2013). Tento slovník byl ručně i poloautomaticky doplňován o nerozpoznané frekventované tvary (např. nářeční koncovky, tvary s odlišnou kvantitou, protetickým v). K samotnému značkování byl použit stochastický tagovací systém MorphoDiTa (Straka a kol., 2014).
===== Úpravy morfologického slovníku =====

Výchozí morfologický slovník MorfFlex CZ (Hajič–Hlaváčová, 2013) byl ručně a poloautomaticky doplňován, upravován nebo byly některé interpretace gramatických kategorií vynechány s ohledem na cílový registr (např. tvar //bej// představuje v mluvených datech pouze redukovanou variantu slovesa //být//, a nikoliv substantivum). Nerozpoznané tvary byly doplňovány od frekvence 5 výskytů. 
Příklady některých úprav:

**Poloautomatické** doplňování:
  * **nářeční koncovky** jako např. u ak. sg. fem. zakončení na -u (//nedělu, chvilu//), slovesné tvary minulého aktivního příčeští (//dělale, chodile//)
  * varianty lišící se **kvantitou samohlásek** (//myslim, vim, makem, polivka//), **palatalizací** (//tydeň//), **přítomností protetického v-** (//vokýnko, vobrazovka//)
  * "namapování" neznámých tvarů ke známým (se všemi jeho morfologickými interpretacemi)

**Manuální doplňování**:
  * přiřazení a sjednocení **výslovnostních variant** (např. //třeba, čovek, depák; dokavád, dovaď, dovad//) pod jedno lemma 
  * přiřazení **nářečních podob** (//dňama, Davidoj, ňou//) ke spisovnému lemmatu


**Odstranění některých interpretací**:
  * odstranění interpretace výrazu jako adverbium: //prostě//
  * odstranění interpretace výrazu jako imperativ: //viď//
  * odstranění interpretace výrazu jako vokativ: //pote// (redukovaná výslovnost //pojďte//)

**Doplnění některých interpretací**
  * přidání kategorie částice: //jen// (původně pouze adverbium)
  * změna interpretace: //puč// neoznačujeme jako substantivum, jedná se o redukovanou výslovnost imperativu slovesa //půjčit// 
===== Podoba lemmatu =====

  * většina slov má lemma v podobě **spisovného lemmatu**, tedy stejnou jako v psaném jazyce, a to i v případech, kdy regionální podoba frekvenčně převažuje (např. pod lemma **//týden//** spadají všechny tvary regionálních variant //tejden, tyden, tydeň, tédeň//)
  * slova s** dvojí spisovnou podobou** mají vícenásobné lemma (//polívka/polévka//)
  * slova, u nichž **nelze jednoznačně přiřadit jednotlivé tvary**, mají také vícenásobné lemma (//myslet/myslit, muset/musit//)
  * **zkratky** mají vícenásobné lemma: //SMS/esemeska, endéer/NDR// 

Vícenásobné lemma funguje jako multihodnota, to znamená, že při zadání jedné z možností vždy dostaneme všechny tvary přiřazené k vícenásobnému lemmatu.


===== Podoba tagu =====

Podoba tagu odpovídá [[seznamy:tagy#pozice_1_-_slovni_druh|morfologickým značkám]] používaným pro psané korpusy řady [[cnk:syn|SYN]] před zjednodušením systému značek, neobsahuje označení vidu na 16. pozici.
Kromě těchto značek označuje na první pozici slovního druhu a v atributu POS hodnoty:

  * **F** pro nedořečená slova (např. //nepoda*//)
  * **H** pro neverbální zvuky (hezitační zvuky, označené @, responzní //hmm, emm//)
  * **M** pro komentáře (vždy uvedené v kulatých závorkách)

===== Poděkování =====
Rádi bychom poděkovali za konzultace doc. Kláře Osolsobě a Mgr. Daně Hlaváčkové, Ph.D. 

===== Literatura =====

<WRAP round tip 70%>

Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. (2017): Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie//, 15, 47-67.

Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015) : Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: TSD 2015, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350.
</WRAP>

===== Související odkazy =====

<WRAP round box 72%>
[[cnk:oral|ORAL]] • [[cnk:ortofon|ORTOFON]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]] • [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]] • [[kurz:hledani_ORTOFON|Hledání v korpusu ORTOFON]] • [[cnk:dialekt:prace|Hledání v korpusu DIALEKT]]
 </WRAP>