====== Korpus SYN2020: Automatická anotace ====== Všechny korpusy řady SYN jsou anotovány (tedy lemmatizovány a opatřeny morfologickými značkami) automaticky. Anotace korpusu SYN2020 se od anotace starších korpusů (viz Hnátková a kol., 2014) liší, zde popisujeme [[#postup_automaticke_anotace|postup]] této anotace a také její [[#uspesnost_automaticke_anotace|úspěšnost]] (měřenou na testovacích datech). ===== Postup automatické anotace ===== Základní tokenizace a segmentace byla provedena nástrojem [[http://lindat.mff.cuni.cz/services/morphodita/|MorphoDiTa]] (viz Straková a kol., 2014). Tímto nástrojem byla také doplněna morfologická analýza slov (tj. množina možných interpretací slova (lemma + tag + verbtag) podle tzv. "pražské" morfologické analýzy (viz Hajič, 2004), částečně zahrnující nové úpravy tagsetu (viz Hajič a kol., 2020). U mnoha slovních tvarů (desítky tisíc) byla tato analýza následně upravena či doplněna tak, aby odpovídala koncepci SYN2020 a aby bylo co nejméně tvarů považováno za neznámé (''X@''). Poté byly vlastními programy opraveny některé chyby v segmentaci, jichž se MorphoDiTa dopouští, dále byla programy vyvinutými pro tyto účely upravena tokenizace do podoby, která odpovídá [[cnk:syn2020:tokenizace|koncepci tokenizace v SYN2020]] (byly spojeny některé tokeny jako //e-mail//, //S'-čchuan//, //24hodinový//; jednotlivé části tzv. [[cnk:syn2020:agregat|agregátů]], např. //načpak//, //pročs//, //abyste//, se během anotačního procesu zpracovávaly samostatně), a podle [[cnk:syn2020:lemmatizace|koncepce lemmatizace v SYN2020]] byla upravena lemmata (např. tvary //filosof// i //filozof// byly převedeny pod společné lemma //filozof//). Na takto připravený text se pak aplikovala lingvisticky motivovaná desambiguační "pravidla", která na základě kontextu odstraňuje u jednotlivých tokenů ty interpretace, které jsou v daném kontextu nesmyslné, například tvar //již// po předložce nemůže být vztažné zájmeno, tvar //se// před slovesem nemůže být předložka atp. (viz Petkevič, 2006; Jelínek a Petkevič, 2011; Petkevič, 2014). Neúplnou desambiguaci po těchto pravidlech pak dokončila nová verze nástroje MorphoDiTa založená na tzv. hlubokém učení / neuronových sítích (viz Straka a kol., 2019), tento nástroj byl natrénován na datech korpusu Etalon (obsahuje 2,2 mil. tokenů ručně označkovaných podle koncepce korpusu SYN2020 a tvoří jej texty z publicistiky, odborné literatury i beletrie). Po dokončení desambiguace byla dalšími programy vytvořenými přímo pro tento úkol doplněna sublemmata a agregáty byly spojeny do jednoho tokenu (se zachováním lemmat a tagů pro každou část agregátu). Byla také provedena syntaktická anotace parserem ze skupiny nástrojů NeuroNLP, který je také založen na hlubokém učení / neuronových sítích (viz Xuezhe a kol., 2018). Parser byl natrénován na datech analytické roviny PDT (viz Bejček a kol., 2012) a syntakticky anotovaného korpusu beletrie FicTree (viz Jelínek, 2017). ===== Úspěšnost automatické anotace ===== Úspěšnost automatické lemmatizace a morfologického značkování byla změřena na části dat Etalonu, jež nebyla využita k trénování MorphoDiTy. V níže uvedené tabulce uvádíme výsledky měření počítaného jako procento shody lemmat, tagů, [[cnk:syn2020:verbtag|verbtagů]] nebo jednotlivých dílčích atributů z tagu u automaticky přiřazených atributů s tím, co bylo manuálně přiřazeno v Etalonu. Vzhledem k tomu, že testovací data jsou velmi podobná datům trénovacím, je skutečná úspěšnost ve všech typech textů pravděpodobně o něco nižší. Oproti starším korpusům řady SYN (SYN2015, SYNv8) došlo ke zlepšení přibližně o dva procentní body (úspěšnost přiřazení morfologických značek byla v SYN2015 přibližně 95,5 %), tedy snížení chybovosti cca o 40 %.\\ ^ atribut ^ úspěšnost^ | lemma+tag+verbtag | 97,36 %| | tag | 97,60 %| | lemma | 99,67 %| | verbtag | 99,77 %| | verbtag (jen V) | 98,57 %| | POS | 99,56 %| | POS+SubPOS | 99,47 %| | rod | 99,25 %| | číslo | 99,48 %| | pád | 98,71 %| | pád (jen [NAPCR]) | 97,76 %|\\ Pozn. verbtag (jen V) je úspěšnost přiřazení verbtagu u sloves. Pád (jen [NAPCR]) je úspěšnost určení pádu u substantiv, adjektiv, zájmen, číslovek a předložek. \\ \\ U syntaktické anotace se měří dvě hodnoty: podíl správně určených závislostí tokenů (UAS, unlabeled attachment score) a podíl správně určených závislostí tokenů spolu se správně určenými syntaktickými funkcemi (LAS, labeled attachment score). Tyto hodnoty uvádíme v tabulce. Syntaktické značkování je výrazně náročnější úkol než značkování morfologické, i tady ale bylo oproti staršímu syntakticky anotovanému korpusu SYN2015 dosaženo výrazného zlepšení (LAS z 82,5 % na 88,7 %). ^ UAS ^ LAS^ | 92,39 % | 88,73 % | ===== Bibliografie k automatické anotaci SYN2020 ===== Bejček Eduard, Panevová Jarmila, Popelka Jan, Straňák Pavel, Ševčíková Magda, Štěpánek Jan, Žabokrtský Zdeněk (2012): Prague Dependency Treebank 2.5 – a revisited version of PDT 2.0. In: //Proceedings of the 24th International Conference on Computational Linguistics (Coling 2012)//, Coling 2012 Organizing Committee. Mumbai, India, s. 231--246. Hajič Jan (2004): //Disambiguation of Rich Inflection (Computational Morphology of Czech)//. Vol. 1. Prague, Karolinum Charles University Press. Hajič Jan, Bejček Eduard, Hlaváčová Jaroslava, Mikulová Marie, Straka Milan, Štěpánek Jan, Štěpánková Barbora (2020): Prague Dependency Treebank -- Consolidated 1.0. In: //Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020)//, European Language Resources Association, s. 5208--5218. Marseille, France Hnátková Milena, Křen Michal, Procházka Pavel, Skoumalová Hana (2014): The SYN-series corpora of written Czech. In: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). ELRA, Reykjavík, s. 160--164. http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf Jelínek Tomáš (2017): FicTree: a Manually Annotated Treebank of Czech Fiction. In: J. Hlaváčová (ed.), //ITAT 2017 Proceedings//, s. 181--185. http://ceur-ws.org/Vol-1885/181.pdf Jelínek Tomáš, Petkevič Vladimír (2011): Systém jazykového značkování současné psané češtiny. In: //Korpusová lingvistika Praha 2011, sv. 3: Gramatika a značkování korpusů//. Praha, Nakladatelství Lidové noviny / Ústav českého národního korpusu, s. 154--170. Petkevič Vladimír (2006): Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In: Šimková M. (ed.), //Insight into the Slovak and Czech Corpus Linguistics//. Bratislava, Veda (Publishing House of the Slovak Academy of Sciences & Ludovít Štúr Institute of Linguistics of the Slovak Academy of Sciences), s. 26--44. Petkevič Vladimír (2014): Problémy automatické morfologické disambiguace češtiny. //Naše řeč// 97, 4--5, s. 194--207. Spoustová Drahomíra, Hajič Jan, Votrubec Jan, Krbec Pavel, Květoň Pavel (2007): The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In: Proceedings of the Workshop on Balto-Slavonic Natural Language Processing. ACL, Praha, s. 67–74. Straka Milan, Straková Jana, Hajič Jan (2019): Czech Text Processing with Contextual Embeddings: POS Tagging, Lemmatization, Parsing and NER. In: //Proceedings of the 22nd International Conference on Text, Speech and Dialogue -- TSD 2019, Lecture Notes in Computer Science//, ISSN 0302-9743, 11697, s. 137--150. Cham / Heidelberg / New York / Dordrecht / London, Springer International Publishing. Straková Jana, Straka Milan and Hajič Jan (2014): Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In: //Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations//, s. 13--18, Baltimore, Maryland, June 2014. Association for Computational Linguistics. Xuezhe Ma, Zecong Hu, Jingzhou Liu, Nanyun Peng, Graham Neubig, Eduard H. Hovy (2018): Stack-Pointer Networks for Dependency Parsing. In: //Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics//, s. 1403--1414. Melbourne, Australia, July 2018. Association for Computational Linguistics. https://arxiv.org/abs/1805.01087 --- //T. Jelínek//