Korpus SYN2020: Automatická anotace

Všechny korpusy řady SYN jsou anotovány (tedy lemmatizovány a opatřeny morfologickými značkami) automaticky. Anotace korpusu SYN2020 se od anotace starších korpusů (viz Hnátková a kol., 2014) liší, zde popisujeme postup této anotace a také její úspěšnost (měřenou na testovacích datech).

Postup automatické anotace

Základní tokenizace a segmentace byla provedena nástrojem MorphoDiTa (viz Straková a kol., 2014). Tímto nástrojem byla také doplněna morfologická analýza slov (tj. množina možných interpretací slova (lemma + tag + verbtag) podle tzv. „pražské“ morfologické analýzy (viz Hajič, 2004), částečně zahrnující nové úpravy tagsetu (viz Hajič a kol., 2020). U mnoha slovních tvarů (desítky tisíc) byla tato analýza následně upravena či doplněna tak, aby odpovídala koncepci SYN2020 a aby bylo co nejméně tvarů považováno za neznámé (X@).

Poté byly vlastními programy opraveny některé chyby v segmentaci, jichž se MorphoDiTa dopouští, dále byla programy vyvinutými pro tyto účely upravena tokenizace do podoby, která odpovídá koncepci tokenizace v SYN2020 (byly spojeny některé tokeny jako e-mail, S'-čchuan, 24hodinový; jednotlivé části tzv. agregátů, např. načpak, pročs, abyste, se během anotačního procesu zpracovávaly samostatně), a podle koncepce lemmatizace v SYN2020 byla upravena lemmata (např. tvary filosof i filozof byly převedeny pod společné lemma filozof).

Na takto připravený text se pak aplikovala lingvisticky motivovaná desambiguační „pravidla“, která na základě kontextu odstraňuje u jednotlivých tokenů ty interpretace, které jsou v daném kontextu nesmyslné, například tvar již po předložce nemůže být vztažné zájmeno, tvar se před slovesem nemůže být předložka atp. (viz Petkevič, 2006; Jelínek a Petkevič, 2011; Petkevič, 2014). Neúplnou desambiguaci po těchto pravidlech pak dokončila nová verze nástroje MorphoDiTa založená na tzv. hlubokém učení / neuronových sítích (viz Straka a kol., 2019), tento nástroj byl natrénován na datech korpusu Etalon (obsahuje 2,2 mil. tokenů ručně označkovaných podle koncepce korpusu SYN2020 a tvoří jej texty z publicistiky, odborné literatury i beletrie).

Po dokončení desambiguace byla dalšími programy vytvořenými přímo pro tento úkol doplněna sublemmata a agregáty byly spojeny do jednoho tokenu (se zachováním lemmat a tagů pro každou část agregátu). Byla také provedena syntaktická anotace parserem ze skupiny nástrojů NeuroNLP, který je také založen na hlubokém učení / neuronových sítích (viz Xuezhe a kol., 2018). Parser byl natrénován na datech analytické roviny PDT (viz Bejček a kol., 2012) a syntakticky anotovaného korpusu beletrie FicTree (viz Jelínek, 2017).

Úspěšnost automatické anotace

Úspěšnost automatické lemmatizace a morfologického značkování byla změřena na části dat Etalonu, jež nebyla využita k trénování MorphoDiTy. V níže uvedené tabulce uvádíme výsledky měření počítaného jako procento shody lemmat, tagů, verbtagů nebo jednotlivých dílčích atributů z tagu u automaticky přiřazených atributů s tím, co bylo manuálně přiřazeno v Etalonu. Vzhledem k tomu, že testovací data jsou velmi podobná datům trénovacím, je skutečná úspěšnost ve všech typech textů pravděpodobně o něco nižší. Oproti starším korpusům řady SYN (SYN2015, SYNv8) došlo ke zlepšení přibližně o dva procentní body (úspěšnost přiřazení morfologických značek byla v SYN2015 přibližně 95,5 %), tedy snížení chybovosti cca o 40 %.

atribut	úspěšnost
lemma+tag+verbtag	97,36 %
tag	97,60 %
lemma	99,67 %
verbtag	99,77 %
verbtag (jen V)	98,57 %
POS	99,56 %
POS+SubPOS	99,47 %
rod	99,25 %
číslo	99,48 %
pád	98,71 %
pád (jen [NAPCR])	97,76 %

Pozn. verbtag (jen V) je úspěšnost přiřazení verbtagu u sloves. Pád (jen [NAPCR]) je úspěšnost určení pádu u substantiv, adjektiv, zájmen, číslovek a předložek.

U syntaktické anotace se měří dvě hodnoty: podíl správně určených závislostí tokenů (UAS, unlabeled attachment score) a podíl správně určených závislostí tokenů spolu se správně určenými syntaktickými funkcemi (LAS, labeled attachment score). Tyto hodnoty uvádíme v tabulce. Syntaktické značkování je výrazně náročnější úkol než značkování morfologické, i tady ale bylo oproti staršímu syntakticky anotovanému korpusu SYN2015 dosaženo výrazného zlepšení (LAS z 82,5 % na 88,7 %).

UAS	LAS
92,39 %	88,73 %

Bibliografie k automatické anotaci SYN2020

Bejček Eduard, Panevová Jarmila, Popelka Jan, Straňák Pavel, Ševčíková Magda, Štěpánek Jan, Žabokrtský Zdeněk (2012): Prague Dependency Treebank 2.5 – a revisited version of PDT 2.0. In: Proceedings of the 24th International Conference on Computational Linguistics (Coling 2012), Coling 2012 Organizing Committee. Mumbai, India, s. 231–246.

Hajič Jan (2004): Disambiguation of Rich Inflection (Computational Morphology of Czech). Vol. 1. Prague, Karolinum Charles University Press.

Hajič Jan, Bejček Eduard, Hlaváčová Jaroslava, Mikulová Marie, Straka Milan, Štěpánek Jan, Štěpánková Barbora (2020): Prague Dependency Treebank – Consolidated 1.0. In: Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020), European Language Resources Association, s. 5208–5218. Marseille, France

Hnátková Milena, Křen Michal, Procházka Pavel, Skoumalová Hana (2014): The SYN-series corpora of written Czech. In: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). ELRA, Reykjavík, s. 160–164. http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf

Jelínek Tomáš (2017): FicTree: a Manually Annotated Treebank of Czech Fiction. In: J. Hlaváčová (ed.), ITAT 2017 Proceedings, s. 181–185. http://ceur-ws.org/Vol-1885/181.pdf

Jelínek Tomáš, Petkevič Vladimír (2011): Systém jazykového značkování současné psané češtiny. In: Korpusová lingvistika Praha 2011, sv. 3: Gramatika a značkování korpusů. Praha, Nakladatelství Lidové noviny / Ústav českého národního korpusu, s. 154–170.

Petkevič Vladimír (2006): Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In: Šimková M. (ed.), Insight into the Slovak and Czech Corpus Linguistics. Bratislava, Veda (Publishing House of the Slovak Academy of Sciences & Ludovít Štúr Institute of Linguistics of the Slovak Academy of Sciences), s. 26–44.

Petkevič Vladimír (2014): Problémy automatické morfologické disambiguace češtiny. Naše řeč 97, 4–5, s. 194–207.

Spoustová Drahomíra, Hajič Jan, Votrubec Jan, Krbec Pavel, Květoň Pavel (2007): The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In: Proceedings of the Workshop on Balto-Slavonic Natural Language Processing. ACL, Praha, s. 67–74.

Straka Milan, Straková Jana, Hajič Jan (2019): Czech Text Processing with Contextual Embeddings: POS Tagging, Lemmatization, Parsing and NER. In: Proceedings of the 22nd International Conference on Text, Speech and Dialogue – TSD 2019, Lecture Notes in Computer Science, ISSN 0302-9743, 11697, s. 137–150. Cham / Heidelberg / New York / Dordrecht / London, Springer International Publishing.

Straková Jana, Straka Milan and Hajič Jan (2014): Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In: Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, s. 13–18, Baltimore, Maryland, June 2014. Association for Computational Linguistics.

Xuezhe Ma, Zecong Hu, Jingzhou Liu, Nanyun Peng, Graham Neubig, Eduard H. Hovy (2018): Stack-Pointer Networks for Dependency Parsing. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, s. 1403–1414. Melbourne, Australia, July 2018. Association for Computational Linguistics. https://arxiv.org/abs/1805.01087

Historie: • automaticka_anotace