Toto je starší verze dokumentu!
Obsah
Korpus SYN2020: Automatická anotace
Všechny korpusy řady SYN jsou anotovány (tedy lemmatizovány a opatřeny morfologickými značkami) automaticky. Anotace korpusu SYN2020 se od anotace starších korpusů liší, zde popisujeme postup této anotace a také její úspěšnost (měřenou na testovacích datech).
Postup automatické anotace
Základní tokenizace a segmentace byla provedena nástrojem MorphoDiTa (viz Straková a kol., 2014). Tímto nástrojem byla také doplněna morfologická analýza slov (tj. množina možných interpretací slova (lemma + tag + verbtag) podle tzv. „pražské“ morfologické analýzy (viz Hajič, 2004), částečně zahrnující nové úpravy tagsetu (viz Hajič a kol., 2020). U mnoha slovních tvarů (desítky tisíc) byla tato analýza následně upravena či doplněna tak, aby odpovídala koncepci SYN2020 a aby bylo co nejméně tvarů považováno za neznámé (X@
).
Poté byly vlastními programy opraveny některé chyby v segmentaci, jichž se MorphoDiTa dopouští, dále byla programy vyvinutými pro tyto účely upravena tokenizace do podoby, která odpovídá koncepci tokenizace v SYN2020 (byly spojeny některé tokeny jako e-mail, S'-čchuan, 24hodinový; jednotlivé části tzv. agregátů, např. načpak, pročs, abyste, se během anotačního procesu zpracovávaly samostatně), a podle koncepce lemmatizace v SYN2020 byla upravena lemmata (např. tvary filosof i filozof byly převedeny pod společné lemma filozof).
Na takto připravený text se pak aplikovala lingvisticky motivovaná desambiguační „pravidla“, která na základě kontextu odstraňuje u jednotlivých tokenů ty interpretace, které jsou v daném kontextu nesmyslné, například tvar již po předložce nemůže být vztažné zájmeno, tvar se před slovesem nemůže být předložka atp. (viz Petkevič, 2006; Jelínek a Petkevič, 2011; Petkevič, 2014). Neúplnou desambiguaci po těchto pravidlech pak dokončila nová verze nástroje MorphoDiTa založená na tzv. hlubokém učení / neuronových sítích (viz Straka a kol., 2019), tento nástroj byl natrénován na datech korpusu Etalon (obsahuje 2,2 mil. tokenů ručně označkovaných podle koncepce korpusu SYN2020 a tvoří jej texty z publicistiky, odborné literatury i beletrie).
Po dokončení desambiguace byla dalšími programy vytvořenými přímo pro tento úkol doplněna sublemmata a agregáty byly spojeny do jednoho tokenu (se zachováním lemmat a tagů pro každou část agregátu). Byla také provedena syntaktická anotace parserem ze skupiny nástrojů NeuroNLP, který je také založen na hlubokém učení / neuronových sítích (viz Xuezhe a kol., 2018). Parser byl natrénován na datech analytické roviny PDT (viz Bejček a kol., 2012) a syntakticky anotovaného korpusu beletrie FicTree (viz Jelínek, 2017).
Úspěšnost automatické anotace
Úspěšnost automatické lemmatizace a morfologického značkování byla změřena na části dat Etalonu, jež nebyla využita k trénování MorphoDiTy. V níže uvedené tabulce uvádíme výsledky měření počítaného jako procento shody lemmat, tagů, verbtagů nebo jednotlivých dílčích atributů z tagu u automaticky přiřazených atributů s tím, co bylo manuálně přiřazeno v Etalonu. Vzhledem k tomu, že testovací data jsou velmi podobná datům trénovacím, je skutečná úspěšnost ve všech typech textů pravděpodobně o něco nižší. Oproti starším korpusům řady SYN (SYN2015, SYNv8) došlo ke zlepšení přibližně o dva procentní body (úspěšnost přiřazení morfologických značek byla v SYN2015 přibližně 95,5 %), tedy snížení chybovosti cca o 40 %.
atribut | úspěšnost |
---|---|
lemma+tag+verbtag | 97,36 % |
tag | 97,60 % |
lemma | 99,67 % |
verbtag | 99,77 % |
verbtag (jen V) | 98,57 % |
POS | 99,56 % |
POS+SubPOS | 99,47 % |
rod | 99,25 % |
číslo | 99,48 % |
pád | 98,71 % |
pád (jen [NAPCR]) | 97,76 % |
Pozn. verbtag (jen V) je úspěšnost přiřazení verbtagu u sloves. Pád (jen [NAPCR]) je úspěšnost určení pádu u substantiv, adjektiv, zájmen, číslovek a předložek.
U syntaktické anotace se měří dvě hodnoty: podíl správně určených závislostí tokenů (UAS, unlabeled attachment score) a podíl správně určených závislostí tokenů spolu se správně určenými syntaktickými funkcemi (LAS, labeled attachment score). Tyto hodnoty uvádíme v tabulce. Syntaktické značkování je výrazně náročnější úkol než značkování morfologické, i tady ale bylo oproti staršímu syntakticky anotovanému korpusu SYN2015 dosaženo výrazného zlepšení (LAS z 82,5 % na 88,7 %).
UAS | LAS |
---|---|
92,39 % | 88,73 % |
Bibliografie k automatické anotaci SYN2020
Bejček Eduard, Panevová Jarmila, Popelka Jan, Straňák Pavel, Ševčíková Magda, Štěpánek Jan, Žabokrtský Zdeněk (2012): Prague Dependency Treebank 2.5 – a revisited version of PDT 2.0. In: Proceedings of the 24th International Conference on Computational Linguistics (Coling 2012), Coling 2012 Organizing Committee. Mumbai, India, s. 231–246.
Hajič Jan (2004): Disambiguation of Rich Inflection (Computational Morphology of Czech). Vol. 1. Prague, Karolinum Charles University Press.
Hajič Jan, Bejček Eduard, Hlaváčová Jaroslava, Mikulová Marie, Straka Milan, Štěpánek Jan, Štěpánková Barbora (2020): Prague Dependency Treebank – Consolidated 1.0. In: Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020), European Language Resources Association, s. 5208–5218. Marseille, France
Hnátková Milena, Křen Michal, Procházka Pavel, Skoumalová Hana (2014): The SYN-series corpora of written Czech. In: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). ELRA, Reykjavík, s. 160–164. http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf
Jelínek Tomáš (2017): FicTree: a Manually Annotated Treebank of Czech Fiction. In: J. Hlaváčová (ed.), ITAT 2017 Proceedings, s. 181–185. http://ceur-ws.org/Vol-1885/181.pdf
Jelínek Tomáš, Petkevič Vladimír (2011): Systém jazykového značkování současné psané češtiny. In: Korpusová lingvistika Praha 2011, sv. 3: Gramatika a značkování korpusů. Praha, Nakladatelství Lidové noviny / Ústav českého národního korpusu, s. 154–170.
Petkevič Vladimír (2006): Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In: Šimková M. (ed.), Insight into the Slovak and Czech Corpus Linguistics. Bratislava, Veda (Publishing House of the Slovak Academy of Sciences & Ludovít Štúr Institute of Linguistics of the Slovak Academy of Sciences), s. 26–44.
Petkevič Vladimír (2014): Problémy automatické morfologické disambiguace češtiny. Naše řeč 97, 4–5, s. 194–207.
Spoustová Drahomíra, Hajič Jan, Votrubec Jan, Krbec Pavel, Květoň Pavel (2007): The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In: Proceedings of the Workshop on Balto-Slavonic Natural Language Processing. ACL, Praha, s. 67–74.
Straka Milan, Straková Jana, Hajič Jan (2019): Czech Text Processing with Contextual Embeddings: POS Tagging, Lemmatization, Parsing and NER. In: Proceedings of the 22nd International Conference on Text, Speech and Dialogue – TSD 2019, Lecture Notes in Computer Science, ISSN 0302-9743, 11697, s. 137–150. Cham / Heidelberg / New York / Dordrecht / London, Springer International Publishing.
Straková Jana, Straka Milan and Hajič Jan (2014): Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In: Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, s. 13–18, Baltimore, Maryland, June 2014. Association for Computational Linguistics.
Xuezhe Ma, Zecong Hu, Jingzhou Liu, Nanyun Peng, Graham Neubig, Eduard H. Hovy (2018): Stack-Pointer Networks for Dependency Parsing. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, s. 1403–1414. Melbourne, Australia, July 2018. Association for Computational Linguistics. https://arxiv.org/abs/1805.01087