AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze
Předchozí verze
cnk:syn2020:automaticka_anotace [2021/01/14 10:35] – vytvořeno tomasjelinekcnk:syn2020:automaticka_anotace [2021/01/14 13:10] (aktuální) – [Bibliografie k automatické anotaci SYN2020] tomasjelinek
Řádek 1: Řádek 1:
 ====== Korpus SYN2020: Automatická anotace ====== ====== Korpus SYN2020: Automatická anotace ======
-Všechny korpusy řady SYN jsou anotovány (tedy lemmatizovány a opatřeny morfologickými značkami) automaticky. Anotace korpusu SYN2020 se od anotace starších korpusů liší, zde popisujeme [[#postup_automaticke_anotace|postup]] této anotace a také její [[#uspesnost_automaticke_anotace|úspěšnost]] (měřenou na testovacích datech).+Všechny korpusy řady SYN jsou anotovány (tedy lemmatizovány a opatřeny morfologickými značkami) automaticky. Anotace korpusu SYN2020 se od anotace starších korpusů (viz Hnátková a kol., 2014) liší, zde popisujeme [[#postup_automaticke_anotace|postup]] této anotace a také její [[#uspesnost_automaticke_anotace|úspěšnost]] (měřenou na testovacích datech).
  
 ===== Postup automatické anotace ===== ===== Postup automatické anotace =====
Řádek 9: Řádek 9:
 Na takto připravený text se pak aplikovala lingvisticky motivovaná desambiguační "pravidla", která na základě kontextu odstraňuje u jednotlivých tokenů ty interpretace, které jsou v daném kontextu nesmyslné, například tvar //již// po předložce nemůže být vztažné zájmeno, tvar //se// před slovesem nemůže být předložka atp. (viz Petkevič, 2006; Jelínek a Petkevič, 2011; Petkevič, 2014). Neúplnou desambiguaci po těchto pravidlech pak dokončila nová verze nástroje MorphoDiTa založená na tzv. hlubokém učení / neuronových sítích (viz Straka a kol., 2019), tento nástroj byl natrénován na datech korpusu Etalon (obsahuje 2,2 mil. tokenů ručně označkovaných podle koncepce korpusu SYN2020 a tvoří jej texty z publicistiky, odborné literatury i beletrie). Na takto připravený text se pak aplikovala lingvisticky motivovaná desambiguační "pravidla", která na základě kontextu odstraňuje u jednotlivých tokenů ty interpretace, které jsou v daném kontextu nesmyslné, například tvar //již// po předložce nemůže být vztažné zájmeno, tvar //se// před slovesem nemůže být předložka atp. (viz Petkevič, 2006; Jelínek a Petkevič, 2011; Petkevič, 2014). Neúplnou desambiguaci po těchto pravidlech pak dokončila nová verze nástroje MorphoDiTa založená na tzv. hlubokém učení / neuronových sítích (viz Straka a kol., 2019), tento nástroj byl natrénován na datech korpusu Etalon (obsahuje 2,2 mil. tokenů ručně označkovaných podle koncepce korpusu SYN2020 a tvoří jej texty z publicistiky, odborné literatury i beletrie).
  
-Po dokončení desambiguace byla dalšími programy vytvořenými přímo pro tento úkol doplněna sublemmata a agregáty byly spojeny do jednoho tokenu (se zachováním lemmat a tagů pro každou část agregátu). Byla také provedena syntaktická anotace parserem ze skupiny nástrojů NeuroNLP, který je také založen na hlubokém učení / neuronových sítích (viz Xuezhe a kol., 2018). Parser byl natrénován na datech analytické roviny PDT (viz Bejček a kol., 2012) a syntakticky anotovaného korpusu beletrie FicTree (viz Jelínek, 2017).+Po dokončení desambiguace byla dalšími programy vytvořenými přímo pro tento úkol doplněna sublemmata a agregáty byly spojeny do jednoho tokenu (se zachováním lemmat a tagů pro každou část agregátu). 
 + 
 +Byla také provedena syntaktická anotace parserem ze skupiny nástrojů NeuroNLP, který je také založen na hlubokém učení / neuronových sítích (viz Xuezhe a kol., 2018). Parser byl natrénován na datech analytické roviny PDT (viz Bejček a kol., 2012) a syntakticky anotovaného korpusu beletrie FicTree (viz Jelínek, 2017).
  
  
Řádek 40: Řádek 42:
  
 Hajič Jan, Bejček Eduard, Hlaváčová Jaroslava, Mikulová Marie, Straka Milan, Štěpánek Jan, Štěpánková Barbora (2020): Prague Dependency Treebank -- Consolidated 1.0. In: //Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020)//, European Language Resources Association, s. 5208--5218. Marseille, France Hajič Jan, Bejček Eduard, Hlaváčová Jaroslava, Mikulová Marie, Straka Milan, Štěpánek Jan, Štěpánková Barbora (2020): Prague Dependency Treebank -- Consolidated 1.0. In: //Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020)//, European Language Resources Association, s. 5208--5218. Marseille, France
 +
 +Hnátková Milena, Křen Michal, Procházka Pavel, Skoumalová Hana (2014): The SYN-series corpora of written Czech. In: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). ELRA, Reykjavík, s. 160--164. http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf
  
 Jelínek Tomáš (2017): FicTree: a Manually Annotated Treebank of Czech Fiction. In: J. Hlaváčová (ed.), //ITAT 2017 Proceedings//, s. 181--185. http://ceur-ws.org/Vol-1885/181.pdf Jelínek Tomáš (2017): FicTree: a Manually Annotated Treebank of Czech Fiction. In: J. Hlaváčová (ed.), //ITAT 2017 Proceedings//, s. 181--185. http://ceur-ws.org/Vol-1885/181.pdf
Řádek 48: Řádek 52:
  
 Petkevič Vladimír (2014): Problémy automatické morfologické disambiguace češtiny. //Naše řeč//  97, 4--5, s. 194--207. Petkevič Vladimír (2014): Problémy automatické morfologické disambiguace češtiny. //Naše řeč//  97, 4--5, s. 194--207.
 +
 +Spoustová Drahomíra, Hajič Jan, Votrubec Jan, Krbec Pavel, Květoň Pavel (2007): The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In: Proceedings of the Workshop on Balto-Slavonic Natural Language Processing. ACL, Praha, s. 67–74.
  
 Straka Milan, Straková Jana, Hajič Jan (2019): Czech Text Processing with Contextual Embeddings: POS Tagging, Lemmatization, Parsing and NER. In: //Proceedings of the 22nd International Conference on Text, Speech and Dialogue -- TSD 2019, Lecture Notes in Computer Science//, ISSN 0302-9743, 11697, s. 137--150. Cham / Heidelberg / New York / Dordrecht / London, Springer International Publishing. Straka Milan, Straková Jana, Hajič Jan (2019): Czech Text Processing with Contextual Embeddings: POS Tagging, Lemmatization, Parsing and NER. In: //Proceedings of the 22nd International Conference on Text, Speech and Dialogue -- TSD 2019, Lecture Notes in Computer Science//, ISSN 0302-9743, 11697, s. 137--150. Cham / Heidelberg / New York / Dordrecht / London, Springer International Publishing.
Řádek 55: Řádek 61:
 Xuezhe Ma, Zecong Hu, Jingzhou Liu, Nanyun Peng, Graham Neubig, Eduard H. Hovy (2018): Stack-Pointer Networks for Dependency Parsing. In: //Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics//, s. 1403--1414. Melbourne, Australia, July 2018. Association for Computational Linguistics. https://arxiv.org/abs/1805.01087 Xuezhe Ma, Zecong Hu, Jingzhou Liu, Nanyun Peng, Graham Neubig, Eduard H. Hovy (2018): Stack-Pointer Networks for Dependency Parsing. In: //Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics//, s. 1403--1414. Melbourne, Australia, July 2018. Association for Computational Linguistics. https://arxiv.org/abs/1805.01087
  
 +
 + --- //T. Jelínek//