Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Následující verze | Předchozí verze | ||
cnk:syn2020:automaticka_anotace [2021/01/14 10:35] – vytvořeno tomasjelinek | cnk:syn2020:automaticka_anotace [2021/01/14 13:10] (aktuální) – [Bibliografie k automatické anotaci SYN2020] tomasjelinek | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Korpus SYN2020: Automatická anotace ====== | ====== Korpus SYN2020: Automatická anotace ====== | ||
- | Všechny korpusy řady SYN jsou anotovány (tedy lemmatizovány a opatřeny morfologickými značkami) automaticky. Anotace korpusu SYN2020 se od anotace starších korpusů liší, zde popisujeme [[# | + | Všechny korpusy řady SYN jsou anotovány (tedy lemmatizovány a opatřeny morfologickými značkami) automaticky. Anotace korpusu SYN2020 se od anotace starších korpusů |
===== Postup automatické anotace ===== | ===== Postup automatické anotace ===== | ||
Řádek 9: | Řádek 9: | ||
Na takto připravený text se pak aplikovala lingvisticky motivovaná desambiguační " | Na takto připravený text se pak aplikovala lingvisticky motivovaná desambiguační " | ||
- | Po dokončení desambiguace byla dalšími programy vytvořenými přímo pro tento úkol doplněna sublemmata a agregáty byly spojeny do jednoho tokenu (se zachováním lemmat a tagů pro každou část agregátu). Byla také provedena syntaktická anotace parserem ze skupiny nástrojů NeuroNLP, který je také založen na hlubokém učení / neuronových sítích (viz Xuezhe a kol., 2018). Parser byl natrénován na datech analytické roviny PDT (viz Bejček a kol., 2012) a syntakticky anotovaného korpusu beletrie FicTree (viz Jelínek, 2017). | + | Po dokončení desambiguace byla dalšími programy vytvořenými přímo pro tento úkol doplněna sublemmata a agregáty byly spojeny do jednoho tokenu (se zachováním lemmat a tagů pro každou část agregátu). |
+ | |||
+ | Byla také provedena syntaktická anotace parserem ze skupiny nástrojů NeuroNLP, který je také založen na hlubokém učení / neuronových sítích (viz Xuezhe a kol., 2018). Parser byl natrénován na datech analytické roviny PDT (viz Bejček a kol., 2012) a syntakticky anotovaného korpusu beletrie FicTree (viz Jelínek, 2017). | ||
Řádek 40: | Řádek 42: | ||
Hajič Jan, Bejček Eduard, Hlaváčová Jaroslava, Mikulová Marie, Straka Milan, Štěpánek Jan, Štěpánková Barbora (2020): Prague Dependency Treebank -- Consolidated 1.0. In: // | Hajič Jan, Bejček Eduard, Hlaváčová Jaroslava, Mikulová Marie, Straka Milan, Štěpánek Jan, Štěpánková Barbora (2020): Prague Dependency Treebank -- Consolidated 1.0. In: // | ||
+ | |||
+ | Hnátková Milena, Křen Michal, Procházka Pavel, Skoumalová Hana (2014): The SYN-series corpora of written Czech. In: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC' | ||
Jelínek Tomáš (2017): FicTree: a Manually Annotated Treebank of Czech Fiction. In: J. Hlaváčová (ed.), //ITAT 2017 Proceedings//, | Jelínek Tomáš (2017): FicTree: a Manually Annotated Treebank of Czech Fiction. In: J. Hlaváčová (ed.), //ITAT 2017 Proceedings//, | ||
Řádek 48: | Řádek 52: | ||
Petkevič Vladimír (2014): Problémy automatické morfologické disambiguace češtiny. //Naše řeč// | Petkevič Vladimír (2014): Problémy automatické morfologické disambiguace češtiny. //Naše řeč// | ||
+ | |||
+ | Spoustová Drahomíra, Hajič Jan, Votrubec Jan, Krbec Pavel, Květoň Pavel (2007): The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In: Proceedings of the Workshop on Balto-Slavonic Natural Language Processing. ACL, Praha, s. 67–74. | ||
Straka Milan, Straková Jana, Hajič Jan (2019): Czech Text Processing with Contextual Embeddings: POS Tagging, Lemmatization, | Straka Milan, Straková Jana, Hajič Jan (2019): Czech Text Processing with Contextual Embeddings: POS Tagging, Lemmatization, | ||
Řádek 55: | Řádek 61: | ||
Xuezhe Ma, Zecong Hu, Jingzhou Liu, Nanyun Peng, Graham Neubig, Eduard H. Hovy (2018): Stack-Pointer Networks for Dependency Parsing. In: // | Xuezhe Ma, Zecong Hu, Jingzhou Liu, Nanyun Peng, Graham Neubig, Eduard H. Hovy (2018): Stack-Pointer Networks for Dependency Parsing. In: // | ||
+ | |||
+ | --- //T. Jelínek// |