Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Následující verze | Předchozí verze | ||
| cnk:syn2020:automaticka_anotace [2021/01/14 10:35] – vytvořeno tomasjelinek | cnk:syn2020:automaticka_anotace [2021/01/14 13:10] (aktuální) – [Bibliografie k automatické anotaci SYN2020] tomasjelinek | ||
|---|---|---|---|
| Řádek 1: | Řádek 1: | ||
| ====== Korpus SYN2020: Automatická anotace ====== | ====== Korpus SYN2020: Automatická anotace ====== | ||
| - | Všechny korpusy řady SYN jsou anotovány (tedy lemmatizovány a opatřeny morfologickými značkami) automaticky. Anotace korpusu SYN2020 se od anotace starších korpusů liší, zde popisujeme [[# | + | Všechny korpusy řady SYN jsou anotovány (tedy lemmatizovány a opatřeny morfologickými značkami) automaticky. Anotace korpusu SYN2020 se od anotace starších korpusů |
| ===== Postup automatické anotace ===== | ===== Postup automatické anotace ===== | ||
| Řádek 9: | Řádek 9: | ||
| Na takto připravený text se pak aplikovala lingvisticky motivovaná desambiguační " | Na takto připravený text se pak aplikovala lingvisticky motivovaná desambiguační " | ||
| - | Po dokončení desambiguace byla dalšími programy vytvořenými přímo pro tento úkol doplněna sublemmata a agregáty byly spojeny do jednoho tokenu (se zachováním lemmat a tagů pro každou část agregátu). Byla také provedena syntaktická anotace parserem ze skupiny nástrojů NeuroNLP, který je také založen na hlubokém učení / neuronových sítích (viz Xuezhe a kol., 2018). Parser byl natrénován na datech analytické roviny PDT (viz Bejček a kol., 2012) a syntakticky anotovaného korpusu beletrie FicTree (viz Jelínek, 2017). | + | Po dokončení desambiguace byla dalšími programy vytvořenými přímo pro tento úkol doplněna sublemmata a agregáty byly spojeny do jednoho tokenu (se zachováním lemmat a tagů pro každou část agregátu). |
| + | |||
| + | Byla také provedena syntaktická anotace parserem ze skupiny nástrojů NeuroNLP, který je také založen na hlubokém učení / neuronových sítích (viz Xuezhe a kol., 2018). Parser byl natrénován na datech analytické roviny PDT (viz Bejček a kol., 2012) a syntakticky anotovaného korpusu beletrie FicTree (viz Jelínek, 2017). | ||
| Řádek 40: | Řádek 42: | ||
| Hajič Jan, Bejček Eduard, Hlaváčová Jaroslava, Mikulová Marie, Straka Milan, Štěpánek Jan, Štěpánková Barbora (2020): Prague Dependency Treebank -- Consolidated 1.0. In: // | Hajič Jan, Bejček Eduard, Hlaváčová Jaroslava, Mikulová Marie, Straka Milan, Štěpánek Jan, Štěpánková Barbora (2020): Prague Dependency Treebank -- Consolidated 1.0. In: // | ||
| + | |||
| + | Hnátková Milena, Křen Michal, Procházka Pavel, Skoumalová Hana (2014): The SYN-series corpora of written Czech. In: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC' | ||
| Jelínek Tomáš (2017): FicTree: a Manually Annotated Treebank of Czech Fiction. In: J. Hlaváčová (ed.), //ITAT 2017 Proceedings//, | Jelínek Tomáš (2017): FicTree: a Manually Annotated Treebank of Czech Fiction. In: J. Hlaváčová (ed.), //ITAT 2017 Proceedings//, | ||
| Řádek 48: | Řádek 52: | ||
| Petkevič Vladimír (2014): Problémy automatické morfologické disambiguace češtiny. //Naše řeč// | Petkevič Vladimír (2014): Problémy automatické morfologické disambiguace češtiny. //Naše řeč// | ||
| + | |||
| + | Spoustová Drahomíra, Hajič Jan, Votrubec Jan, Krbec Pavel, Květoň Pavel (2007): The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In: Proceedings of the Workshop on Balto-Slavonic Natural Language Processing. ACL, Praha, s. 67–74. | ||
| Straka Milan, Straková Jana, Hajič Jan (2019): Czech Text Processing with Contextual Embeddings: POS Tagging, Lemmatization, | Straka Milan, Straková Jana, Hajič Jan (2019): Czech Text Processing with Contextual Embeddings: POS Tagging, Lemmatization, | ||
| Řádek 55: | Řádek 61: | ||
| Xuezhe Ma, Zecong Hu, Jingzhou Liu, Nanyun Peng, Graham Neubig, Eduard H. Hovy (2018): Stack-Pointer Networks for Dependency Parsing. In: // | Xuezhe Ma, Zecong Hu, Jingzhou Liu, Nanyun Peng, Graham Neubig, Eduard H. Hovy (2018): Stack-Pointer Networks for Dependency Parsing. In: // | ||
| + | |||
| + | --- //T. Jelínek// | ||