Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
cnk:syn2020:automaticka_anotace [2021/01/14 10:39] – [Bibliografie k automatické anotaci SYN2020] tomasjelinek | cnk:syn2020:automaticka_anotace [2021/01/14 13:10] (aktuální) – [Bibliografie k automatické anotaci SYN2020] tomasjelinek | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Korpus SYN2020: Automatická anotace ====== | ====== Korpus SYN2020: Automatická anotace ====== | ||
- | Všechny korpusy řady SYN jsou anotovány (tedy lemmatizovány a opatřeny morfologickými značkami) automaticky. Anotace korpusu SYN2020 se od anotace starších korpusů liší, zde popisujeme [[# | + | Všechny korpusy řady SYN jsou anotovány (tedy lemmatizovány a opatřeny morfologickými značkami) automaticky. Anotace korpusu SYN2020 se od anotace starších korpusů |
===== Postup automatické anotace ===== | ===== Postup automatické anotace ===== | ||
Řádek 9: | Řádek 9: | ||
Na takto připravený text se pak aplikovala lingvisticky motivovaná desambiguační " | Na takto připravený text se pak aplikovala lingvisticky motivovaná desambiguační " | ||
- | Po dokončení desambiguace byla dalšími programy vytvořenými přímo pro tento úkol doplněna sublemmata a agregáty byly spojeny do jednoho tokenu (se zachováním lemmat a tagů pro každou část agregátu). Byla také provedena syntaktická anotace parserem ze skupiny nástrojů NeuroNLP, který je také založen na hlubokém učení / neuronových sítích (viz Xuezhe a kol., 2018). Parser byl natrénován na datech analytické roviny PDT (viz Bejček a kol., 2012) a syntakticky anotovaného korpusu beletrie FicTree (viz Jelínek, 2017). | + | Po dokončení desambiguace byla dalšími programy vytvořenými přímo pro tento úkol doplněna sublemmata a agregáty byly spojeny do jednoho tokenu (se zachováním lemmat a tagů pro každou část agregátu). |
+ | |||
+ | Byla také provedena syntaktická anotace parserem ze skupiny nástrojů NeuroNLP, který je také založen na hlubokém učení / neuronových sítích (viz Xuezhe a kol., 2018). Parser byl natrénován na datech analytické roviny PDT (viz Bejček a kol., 2012) a syntakticky anotovaného korpusu beletrie FicTree (viz Jelínek, 2017). | ||
Řádek 60: | Řádek 62: | ||
+ | --- //T. Jelínek// |