AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn2020:automaticka_anotace [2021/01/14 10:39] – [Bibliografie k automatické anotaci SYN2020] tomasjelinekcnk:syn2020:automaticka_anotace [2021/01/14 13:10] (aktuální) – [Bibliografie k automatické anotaci SYN2020] tomasjelinek
Řádek 1: Řádek 1:
 ====== Korpus SYN2020: Automatická anotace ====== ====== Korpus SYN2020: Automatická anotace ======
-Všechny korpusy řady SYN jsou anotovány (tedy lemmatizovány a opatřeny morfologickými značkami) automaticky. Anotace korpusu SYN2020 se od anotace starších korpusů liší, zde popisujeme [[#postup_automaticke_anotace|postup]] této anotace a také její [[#uspesnost_automaticke_anotace|úspěšnost]] (měřenou na testovacích datech).+Všechny korpusy řady SYN jsou anotovány (tedy lemmatizovány a opatřeny morfologickými značkami) automaticky. Anotace korpusu SYN2020 se od anotace starších korpusů (viz Hnátková a kol., 2014) liší, zde popisujeme [[#postup_automaticke_anotace|postup]] této anotace a také její [[#uspesnost_automaticke_anotace|úspěšnost]] (měřenou na testovacích datech).
  
 ===== Postup automatické anotace ===== ===== Postup automatické anotace =====
Řádek 9: Řádek 9:
 Na takto připravený text se pak aplikovala lingvisticky motivovaná desambiguační "pravidla", která na základě kontextu odstraňuje u jednotlivých tokenů ty interpretace, které jsou v daném kontextu nesmyslné, například tvar //již// po předložce nemůže být vztažné zájmeno, tvar //se// před slovesem nemůže být předložka atp. (viz Petkevič, 2006; Jelínek a Petkevič, 2011; Petkevič, 2014). Neúplnou desambiguaci po těchto pravidlech pak dokončila nová verze nástroje MorphoDiTa založená na tzv. hlubokém učení / neuronových sítích (viz Straka a kol., 2019), tento nástroj byl natrénován na datech korpusu Etalon (obsahuje 2,2 mil. tokenů ručně označkovaných podle koncepce korpusu SYN2020 a tvoří jej texty z publicistiky, odborné literatury i beletrie). Na takto připravený text se pak aplikovala lingvisticky motivovaná desambiguační "pravidla", která na základě kontextu odstraňuje u jednotlivých tokenů ty interpretace, které jsou v daném kontextu nesmyslné, například tvar //již// po předložce nemůže být vztažné zájmeno, tvar //se// před slovesem nemůže být předložka atp. (viz Petkevič, 2006; Jelínek a Petkevič, 2011; Petkevič, 2014). Neúplnou desambiguaci po těchto pravidlech pak dokončila nová verze nástroje MorphoDiTa založená na tzv. hlubokém učení / neuronových sítích (viz Straka a kol., 2019), tento nástroj byl natrénován na datech korpusu Etalon (obsahuje 2,2 mil. tokenů ručně označkovaných podle koncepce korpusu SYN2020 a tvoří jej texty z publicistiky, odborné literatury i beletrie).
  
-Po dokončení desambiguace byla dalšími programy vytvořenými přímo pro tento úkol doplněna sublemmata a agregáty byly spojeny do jednoho tokenu (se zachováním lemmat a tagů pro každou část agregátu). Byla také provedena syntaktická anotace parserem ze skupiny nástrojů NeuroNLP, který je také založen na hlubokém učení / neuronových sítích (viz Xuezhe a kol., 2018). Parser byl natrénován na datech analytické roviny PDT (viz Bejček a kol., 2012) a syntakticky anotovaného korpusu beletrie FicTree (viz Jelínek, 2017).+Po dokončení desambiguace byla dalšími programy vytvořenými přímo pro tento úkol doplněna sublemmata a agregáty byly spojeny do jednoho tokenu (se zachováním lemmat a tagů pro každou část agregátu). 
 + 
 +Byla také provedena syntaktická anotace parserem ze skupiny nástrojů NeuroNLP, který je také založen na hlubokém učení / neuronových sítích (viz Xuezhe a kol., 2018). Parser byl natrénován na datech analytické roviny PDT (viz Bejček a kol., 2012) a syntakticky anotovaného korpusu beletrie FicTree (viz Jelínek, 2017).
  
  
Řádek 60: Řádek 62:
  
  
 + --- //T. Jelínek//