AppsApps
Settings

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:syntakticka_analyza [2026/01/19 09:53] – [Systém syntaktického značkování: analytická rovina Pražského závislostního korpusu] tomasjelinekpojmy:syntakticka_analyza [2026/01/19 09:55] (aktuální) – [Automatická syntaktická anotace: parsing] tomasjelinek
Řádek 9: Řádek 9:
 ==== Automatická syntaktická anotace: parsing ==== ==== Automatická syntaktická anotace: parsing ====
  
-Syntaktická anotace se provádí automaticky, stochastickým programem ([[pojmy:parser|parserem]]). V korpusu [[cnk:syn2015|SYN2015]] programem [[http://www.cs.cmu.edu/~afm/Home_files/acl2013short.pdf|TurboParser]],korpusu [[cnk:syn2020|SYN2020]] "neuronovým" stack-pointer parserem z řady nástrojů [[https://arxiv.org/abs/1805.01087|NeuroNLP2]]. Automatický parsing má výrazně vyšší chybovost než [[pojmy:morfologicka_analyza|anotace morfologická]]. V korpusu SYN2015 nemá přibližně 1/6 [[pojmy:token|tokenů]] správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci, v korpusu SYN2020 má chybnou syntaktickou anotaci více než 1/9 tokenů.\\+Syntaktická anotace se provádí automaticky, stochastickým programem ([[pojmy:parser|parserem]]). V korpusu [[cnk:syn2015|SYN2015]] programem [[http://www.cs.cmu.edu/~afm/Home_files/acl2013short.pdf|TurboParser]],korpusech [[cnk:syn2020|SYN2020]] a [[cnk:syn2025|SYN2025]] "neuronovým" stack-pointer parserem z řady nástrojů [[https://arxiv.org/abs/1805.01087|NeuroNLP2]]. Automatický parsing má výrazně vyšší chybovost než [[pojmy:morfologicka_analyza|anotace morfologická]]. V korpusu SYN2015 nemá přibližně 1/6 [[pojmy:token|tokenů]] správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci, v korpusu SYN2020 má chybnou syntaktickou anotaci více než 1/9 tokenů.\\
  
 Úspěšnost parseru se počítá jako úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score) a úspěšnost přiřazení rodiče i syntaktické funkce zároveň, tzv. LAS (labeled attachment score). V korpusech SYN2015 a SYN2020 je následující: Úspěšnost parseru se počítá jako úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score) a úspěšnost přiřazení rodiče i syntaktické funkce zároveň, tzv. LAS (labeled attachment score). V korpusech SYN2015 a SYN2020 je následující:
Řádek 16: Řádek 16:
 | SYN2015 | 88,48 % | 82,46 % | | SYN2015 | 88,48 % | 82,46 % |
 | SYN2020 | 92,39 % | 88,73 % | | SYN2020 | 92,39 % | 88,73 % |
 +| SYN2025 | 92,56 % | 88,94 % |
  
 Syntaktickou anotaci tedy lze využívat jako **rámcové vodítko k dalšímu jazykovému výzkumu**, je však nutné počítat s tím, že není zcela spolehlivá. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 5 % (SYN2020) či pod 10 % (SYN2015). Syntaktickou anotaci tedy lze využívat jako **rámcové vodítko k dalšímu jazykovému výzkumu**, je však nutné počítat s tím, že není zcela spolehlivá. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 5 % (SYN2020) či pod 10 % (SYN2015).