Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Obě strany předchozí revizePředchozí verze | |
| pojmy:syntakticka_analyza [2026/01/19 09:55] – [Automatická syntaktická anotace: parsing] tomasjelinek | pojmy:syntakticka_analyza [2026/01/19 09:55] (aktuální) – [Automatická syntaktická anotace: parsing] tomasjelinek |
|---|
| ==== Automatická syntaktická anotace: parsing ==== | ==== Automatická syntaktická anotace: parsing ==== |
| |
| Syntaktická anotace se provádí automaticky, stochastickým programem ([[pojmy:parser|parserem]]). V korpusu [[cnk:syn2015|SYN2015]] programem [[http://www.cs.cmu.edu/~afm/Home_files/acl2013short.pdf|TurboParser]], v korpusu [[cnk:syn2020|SYN2020]] "neuronovým" stack-pointer parserem z řady nástrojů [[https://arxiv.org/abs/1805.01087|NeuroNLP2]]. Automatický parsing má výrazně vyšší chybovost než [[pojmy:morfologicka_analyza|anotace morfologická]]. V korpusu SYN2015 nemá přibližně 1/6 [[pojmy:token|tokenů]] správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci, v korpusu SYN2020 má chybnou syntaktickou anotaci více než 1/9 tokenů.\\ | Syntaktická anotace se provádí automaticky, stochastickým programem ([[pojmy:parser|parserem]]). V korpusu [[cnk:syn2015|SYN2015]] programem [[http://www.cs.cmu.edu/~afm/Home_files/acl2013short.pdf|TurboParser]], v korpusech [[cnk:syn2020|SYN2020]] a [[cnk:syn2025|SYN2025]] "neuronovým" stack-pointer parserem z řady nástrojů [[https://arxiv.org/abs/1805.01087|NeuroNLP2]]. Automatický parsing má výrazně vyšší chybovost než [[pojmy:morfologicka_analyza|anotace morfologická]]. V korpusu SYN2015 nemá přibližně 1/6 [[pojmy:token|tokenů]] správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci, v korpusu SYN2020 má chybnou syntaktickou anotaci více než 1/9 tokenů.\\ |
| |
| Úspěšnost parseru se počítá jako úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score) a úspěšnost přiřazení rodiče i syntaktické funkce zároveň, tzv. LAS (labeled attachment score). V korpusech SYN2015 a SYN2020 je následující: | Úspěšnost parseru se počítá jako úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score) a úspěšnost přiřazení rodiče i syntaktické funkce zároveň, tzv. LAS (labeled attachment score). V korpusech SYN2015 a SYN2020 je následující: |