Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
pojmy:syntakticka_analyza [2016/06/07 11:36] – Úrovně nadpisů vaclavcvrcek | pojmy:syntakticka_analyza [2020/12/17 10:58] – [Automatická syntaktická anotace: parsing] tomasjelinek |
---|
==== Automatická syntaktická anotace: parsing ==== | ==== Automatická syntaktická anotace: parsing ==== |
| |
Syntaktická anotace se provádí automaticky, stochastickým programem ([[pojmy:parser|parserem]]), v tomto případě programem TurboParser, a má výrazně vyšší chybovost než [[pojmy:morfologicka_analyza|anotace morfologická]]. Přibližně 1/6 [[pojmy:token|tokenů]] nemá správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci. Úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score), je 88,48 %; úspěšnost přiřazení rodiče i syntaktické funkce, tzv. LAS (labeled attachment score), je 82,46 %. Syntaktickou anotaci tedy lze využívat jako **rámcové vodítko k dalšímu jazykovému výzkumu**, je však nutné počítat s tím, že není spolehlivá. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. | Syntaktická anotace se provádí automaticky, stochastickým programem ([[pojmy:parser|parserem]]). V korpusu SYN2015 programem TurboParser, v korpusu SYN2020 "neuronovým" parserem z řady nástrojů NeuroNLP2. Automatický parsing má výrazně vyšší chybovost než [[pojmy:morfologicka_analyza|anotace morfologická]]. V korpusu SYN2015 nemá přibližně 1/6 [[pojmy:token|tokenů]] správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci, v korpusu SYN2020 má chybnou syntaktickou anotaci více než 1/9 tokenů.\\ |
| JEŠTĚ SEM PŘIJDE TABULKA!!! |
| Úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score), je v 88,48 %; úspěšnost přiřazení rodiče i syntaktické funkce, tzv. LAS (labeled attachment score), je 82,46 %. Syntaktickou anotaci tedy lze využívat jako **rámcové vodítko k dalšímu jazykovému výzkumu**, je však nutné počítat s tím, že není spolehlivá. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. |
| |
[{{ :pojmy:mf041122_color.jpg?400|}}] | [{{ :pojmy:mf041122_color.jpg?400|}}] |
''%%[afun="Obj" & tag="NN..4.*" & p_lemma="převážet"]%%'' | ''%%[afun="Obj" & tag="NN..4.*" & p_lemma="převážet"]%%'' |
| |
Nebo lze vyhledat všechna slova (syntaktická substantiva) v sedmém pádě s předložkou mezi závislá na slovese v infinitivu: ''%%[prep="mezi" & case="7" & ep_tag="Vf.*"]%%''. | Nebo lze vyhledat všechna slova (syntaktická substantiva) v sedmém pádě s předložkou //mezi// závislá na slovese v infinitivu: ''%%[prep="mezi" & case="7" & ep_tag="Vf.*"]%%''. |
| |
--- //Tomáš Jelínek// | --- //Tomáš Jelínek// |