Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
pojmy:syntakticka_analyza [2016/06/07 11:36] – Úrovně nadpisů vaclavcvrcek | pojmy:syntakticka_analyza [2020/12/17 11:03] – tomasjelinek |
---|
==== Automatická syntaktická anotace: parsing ==== | ==== Automatická syntaktická anotace: parsing ==== |
| |
Syntaktická anotace se provádí automaticky, stochastickým programem ([[pojmy:parser|parserem]]), v tomto případě programem TurboParser, a má výrazně vyšší chybovost než [[pojmy:morfologicka_analyza|anotace morfologická]]. Přibližně 1/6 [[pojmy:token|tokenů]] nemá správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci. Úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score), je 88,48 %; úspěšnost přiřazení rodiče i syntaktické funkce, tzv. LAS (labeled attachment score), je 82,46 %. Syntaktickou anotaci tedy lze využívat jako **rámcové vodítko k dalšímu jazykovému výzkumu**, je však nutné počítat s tím, že není spolehlivá. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. | Syntaktická anotace se provádí automaticky, stochastickým programem ([[pojmy:parser|parserem]]). V korpusu SYN2015 programem TurboParser, v korpusu SYN2020 "neuronovým" parserem z řady nástrojů NeuroNLP2. Automatický parsing má výrazně vyšší chybovost než [[pojmy:morfologicka_analyza|anotace morfologická]]. V korpusu SYN2015 nemá přibližně 1/6 [[pojmy:token|tokenů]] správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci, v korpusu SYN2020 má chybnou syntaktickou anotaci více než 1/9 tokenů.\\ |
| |
| Úspěšnost parseru se počítá jako úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score) a úspěšnost přiřazení rodiče i syntaktické funkce zároveň, tzv. LAS (labeled attachment score). V korpusech SYN2015 a SYN2020 je následující: |
| |
| ^ korpus ^ UAS ^ LAS^ |
| | SYN2015 | 88,48 % | 82,46 % | |
| | SYN2020 | 92,39 % | 88,73 % | |
| |
| Syntaktickou anotaci tedy lze využívat jako **rámcové vodítko k dalšímu jazykovému výzkumu**, je však nutné počítat s tím, že není zcela spolehlivá. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 5 % (SYN2020) či pod 10 % (SYN2015). |
| |
[{{ :pojmy:mf041122_color.jpg?400|}}] | [{{ :pojmy:mf041122_color.jpg?400|}}] |
''%%[afun="Obj" & tag="NN..4.*" & p_lemma="převážet"]%%'' | ''%%[afun="Obj" & tag="NN..4.*" & p_lemma="převážet"]%%'' |
| |
Nebo lze vyhledat všechna slova (syntaktická substantiva) v sedmém pádě s předložkou mezi závislá na slovese v infinitivu: ''%%[prep="mezi" & case="7" & ep_tag="Vf.*"]%%''. | Nebo lze vyhledat všechna slova (syntaktická substantiva) v sedmém pádě s předložkou //mezi// závislá na slovese v infinitivu: ''%%[prep="mezi" & case="7" & ep_tag="Vf.*"]%%''. |
| |
--- //Tomáš Jelínek// | --- //Tomáš Jelínek// |