Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
pojmy:syntakticka_analyza [2021/01/18 08:57] – [Zobrazení syntaktických struktur v KonTextu] tomasjelinek | pojmy:syntakticka_analyza [2021/01/18 11:17] – [Zobrazení syntaktických struktur v KonTextu] tomasjelinek |
---|
==== Automatická syntaktická anotace: parsing ==== | ==== Automatická syntaktická anotace: parsing ==== |
| |
Syntaktická anotace se provádí automaticky, stochastickým programem ([[pojmy:parser|parserem]]). V korpusu SYN2015 programem TurboParser, v korpusu SYN2020 "neuronovým" parserem z řady nástrojů NeuroNLP2. Automatický parsing má výrazně vyšší chybovost než [[pojmy:morfologicka_analyza|anotace morfologická]]. V korpusu SYN2015 nemá přibližně 1/6 [[pojmy:token|tokenů]] správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci, v korpusu SYN2020 má chybnou syntaktickou anotaci více než 1/9 tokenů.\\ | Syntaktická anotace se provádí automaticky, stochastickým programem ([[pojmy:parser|parserem]]). V korpusu [[cnk:syn2015|SYN2015]] programem [[http://www.cs.cmu.edu/~afm/Home_files/acl2013short.pdf|TurboParser]], v korpusu [[cnk:syn2020|SYN2020]] "neuronovým" stack-pointer parserem z řady nástrojů [[https://arxiv.org/abs/1805.01087|NeuroNLP2]]. Automatický parsing má výrazně vyšší chybovost než [[pojmy:morfologicka_analyza|anotace morfologická]]. V korpusu SYN2015 nemá přibližně 1/6 [[pojmy:token|tokenů]] správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci, v korpusu SYN2020 má chybnou syntaktickou anotaci více než 1/9 tokenů.\\ |
| |
Úspěšnost parseru se počítá jako úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score) a úspěšnost přiřazení rodiče i syntaktické funkce zároveň, tzv. LAS (labeled attachment score). V korpusech SYN2015 a SYN2020 je následující: | Úspěšnost parseru se počítá jako úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score) a úspěšnost přiřazení rodiče i syntaktické funkce zároveň, tzv. LAS (labeled attachment score). V korpusech SYN2015 a SYN2020 je následující: |
{{:pojmy:zobrazenisyntaxe.png?500|Jak zobrazit syntaktickou strukturu}}\\ | {{:pojmy:zobrazenisyntaxe.png?500|Jak zobrazit syntaktickou strukturu}}\\ |
| |
Prokliknutím se zobrazí syntaktická struktura dané věty, jako příklad uvádíme část zobrazené struktury týkající se vedlejší věty //aby ses měla nač vymluvit// (věta z korpusu SYN2020, obsahuje tzv. [[cnk:syn2020:agregat|"agregáty"]], tj. tokeny obsahující více syntaktických slov):\\ | Prokliknutím se zobrazí syntaktická struktura dané věty, jako příklad uvádíme část zobrazené struktury týkající se vedlejší věty //aby ses měla nač vymluvit// (věta z korpusu SYN2020, obsahuje tzv. [[cnk:syn2020:agregat|agregáty]], tj. tokeny zahrnující více syntaktických slov):\\ |
| |
{{:cnk:syn2020:agregaty_syntax.png?250|Syntaktická struktura věty: příklad}}\\ | {{:cnk:syn2020:agregaty_syntax.png?250|Syntaktická struktura věty: příklad}}\\ |
* [[seznamy:afun|afun]] (syntaktická funkce) | * [[seznamy:afun|afun]] (syntaktická funkce) |
| |
Další atributy umožňují vyhledávat podle vlastností „rodiče“. U autosémantických slov lze vyhledávat i podle „efektivního rodiče“, což je nejbližší autosémantický rodič (či prarodič) daného slova. Ve výše uvedeném příkladu by tak slovu //zříceninou//, které je závislé přes koordinaci a předložku //mezi// na slovese //převážet//, byly přiřazeny následující atributy: | Další atributy umožňují vyhledávat podle vlastností „rodiče“ (řídícího slova, slova nadřazeného v syntaktické struktuře). U autosémantických slov lze vyhledávat i podle „efektivního rodiče“, což je nejbližší autosémantický rodič (či prarodič) daného slova. Ve výše uvedeném příkladu by tak slovu //zříceninou//, které je závislé přes koordinaci a předložku //mezi// na slovese //převážet//, byly přiřazeny následující atributy: |
| |
''%%afun="Adv_Co";%%'' | ''%%afun="Adv_Co";%%''\\ |
| <fs small>syntaktická funkce slova: příslovečné určení v koordinaci</fs>\\ |
| |
''%%parent="-1", p_tag="J^--------------", p_lemma="a", p_afun="Coord";%%'' | ''%%parent="-1", p_tag="J^--------------", p_lemma="a", p_afun="Coord";%%''\\ |
| <fs small>řídící slovo se nachází o jedna vlevo; tag řídícího slova je %%"J^..."%%, lemma je //a//, synt. funkce "koordinační spojka"</fs>\\ |
| |
''%%eparent="-5, "ep_tag="Vf--------------", ep_lemma="převážet", ep_afun="Pred";%%'' | ''%%eparent="-5, "ep_tag="Vf--------------", ep_lemma="převážet", ep_afun="Pred";%%''\\ |
| <fs small>plnovýznamové řídící slovo se nachází o pět tokenů vlevo; lemma plnovýznamového řídícího slova je //převážet//; synt. funkce "přísudek"</fs>\\ |
| |
''%%prep="mezi"%%'' | ''%%prep="mezi"%%''\\ |
| <fs small>tvar slova //zříceninou// je spoluurčen předložkou //mezi//</fs>\\ |
| \\ |
V korpusu pak lze podle těchto atributů vyhledávat, např. lze vyhledat všechna substantiva v akuzativu se syntaktickou funkcí Obj závislá na slovese //převážet//: | \\ |
| V korpusu pak lze podle těchto atributů vyhledávat, např. lze vyhledat všechna substantiva v akuzativu se syntaktickou funkcí **Obj** závislá na slovese //převážet//:\\ |
''%%[afun="Obj" & tag="NN..4.*" & p_lemma="převážet"]%%'' | ''%%[afun="Obj" & tag="NN..4.*" & p_lemma="převážet"]%%'' |
| |
Nebo lze vyhledat všechna slova (syntaktická substantiva) v sedmém pádě s předložkou //mezi// závislá na slovese v infinitivu: ''%%[prep="mezi" & case="7" & ep_tag="Vf.*"]%%''. | Nebo lze vyhledat všechna slova (syntaktická substantiva) v sedmém pádě s předložkou //mezi// závislá na slovese v infinitivu:\\ |
| ''%%[prep="mezi" & case="7" & ep_tag="Vf.*"]%%''. |
Nebo všechna adjektiva závislá na těsně následujícím substantivu:''%%[pos="A" & parent="\+1"]%%''. | |
| |
| Nebo všechna adjektiva závislá na těsně následujícím substantivu:\\ |
| ''%%[pos="A" & parent="\+1"]%%''. |
| \\ |
--- //Tomáš Jelínek// | --- //Tomáš Jelínek// |
| |