Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:syntakticka_analyza [2021/01/18 10:57] – [Vyhledávání syntaktických struktur v KonTextu: syntaktické atributy] tomasjelinek | pojmy:syntakticka_analyza [2022/08/13 13:03] (aktuální) – [Syntaktická analýza a syntaktické značkování] alexandrrosen |
---|
====== Syntaktická analýza a syntaktické značkování ====== | ====== Syntaktická analýza a syntaktické značkování ====== |
| |
V některých korpusech ČNK ([[cnk:syn2015|SYN2015]] a [[cnk:syn2020|SYN2020]]) se používá syntaktická anotace, označující závislostní vztahy mezi slovy ve větě a skladební funkce jednotlivých slov. Tato syntaktická anotace vychází ze zásad pro anotaci na tzv. analytické rovině v [[http://ufal.mff.cuni.cz/pdt2.0/index-cz.html|Pražském závislostním korpusu]] (PDT). | V některých korpusech ČNK ([[cnk:syn2015|SYN2015]] a [[cnk:syn2020|SYN2020]]) se používá syntaktická anotace, označující závislostní vztahy mezi slovy ve větě a skladební funkce jednotlivých slov. Tato syntaktická anotace vychází ze zásad pro anotaci na tzv. analytické rovině v [[http://ufal.mff.cuni.cz/pdt2.0/index-cz.html|Pražském závislostním korpusu]] (PDT). Verze [[cnk:intercorp:verze13ud|13ud]] paralelního korpusu [[cnk:intercorp|InterCorp]] je syntakticky (a také morfologicky) anotována alternativním způsobem podle zásad mezinárodního projektu [[pojmy:ud|Universal Dependencies]]. |
| |
===== Systém syntaktického značkování: analytická rovina Pražského závislostního korpusu ===== | ===== Systém syntaktického značkování: analytická rovina Pražského závislostního korpusu ===== |
==== Automatická syntaktická anotace: parsing ==== | ==== Automatická syntaktická anotace: parsing ==== |
| |
Syntaktická anotace se provádí automaticky, stochastickým programem ([[pojmy:parser|parserem]]). V korpusu SYN2015 programem TurboParser, v korpusu SYN2020 "neuronovým" parserem z řady nástrojů NeuroNLP2. Automatický parsing má výrazně vyšší chybovost než [[pojmy:morfologicka_analyza|anotace morfologická]]. V korpusu SYN2015 nemá přibližně 1/6 [[pojmy:token|tokenů]] správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci, v korpusu SYN2020 má chybnou syntaktickou anotaci více než 1/9 tokenů.\\ | Syntaktická anotace se provádí automaticky, stochastickým programem ([[pojmy:parser|parserem]]). V korpusu [[cnk:syn2015|SYN2015]] programem [[http://www.cs.cmu.edu/~afm/Home_files/acl2013short.pdf|TurboParser]], v korpusu [[cnk:syn2020|SYN2020]] "neuronovým" stack-pointer parserem z řady nástrojů [[https://arxiv.org/abs/1805.01087|NeuroNLP2]]. Automatický parsing má výrazně vyšší chybovost než [[pojmy:morfologicka_analyza|anotace morfologická]]. V korpusu SYN2015 nemá přibližně 1/6 [[pojmy:token|tokenů]] správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci, v korpusu SYN2020 má chybnou syntaktickou anotaci více než 1/9 tokenů.\\ |
| |
Úspěšnost parseru se počítá jako úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score) a úspěšnost přiřazení rodiče i syntaktické funkce zároveň, tzv. LAS (labeled attachment score). V korpusech SYN2015 a SYN2020 je následující: | Úspěšnost parseru se počítá jako úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score) a úspěšnost přiřazení rodiče i syntaktické funkce zároveň, tzv. LAS (labeled attachment score). V korpusech SYN2015 a SYN2020 je následující: |
{{:pojmy:zobrazenisyntaxe.png?500|Jak zobrazit syntaktickou strukturu}}\\ | {{:pojmy:zobrazenisyntaxe.png?500|Jak zobrazit syntaktickou strukturu}}\\ |
| |
Prokliknutím se zobrazí syntaktická struktura dané věty, jako příklad uvádíme část zobrazené struktury týkající se vedlejší věty //aby ses měla nač vymluvit// (věta z korpusu SYN2020, obsahuje tzv. [[cnk:syn2020:agregat|agregáty]], tj. tokeny obsahující více syntaktických slov):\\ | Prokliknutím se zobrazí syntaktická struktura dané věty. Pořadí slov ve větě odpovídá pořadí syntaktických slov ve struktuře (zleva doprava), řídící slova jsou ve struktuře výše, závislá níže. Jako příklad uvádíme část zobrazené struktury týkající se vedlejší věty //aby ses měla nač vymluvit// (věta z korpusu SYN2020, obsahuje tzv. [[cnk:syn2020:agregat|agregáty]], tj. tokeny zahrnující více syntaktických slov):\\ |
| |
{{:cnk:syn2020:agregaty_syntax.png?250|Syntaktická struktura věty: příklad}}\\ | {{:cnk:syn2020:agregaty_syntax.png?250|Syntaktická struktura věty: příklad}}\\ |