AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
pojmy:syntakticka_analyza [2021/01/17 22:59] – [Vyhledávání syntaktických struktur v KonTextu: syntaktické atributy] tomasjelinekpojmy:syntakticka_analyza [2021/01/18 11:17] – [Zobrazení syntaktických struktur v KonTextu] tomasjelinek
Řádek 1: Řádek 1:
 ====== Syntaktická analýza a syntaktické značkování ====== ====== Syntaktická analýza a syntaktické značkování ======
  
-V některých korpusech ČNK (počínaje [[cnk:syn2015|SYN2015]]) se používá syntaktická anotace, označující závislostní vztahy mezi slovy ve větě a skladební funkce jednotlivých slov. Tato syntaktická anotace vychází ze zásad pro anotaci na tzv. analytické rovině v [[http://ufal.mff.cuni.cz/pdt2.0/index-cz.html|Pražském závislostním korpusu]] (PDT).+V některých korpusech ČNK ([[cnk:syn2015|SYN2015]] a [[cnk:syn2020|SYN2020]]) se používá syntaktická anotace, označující závislostní vztahy mezi slovy ve větě a skladební funkce jednotlivých slov. Tato syntaktická anotace vychází ze zásad pro anotaci na tzv. analytické rovině v [[http://ufal.mff.cuni.cz/pdt2.0/index-cz.html|Pražském závislostním korpusu]] (PDT).
  
 ===== Systém syntaktického značkování: analytická rovina Pražského závislostního korpusu ===== ===== Systém syntaktického značkování: analytická rovina Pražského závislostního korpusu =====
Řádek 9: Řádek 9:
 ==== Automatická syntaktická anotace: parsing ==== ==== Automatická syntaktická anotace: parsing ====
  
-Syntaktická anotace se provádí automaticky, stochastickým programem ([[pojmy:parser|parserem]]). V korpusu SYN2015 programem TurboParser, v korpusu SYN2020 "neuronovým" parserem z řady nástrojů NeuroNLP2. Automatický parsing má výrazně vyšší chybovost než [[pojmy:morfologicka_analyza|anotace morfologická]]. V korpusu SYN2015 nemá přibližně 1/6 [[pojmy:token|tokenů]] správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci, v korpusu SYN2020 má chybnou syntaktickou anotaci více než 1/9 tokenů.\\+Syntaktická anotace se provádí automaticky, stochastickým programem ([[pojmy:parser|parserem]]). V korpusu [[cnk:syn2015|SYN2015]] programem [[http://www.cs.cmu.edu/~afm/Home_files/acl2013short.pdf|TurboParser]], v korpusu [[cnk:syn2020|SYN2020]] "neuronovým" stack-pointer parserem z řady nástrojů [[https://arxiv.org/abs/1805.01087|NeuroNLP2]]. Automatický parsing má výrazně vyšší chybovost než [[pojmy:morfologicka_analyza|anotace morfologická]]. V korpusu SYN2015 nemá přibližně 1/6 [[pojmy:token|tokenů]] správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci, v korpusu SYN2020 má chybnou syntaktickou anotaci více než 1/9 tokenů.\\
  
 Úspěšnost parseru se počítá jako úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score) a úspěšnost přiřazení rodiče i syntaktické funkce zároveň, tzv. LAS (labeled attachment score). V korpusech SYN2015 a SYN2020 je následující: Úspěšnost parseru se počítá jako úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score) a úspěšnost přiřazení rodiče i syntaktické funkce zároveň, tzv. LAS (labeled attachment score). V korpusech SYN2015 a SYN2020 je následující:
Řádek 33: Řádek 33:
 ===== Zobrazení syntaktických struktur v KonTextu ===== ===== Zobrazení syntaktických struktur v KonTextu =====
  
-Pro každou větu v syntakticky označkovaném korpusu (tedy zatím v SYN2015 a v SYN2020) lze zobrazit syntaktickou strukturu prokliknutím ikony na levé straně konkordančního řádku (na obrázku zvýrazněno červeně). +Pro každou větu v syntakticky označkovaném korpusu (tedy zatím v SYN2015 a v SYN2020) lze zobrazit syntaktickou strukturu prokliknutím ikony na levé straně konkordančního řádku (na obrázku zvýrazněno červeně).\\ 
-{{:pojmy:zobrazenisyntaxe.png?500|}}+ 
 +{{:pojmy:zobrazenisyntaxe.png?500|Jak zobrazit syntaktickou strukturu}}\\ 
 + 
 +Prokliknutím se zobrazí syntaktická struktura dané věty, jako příklad uvádíme část zobrazené struktury týkající se vedlejší věty //aby ses měla nač vymluvit// (věta z korpusu SYN2020, obsahuje tzv. [[cnk:syn2020:agregat|agregáty]], tj. tokeny zahrnující více syntaktických slov):\\ 
 + 
 +{{:cnk:syn2020:agregaty_syntax.png?250|Syntaktická struktura věty: příklad}}\\
  
 ===== Vyhledávání syntaktických struktur v KonTextu: syntaktické atributy ===== ===== Vyhledávání syntaktických struktur v KonTextu: syntaktické atributy =====
Řádek 42: Řádek 47:
   * [[seznamy:afun|afun]] (syntaktická funkce)   * [[seznamy:afun|afun]] (syntaktická funkce)
    
-Další atributy umožňují vyhledávat podle vlastností „rodiče“. U autosémantických slov lze vyhledávat i podle „efektivního rodiče“, což je nejbližší autosémantický rodič (či prarodič) daného slova. Ve výše uvedeném příkladu by tak slovu //zříceninou//, které je závislé přes koordinaci a předložku //mezi// na slovese //převážet//, byly přiřazeny následující atributy:+Další atributy umožňují vyhledávat podle vlastností „rodiče“ (řídícího slova, slova nadřazeného v syntaktické struktuře). U autosémantických slov lze vyhledávat i podle „efektivního rodiče“, což je nejbližší autosémantický rodič (či prarodič) daného slova. Ve výše uvedeném příkladu by tak slovu //zříceninou//, které je závislé přes koordinaci a předložku //mezi// na slovese //převážet//, byly přiřazeny následující atributy:
  
-''%%afun="Adv_Co";%%''+''%%afun="Adv_Co";%%''\\ 
 +<fs small>syntaktická funkce slova: příslovečné určení v koordinaci</fs>\\
  
-''%%parent="-1", p_tag="J^--------------", p_lemma="a", p_afun="Coord";%%''+''%%parent="-1", p_tag="J^--------------", p_lemma="a", p_afun="Coord";%%''\\ 
 +<fs small>řídící slovo se nachází o jedna vlevo; tag řídícího slova je %%"J^..."%%, lemma je //a//, synt. funkce "koordinační spojka"</fs>\\
  
-''%%eparent="-5, "ep_tag="Vf--------------", ep_lemma="převážet", ep_afun="Pred";%%''+''%%eparent="-5, "ep_tag="Vf--------------", ep_lemma="převážet", ep_afun="Pred";%%''\\ 
 +<fs small>plnovýznamové řídící slovo se nachází o pět tokenů vlevo; lemma plnovýznamového řídícího slova je //převážet//; synt. funkce "přísudek"</fs>\\
  
-''%%prep="mezi"%%'' +''%%prep="mezi"%%''\\ 
- +<fs small>tvar slova //zříceninou// je spoluurčen předložkou //mezi//</fs>\\ 
- +\\ 
-V korpusu pak lze podle těchto atributů vyhledávat, např. lze vyhledat všechna substantiva v akuzativu se syntaktickou funkcí Obj závislá na slovese //převážet//:+\\ 
 +V korpusu pak lze podle těchto atributů vyhledávat, např. lze vyhledat všechna substantiva v akuzativu se syntaktickou funkcí **Obj** závislá na slovese //převážet//:\\
 ''%%[afun="Obj" & tag="NN..4.*" & p_lemma="převážet"]%%'' ''%%[afun="Obj" & tag="NN..4.*" & p_lemma="převážet"]%%''
  
-Nebo lze vyhledat všechna slova (syntaktická substantiva) v sedmém pádě s předložkou //mezi// závislá na slovese v infinitivu: ''%%[prep="mezi" & case="7" & ep_tag="Vf.*"]%%''+Nebo lze vyhledat všechna slova (syntaktická substantiva) v sedmém pádě s předložkou //mezi// závislá na slovese v infinitivu:\\ 
- +''%%[prep="mezi" & case="7" & ep_tag="Vf.*"]%%''.
-Nebo všechna adjektiva závislá na těsně následujícím substantivu:''%%[pos="A" & parent="\+1"]%%''.+
  
 +Nebo všechna adjektiva závislá na těsně následujícím substantivu:\\
 +''%%[pos="A" & parent="\+1"]%%''.
 +\\
  --- //Tomáš Jelínek//  --- //Tomáš Jelínek//