AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
pojmy:syntakticka_analyza [2016/06/07 11:36] – Úrovně nadpisů vaclavcvrcekpojmy:syntakticka_analyza [2021/01/18 11:17] – [Zobrazení syntaktických struktur v KonTextu] tomasjelinek
Řádek 1: Řádek 1:
 ====== Syntaktická analýza a syntaktické značkování ====== ====== Syntaktická analýza a syntaktické značkování ======
  
-V některých korpusech ČNK (počínaje [[cnk:syn2015|SYN2015]]) se používá syntaktická anotace, označující závislostní vztahy mezi slovy ve větě a skladební funkce jednotlivých slov. Tato syntaktická anotace vychází ze zásad pro anotaci na tzv. analytické rovině v [[http://ufal.mff.cuni.cz/pdt2.0/index-cz.html|Pražském závislostním korpusu]] (PDT).+V některých korpusech ČNK ([[cnk:syn2015|SYN2015]] a [[cnk:syn2020|SYN2020]]) se používá syntaktická anotace, označující závislostní vztahy mezi slovy ve větě a skladební funkce jednotlivých slov. Tato syntaktická anotace vychází ze zásad pro anotaci na tzv. analytické rovině v [[http://ufal.mff.cuni.cz/pdt2.0/index-cz.html|Pražském závislostním korpusu]] (PDT).
  
 ===== Systém syntaktického značkování: analytická rovina Pražského závislostního korpusu ===== ===== Systém syntaktického značkování: analytická rovina Pražského závislostního korpusu =====
Řádek 9: Řádek 9:
 ==== Automatická syntaktická anotace: parsing ==== ==== Automatická syntaktická anotace: parsing ====
  
-Syntaktická anotace se provádí automaticky, stochastickým programem ([[pojmy:parser|parserem]]), v tomto případě programem TurboParser, má výrazně vyšší chybovost než [[pojmy:morfologicka_analyza|anotace morfologická]]. Přibližně 1/6 [[pojmy:token|tokenů]] nemá správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci. Úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score), je 88,48 %; úspěšnost přiřazení rodiče i syntaktické funkce, tzv. LAS (labeled attachment score)je 82,46 %Syntaktickou anotaci tedy lze využívat jako **rámcové vodítko k dalšímu jazykovému výzkumu**, je však nutné počítat s tím, že není spolehlivá. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %.+Syntaktická anotace se provádí automaticky, stochastickým programem ([[pojmy:parser|parserem]]). V korpusu [[cnk:syn2015|SYN2015]] programem [[http://www.cs.cmu.edu/~afm/Home_files/acl2013short.pdf|TurboParser]]v korpusu [[cnk:syn2020|SYN2020]] "neuronovým" stack-pointer parserem z řady nástrojů [[https://arxiv.org/abs/1805.01087|NeuroNLP2]]. Automatický parsing má výrazně vyšší chybovost než [[pojmy:morfologicka_analyza|anotace morfologická]]. V korpusu SYN2015 nemá přibližně 1/6 [[pojmy:token|tokenů]] správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci, v korpusu SYN2020 má chybnou syntaktickou anotaci více než 1/9 tokenů.\\ 
 + 
 +Úspěšnost parseru se počítá jako úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score) úspěšnost přiřazení rodiče i syntaktické funkce zároveň, tzv. LAS (labeled attachment score). V korpusech SYN2015 a SYN2020 je následující: 
 + 
 +^ korpus ^ UAS ^ LAS^ 
 +| SYN2015 | 88,48 % | 82,46 % 
 +| SYN2020 | 92,39 % | 88,73 % | 
 + 
 +Syntaktickou anotaci tedy lze využívat jako **rámcové vodítko k dalšímu jazykovému výzkumu**, je však nutné počítat s tím, že není zcela spolehlivá. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 5 % (SYN2020) či pod 10 % (SYN2015).
  
 [{{ :pojmy:mf041122_color.jpg?400|}}] [{{ :pojmy:mf041122_color.jpg?400|}}]
Řádek 22: Řádek 30:
  
 Na technickém kořenu stromu (vlevo nahoře, s identifikátorem věty) závisí přísudek //převážet// (Pred) a koncová interpunkce (AuxK). Na přísudku závisí podmět //Plavidlo// (Sb) a předmět //turisty// (Obj). Pomocné sloveso //bude// (AuxV) tvoří s tvarem //převážet// jeden slovesný tvar, je tedy také zobrazeno jako závislé na tomto uzlu. Kromě toho závisí na slovese //převážet// i předložková fráze s významem místního určení obsahující koordinaci// mezi minaretem a zříceninou Janohrad//. Na rovině povrchové syntaxe v PDT funguje předložka jako formálně řídící, na slově //převážet// je tedy závislá předložka (AuxP), na ní je závislý reprezentant koordinačního spojení, spojka //a// (Coord). Na koordinačním uzlu jsou závislá obě koordinovaná substantiva z předložkové fráze //minaretem a zříceninou// (Adv_Co: funkce Adv, příslovečné určení, je doplněna o koncovku _Co, která označuje koordinované členy). Podstatné jméno //zříceninou// je dále rozvito neshodným přívlastkem //Janohrad// (Atr). Na koordinačním uzlu (Coord) je také závislá předložková fráze //v parku//, která sice není koordinovaná, ale rozvíjí oba členy koordinace, tj. jak slovo //minaretem//, tak slovo //zříceninou//. Opět je zde předložka //v// (AuxP) závislá na řídícím členu, na předložce je pak závislé substantivum //parku// s funkcí přívlastku (Atr). Na technickém kořenu stromu (vlevo nahoře, s identifikátorem věty) závisí přísudek //převážet// (Pred) a koncová interpunkce (AuxK). Na přísudku závisí podmět //Plavidlo// (Sb) a předmět //turisty// (Obj). Pomocné sloveso //bude// (AuxV) tvoří s tvarem //převážet// jeden slovesný tvar, je tedy také zobrazeno jako závislé na tomto uzlu. Kromě toho závisí na slovese //převážet// i předložková fráze s významem místního určení obsahující koordinaci// mezi minaretem a zříceninou Janohrad//. Na rovině povrchové syntaxe v PDT funguje předložka jako formálně řídící, na slově //převážet// je tedy závislá předložka (AuxP), na ní je závislý reprezentant koordinačního spojení, spojka //a// (Coord). Na koordinačním uzlu jsou závislá obě koordinovaná substantiva z předložkové fráze //minaretem a zříceninou// (Adv_Co: funkce Adv, příslovečné určení, je doplněna o koncovku _Co, která označuje koordinované členy). Podstatné jméno //zříceninou// je dále rozvito neshodným přívlastkem //Janohrad// (Atr). Na koordinačním uzlu (Coord) je také závislá předložková fráze //v parku//, která sice není koordinovaná, ale rozvíjí oba členy koordinace, tj. jak slovo //minaretem//, tak slovo //zříceninou//. Opět je zde předložka //v// (AuxP) závislá na řídícím členu, na předložce je pak závislé substantivum //parku// s funkcí přívlastku (Atr).
 +
 +===== Zobrazení syntaktických struktur v KonTextu =====
 +
 +Pro každou větu v syntakticky označkovaném korpusu (tedy zatím v SYN2015 a v SYN2020) lze zobrazit syntaktickou strukturu prokliknutím ikony na levé straně konkordančního řádku (na obrázku zvýrazněno červeně).\\
 +
 +{{:pojmy:zobrazenisyntaxe.png?500|Jak zobrazit syntaktickou strukturu}}\\
 +
 +Prokliknutím se zobrazí syntaktická struktura dané věty, jako příklad uvádíme část zobrazené struktury týkající se vedlejší věty //aby ses měla nač vymluvit// (věta z korpusu SYN2020, obsahuje tzv. [[cnk:syn2020:agregat|agregáty]], tj. tokeny zahrnující více syntaktických slov):\\
 +
 +{{:cnk:syn2020:agregaty_syntax.png?250|Syntaktická struktura věty: příklad}}\\
  
 ===== Vyhledávání syntaktických struktur v KonTextu: syntaktické atributy ===== ===== Vyhledávání syntaktických struktur v KonTextu: syntaktické atributy =====
  
-Pro prohlížení syntakticky anotovaných korpusů se obvykle používají speciální prohlížeče schopné zobrazit syntaktickou strukturu, například program [[https://ufal.mff.cuni.cz/tred/|TrEd]]. V prohlížeči [[manualy:kontext|KonTextu]] možnost zobrazovat syntaktickou strukturu není, lze ale vyhledávat slova a slovní spojení podle syntaktických parametrů. K tomu je každému tokenu přiřazeno několik [[pojmy:atributy_pozicni|atributů]], některé další atributy jsou pak přiřazeny jen vybraným tokenům. Všechny syntaktické atributy jsou popsané v [[seznamy:syntakticke_znacky|samostatném článku]]. Základní syntaktické atributy přiřazené všem tokenům jsou: +V prostředí [[manualy:kontext|KonText]] lze vyhledávat slova a slovní spojení podle jejich syntaktických vlastností. K tomu je každému tokenu přiřazeno několik [[pojmy:atributy_pozicni|atributů]], některé další atributy jsou pak přiřazeny jen vybraným tokenům (podle slovního druhu). Všechny syntaktické atributy jsou popsané v [[seznamy:syntakticke_znacky|samostatném článku]]. Základní syntaktické atributy přiřazené všem tokenům jsou: 
   * [[seznamy:parent|parent]] (číselný odkaz na pozici řídícího tokenu)    * [[seznamy:parent|parent]] (číselný odkaz na pozici řídícího tokenu) 
   * [[seznamy:afun|afun]] (syntaktická funkce)   * [[seznamy:afun|afun]] (syntaktická funkce)
    
-Další atributy umožňují vyhledávat podle vlastností „rodiče“. U autosémantických slov lze vyhledávat i podle „efektivního rodiče“, což je nejbližší autosémantický rodič (či prarodič) daného slova. Ve výše uvedeném příkladu by tak slovu //zříceninou//, které je závislé přes koordinaci a předložku //mezi// na slovese //převážet//, byly přiřazeny následující atributy: +Další atributy umožňují vyhledávat podle vlastností „rodiče“ (řídícího slova, slova nadřazeného v syntaktické struktuře). U autosémantických slov lze vyhledávat i podle „efektivního rodiče“, což je nejbližší autosémantický rodič (či prarodič) daného slova. Ve výše uvedeném příkladu by tak slovu //zříceninou//, které je závislé přes koordinaci a předložku //mezi// na slovese //převážet//, byly přiřazeny následující atributy:
- +
-''%%afun="Adv_Co";%%'' +
- +
-''%%parent="-1", p_tag="J^--------------", p_lemma="a", p_afun="Coord";%%''+
  
-''%%eparent="-5, "ep_tag="Vf--------------", ep_lemma="převážet", ep_afun="Pred";%%''+''%%afun="Adv_Co";%%''\\ 
 +<fs small>syntaktická funkce slova: příslovečné určení v koordinaci</fs>\\
  
-''%%prep="mezi"%%''+''%%parent="-1", p_tag="J^--------------", p_lemma="a", p_afun="Coord";%%''\\ 
 +<fs small>řídící slovo se nachází o jedna vlevo; tag řídícího slova je %%"J^..."%%, lemma je //a//, synt. funkce "koordinační spojka"</fs>\\
  
 +''%%eparent="-5, "ep_tag="Vf--------------", ep_lemma="převážet", ep_afun="Pred";%%''\\
 +<fs small>plnovýznamové řídící slovo se nachází o pět tokenů vlevo; lemma plnovýznamového řídícího slova je //převážet//; synt. funkce "přísudek"</fs>\\
  
-V korpusu pak lze podle těchto atributů vyhledávat, např. lze vyhledat všechna substantiva v akuzativu se syntaktickou funkcí Obj závislá na slovese //převážet//:+''%%prep="mezi"%%''\\ 
 +<fs small>tvar slova //zříceninou// je spoluurčen předložkou //mezi//</fs>\\ 
 +\\ 
 +\\ 
 +V korpusu pak lze podle těchto atributů vyhledávat, např. lze vyhledat všechna substantiva v akuzativu se syntaktickou funkcí **Obj** závislá na slovese //převážet//:\\
 ''%%[afun="Obj" & tag="NN..4.*" & p_lemma="převážet"]%%'' ''%%[afun="Obj" & tag="NN..4.*" & p_lemma="převážet"]%%''
  
-Nebo lze vyhledat všechna slova (syntaktická substantiva) v sedmém pádě s předložkou mezi závislá na slovese v infinitivu: ''%%[prep="mezi" & case="7" & ep_tag="Vf.*"]%%''.+Nebo lze vyhledat všechna slova (syntaktická substantiva) v sedmém pádě s předložkou //mezi// závislá na slovese v infinitivu:\\ 
 +''%%[prep="mezi" & case="7" & ep_tag="Vf.*"]%%''.
  
 +Nebo všechna adjektiva závislá na těsně následujícím substantivu:\\
 +''%%[pos="A" & parent="\+1"]%%''.
 +\\
  --- //Tomáš Jelínek//  --- //Tomáš Jelínek//