Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
pojmy:syntakticka_analyza [2016/05/06 12:15]
Tomáš Jelínek
pojmy:syntakticka_analyza [2016/06/07 11:36] (aktuální)
Václav Cvrček Úrovně nadpisů
Řádek 3: Řádek 3:
 V některých korpusech ČNK (počínaje [[cnk:​syn2015|SYN2015]]) se používá syntaktická anotace, označující závislostní vztahy mezi slovy ve větě a skladební funkce jednotlivých slov. Tato syntaktická anotace vychází ze zásad pro anotaci na tzv. analytické rovině v [[http://​ufal.mff.cuni.cz/​pdt2.0/​index-cz.html|Pražském závislostním korpusu]] (PDT). V některých korpusech ČNK (počínaje [[cnk:​syn2015|SYN2015]]) se používá syntaktická anotace, označující závislostní vztahy mezi slovy ve větě a skladební funkce jednotlivých slov. Tato syntaktická anotace vychází ze zásad pro anotaci na tzv. analytické rovině v [[http://​ufal.mff.cuni.cz/​pdt2.0/​index-cz.html|Pražském závislostním korpusu]] (PDT).
  
-**Systém syntaktického značkování:​ analytická rovina Pražského závislostního korpusu**\\+===== Systém syntaktického značkování:​ analytická rovina Pražského závislostního korpusu ​===== 
 Analytickou rovinu PDT ([[http://​ufal.mff.cuni.cz/​pdt2.0/​doc/​manuals/​cz/​a-layer/​html/​index.html|PDT 2.0]] s revizemi [[http://​ufal.mff.cuni.cz/​pdt2.5/​cs/​documentation.html|2.5]] a [[http://​ufal.mff.cuni.cz/​pdt3.0|3.0]]) jsme zvolili jako východisko pro značkování korpusu SYN2015 ze dvou důvodů: kvůli srozumitelnosti syntaktické teorie v PDT obsažené a kvůli dostupnosti kvalitně „manuálně“ označkovaných dat. Závislostní skladba, podle které je značkováno PDT, vychází z pojetí skladby Vl. Šmilauera a je tedy blízká „tradiční“ české skladbě takové, jaká se dodnes vyučuje na mnoha základních i středních školách, a tedy srozumitelná většímu počtu uživatelů. PDT na analytické rovině navíc obsahuje cca 1,5 milionu kvalitně syntakticky označkovaných dat, která lze využít pro trénink a testování programů pro automatické syntaktické značkování;​ tolik manuálně označkovaných dat neobsahuje žádný jiný český syntakticky značkovaný korpus. Analytickou rovinu PDT ([[http://​ufal.mff.cuni.cz/​pdt2.0/​doc/​manuals/​cz/​a-layer/​html/​index.html|PDT 2.0]] s revizemi [[http://​ufal.mff.cuni.cz/​pdt2.5/​cs/​documentation.html|2.5]] a [[http://​ufal.mff.cuni.cz/​pdt3.0|3.0]]) jsme zvolili jako východisko pro značkování korpusu SYN2015 ze dvou důvodů: kvůli srozumitelnosti syntaktické teorie v PDT obsažené a kvůli dostupnosti kvalitně „manuálně“ označkovaných dat. Závislostní skladba, podle které je značkováno PDT, vychází z pojetí skladby Vl. Šmilauera a je tedy blízká „tradiční“ české skladbě takové, jaká se dodnes vyučuje na mnoha základních i středních školách, a tedy srozumitelná většímu počtu uživatelů. PDT na analytické rovině navíc obsahuje cca 1,5 milionu kvalitně syntakticky označkovaných dat, která lze využít pro trénink a testování programů pro automatické syntaktické značkování;​ tolik manuálně označkovaných dat neobsahuje žádný jiný český syntakticky značkovaný korpus.
  
-**Automatická syntaktická anotace: parsing**\\+==== Automatická syntaktická anotace: parsing ​==== 
 Syntaktická anotace se provádí automaticky,​ stochastickým programem ([[pojmy:​parser|parserem]]),​ v tomto případě programem TurboParser,​ a má výrazně vyšší chybovost než [[pojmy:​morfologicka_analyza|anotace morfologická]]. Přibližně 1/6 [[pojmy:​token|tokenů]] nemá správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci. Úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score), je 88,48 %; úspěšnost přiřazení rodiče i syntaktické funkce, tzv. LAS (labeled attachment score), je 82,46 %. Syntaktickou anotaci tedy lze využívat jako **rámcové vodítko k dalšímu jazykovému výzkumu**, je však nutné počítat s tím, že není spolehlivá. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí,​ u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. Syntaktická anotace se provádí automaticky,​ stochastickým programem ([[pojmy:​parser|parserem]]),​ v tomto případě programem TurboParser,​ a má výrazně vyšší chybovost než [[pojmy:​morfologicka_analyza|anotace morfologická]]. Přibližně 1/6 [[pojmy:​token|tokenů]] nemá správně určeného „rodiče“ nebo správně přiřazenou syntaktickou funkci. Úspěšnost přiřazení rodiče, tzv. UAS (unlabeled attachment score), je 88,48 %; úspěšnost přiřazení rodiče i syntaktické funkce, tzv. LAS (labeled attachment score), je 82,46 %. Syntaktickou anotaci tedy lze využívat jako **rámcové vodítko k dalšímu jazykovému výzkumu**, je však nutné počítat s tím, že není spolehlivá. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí,​ u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %.
  
 [{{ :​pojmy:​mf041122_color.jpg?​400|}}] [{{ :​pojmy:​mf041122_color.jpg?​400|}}]
  
-**Závislostní syntaktická struktura**\\+===== Závislostní syntaktická struktura ​===== 
 V závislostní syntaktické anotaci je každému tokenu přiřazen jeden „rodič“,​ tj. jiný token, na kterém je daný token závislý, popř. „kořen“ věty, vnější rodič reprezentující celou větu (na „kořeni“ věty je závislý např. přísudek v hlavní větě). Každému tokenu je také přiřazena jedna syntaktická značka. Syntaktické značky zčásti odpovídají obvyklým skladebním funkcím jako přísudek (Pred), podmět (Sb), přívlastek (Atr) ap., zčásti to jsou funkce pomocné, přiřazené nejčastěji synsémantickým slovům (např. AuxP pro předložku) a interpunkci (AuxK pro interpunkční znaménko na konci věty). V závislostní syntaktické anotaci je každému tokenu přiřazen jeden „rodič“,​ tj. jiný token, na kterém je daný token závislý, popř. „kořen“ věty, vnější rodič reprezentující celou větu (na „kořeni“ věty je závislý např. přísudek v hlavní větě). Každému tokenu je také přiřazena jedna syntaktická značka. Syntaktické značky zčásti odpovídají obvyklým skladebním funkcím jako přísudek (Pred), podmět (Sb), přívlastek (Atr) ap., zčásti to jsou funkce pomocné, přiřazené nejčastěji synsémantickým slovům (např. AuxP pro předložku) a interpunkci (AuxK pro interpunkční znaménko na konci věty).
  
-**Příklad syntaktické struktury**\\+==== Příklad syntaktické struktury ​==== 
 Syntaktickou strukturu věty si můžeme přiblížit na příkladu věty //Plavidlo bude převážet turisty mezi minaretem a zříceninou Janohrad v parku.// Věta je zobrazena jako závislostní strom, kde větve představují závislostní vztahy mezi slovy. V závislostním stromu jsou tokeny se základními syntaktickými funkcemi zobrazeny <fc #​ff0000>​červeně</​fc>,​ tokeny s pomocnými funkcemi jsou zobrazeny <fc #​008000>​zeleně</​fc>​ a grafické symboly <fc #​dddd00>​žlutě</​fc>​. Syntaktickou strukturu věty si můžeme přiblížit na příkladu věty //Plavidlo bude převážet turisty mezi minaretem a zříceninou Janohrad v parku.// Věta je zobrazena jako závislostní strom, kde větve představují závislostní vztahy mezi slovy. V závislostním stromu jsou tokeny se základními syntaktickými funkcemi zobrazeny <fc #​ff0000>​červeně</​fc>,​ tokeny s pomocnými funkcemi jsou zobrazeny <fc #​008000>​zeleně</​fc>​ a grafické symboly <fc #​dddd00>​žlutě</​fc>​.
  
 Na technickém kořenu stromu (vlevo nahoře, s identifikátorem věty) závisí přísudek //​převážet//​ (Pred) a koncová interpunkce (AuxK). Na přísudku závisí podmět //​Plavidlo//​ (Sb) a předmět //turisty// (Obj). Pomocné sloveso //bude// (AuxV) tvoří s tvarem //​převážet//​ jeden slovesný tvar, je tedy také zobrazeno jako závislé na tomto uzlu. Kromě toho závisí na slovese //​převážet//​ i předložková fráze s významem místního určení obsahující koordinaci//​ mezi minaretem a zříceninou Janohrad//. Na rovině povrchové syntaxe v PDT funguje předložka jako formálně řídící, na slově //​převážet//​ je tedy závislá předložka (AuxP), na ní je závislý reprezentant koordinačního spojení, spojka //a// (Coord). Na koordinačním uzlu jsou závislá obě koordinovaná substantiva z předložkové fráze //minaretem a zříceninou//​ (Adv_Co: funkce Adv, příslovečné určení, je doplněna o koncovku _Co, která označuje koordinované členy). Podstatné jméno //​zříceninou//​ je dále rozvito neshodným přívlastkem //​Janohrad//​ (Atr). Na koordinačním uzlu (Coord) je také závislá předložková fráze //v parku//, která sice není koordinovaná,​ ale rozvíjí oba členy koordinace, tj. jak slovo //​minaretem//,​ tak slovo //​zříceninou//​. Opět je zde předložka //v// (AuxP) závislá na řídícím členu, na předložce je pak závislé substantivum //parku// s funkcí přívlastku (Atr). Na technickém kořenu stromu (vlevo nahoře, s identifikátorem věty) závisí přísudek //​převážet//​ (Pred) a koncová interpunkce (AuxK). Na přísudku závisí podmět //​Plavidlo//​ (Sb) a předmět //turisty// (Obj). Pomocné sloveso //bude// (AuxV) tvoří s tvarem //​převážet//​ jeden slovesný tvar, je tedy také zobrazeno jako závislé na tomto uzlu. Kromě toho závisí na slovese //​převážet//​ i předložková fráze s významem místního určení obsahující koordinaci//​ mezi minaretem a zříceninou Janohrad//. Na rovině povrchové syntaxe v PDT funguje předložka jako formálně řídící, na slově //​převážet//​ je tedy závislá předložka (AuxP), na ní je závislý reprezentant koordinačního spojení, spojka //a// (Coord). Na koordinačním uzlu jsou závislá obě koordinovaná substantiva z předložkové fráze //minaretem a zříceninou//​ (Adv_Co: funkce Adv, příslovečné určení, je doplněna o koncovku _Co, která označuje koordinované členy). Podstatné jméno //​zříceninou//​ je dále rozvito neshodným přívlastkem //​Janohrad//​ (Atr). Na koordinačním uzlu (Coord) je také závislá předložková fráze //v parku//, která sice není koordinovaná,​ ale rozvíjí oba členy koordinace, tj. jak slovo //​minaretem//,​ tak slovo //​zříceninou//​. Opět je zde předložka //v// (AuxP) závislá na řídícím členu, na předložce je pak závislé substantivum //parku// s funkcí přívlastku (Atr).
  
-**Vyhledávání syntaktických struktur v KonTextu: syntaktické atributy**\\+===== Vyhledávání syntaktických struktur v KonTextu: syntaktické atributy ​===== 
 Pro prohlížení syntakticky anotovaných korpusů se obvykle používají speciální prohlížeče schopné zobrazit syntaktickou strukturu, například program [[https://​ufal.mff.cuni.cz/​tred/​|TrEd]]. V prohlížeči [[manualy:​kontext|KonTextu]] možnost zobrazovat syntaktickou strukturu není, lze ale vyhledávat slova a slovní spojení podle syntaktických parametrů. K tomu je každému tokenu přiřazeno několik [[pojmy:​atributy_pozicni|atributů]],​ některé další atributy jsou pak přiřazeny jen vybraným tokenům. Všechny syntaktické atributy jsou popsané v [[seznamy:​syntakticke_znacky|samostatném článku]]. Základní syntaktické atributy přiřazené všem tokenům jsou:  Pro prohlížení syntakticky anotovaných korpusů se obvykle používají speciální prohlížeče schopné zobrazit syntaktickou strukturu, například program [[https://​ufal.mff.cuni.cz/​tred/​|TrEd]]. V prohlížeči [[manualy:​kontext|KonTextu]] možnost zobrazovat syntaktickou strukturu není, lze ale vyhledávat slova a slovní spojení podle syntaktických parametrů. K tomu je každému tokenu přiřazeno několik [[pojmy:​atributy_pozicni|atributů]],​ některé další atributy jsou pak přiřazeny jen vybraným tokenům. Všechny syntaktické atributy jsou popsané v [[seznamy:​syntakticke_znacky|samostatném článku]]. Základní syntaktické atributy přiřazené všem tokenům jsou: 
   * [[seznamy:​parent|parent]] (číselný odkaz na pozici řídícího tokenu) ​   * [[seznamy:​parent|parent]] (číselný odkaz na pozici řídícího tokenu) ​