Toto je starší verze dokumentu!
Syntaktické značky
Syntaktická anotace použitá v korpusu SYN2015 vycházejí z koncepce anotace na tzv. analytické rovině Pražského závislostního korpusu (PDT).
Základními atributy, do nichž je syntaktická analýza zakódována, jsou:
- parent, eparent
- p_tag, p_lemma
- ep_tag, ep_lemma
! Doplnit stručné popisy k jednotlivým atributům. Zbytek stránky jsem přesunul do nové stránky afun.
Syntaktické funkce lze rozdělit na základní (běžně užívané): přísudek (Pred), jmenná část verbonominálního přísudku (Pnom), podmět (Sb), přívlastek (Atr), předmět (Obj), příslovečné určení (Adv), doplněk (Atv, resp. AtvV), a na pomocné funkce, přiřazené např. pomocnému slovesu, předložkám, spojkám, grafickým symbolům ap. Přísudky ve vedlejších větách dostávají syntaktickou funkci věty, kterou reprezentují, tj. přísudek ve vedlejší větě předmětné bude mít funkci Obj, ne Pred.
V následující tabulce uvádíme všechny syntaktické funkce spolu s odkazem na Anotační manuál PDT.
Syntaktická funkce | Definice | Poznámka |
---|---|---|
Pred | Predikát (přísudek) | pouze v hlavní větě |
Sb | Subjekt (podmět) | |
Obj | Objekt (předmět) | včetně určení činitele děje u opisného pasiva |
Adv | Adverbiale (příslovečné určení) | bez dalšího rozlišení, vč. předložkových pádů u slovesa být, některých volných dativů aj. |
Atv | Doplněk | jen tzv. určující; technicky zavěšen na neslovesném členu |
AtvV | Doplněk | jen tzv. určující; visící na slovese (ve větě není vyjádřen druhý řídící člen) |
Atr | Atribut (přívlastek) | včetně spojení typu *Jan* Novák, genitivu po číslovkách aj. |
Pnom | Jmenná část verbonom. přísudku se sponou být, bývat | mimo předložkové pády |
AuxV | Pomocné sloveso být (Auxiliary Verb) | |
Coord | Koordinační uzel (souřadné spojení) | souřadicí spojka nebo interpunkce |
Apos | Aposice (hlavní uzel) | spojovací slovo nebo interpunkční znaménko |
AuxT | Zvratné se u refl. tantum | neoddělitelné se – reflexivní tantum |
AuxR | Zvratné se u pasiva | zvratné se, které není Obj ani AuxT (tvoří pasivum reflexivní) |
AuxP | Předložka | popř. všechny části složené předložky |
AuxC | Spojka podřadicí | |
AuxO | Nadbytečný (odkazovací, emotivní) element | např. etické ti |
AuxZ | Zdůrazňovací slovo | |
AuxX | Čárka | ne však nositel koordinace nebo koncový symbol |
AuxG | Jiné grafické symboly, které neukončují větu | |
AuxY | Příslovce a částice, které nelze zařadit jinam | |
AuxK | Koncová interpunkce věty | |
ExD | Součást aktuální elipsy | náhradní funkce pro technické hrany vedoucí místo od elidovaného členu k „pseudořídícímu“ slovu nebo pro hlavní člen věty bez predikátu (Ex-Dependent); také ve srovnávacích spojeních typu zdravý jako ryba |
Každé syntaktické funkci lze zároveň přiřadit jednu z následujících koncovek: _Co, _Ap, _Pa, a to u tokenů, které jsou koordinované, v apozičním vztahu nebo součástí parenteze. Koordinovaným přívlastkům se tak například přiřazuje funkce Atr_Co, podmětům v apozičním vztahu se přiřadí funkce Sb_Ap.
Seznam značek a jejich frekvence v korpusu SYN2015.
Hodnota afun | Frekvence v korpusu SYN2015 |
---|---|
Adv | 13710363 |
AdvAtr | 74 |
AdvAtr_Ap | 14 |
AdvAtr_Co | 309 |
Adv_Ap | 31288 |
Adv_C | 39 |
Adv_Co | 596299 |
Adv_Pa | 18158 |
Apos | 334041 |
Apos_Ap | 2440 |
Apos_Co | 31269 |
Apos_Pa | 262 |
Atr | 24859249 |
AtrAdv | 307 |
AtrAdv_Ap | 72 |
AtrAdv_Co | 740 |
AtrAdv_Pa | 93 |
AtrAtr | 34 |
AtrAtr_Ap | 8 |
AtrAtr_Co | 263 |
AtrAtr_Pa | 11 |
AtrObj | 57 |
AtrObj_Co | 229 |
Atr_Ap | 117568 |
Atr_Co | 2101018 |
Atr_Pa | 19682 |
Atv | 177471 |
AtvV | 119332 |
AtvV_Ap | 73 |
AtvV_Co | 705 |
AtvV_Pa | 90 |
Atv_Ap | 254 |
Atv_Co | 5077 |
Atv_Pa | 265 |
AuxC | 2522491 |
AuxC_Ap | 2 |
AuxC_Co | 60 |
AuxC_Pa | 46 |
AuxG | 3402843 |
AuxG_Ap | 14 |
AuxG_Co | 330 |
AuxG_Pa | 489 |
AuxK | 7837441 |
AuxK_Pa | 67 |
AuxO | 12422 |
AuxP | 10794852 |
AuxP_Pa | 59 |
AuxR | 171594 |
AuxT | 2497283 |
AuxT_Pa | 12 |
AuxV | 1668548 |
AuxV_Co | 67 |
AuxX | 7007444 |
AuxY | 905768 |
AuxY_Co | 7 |
AuxY_Pa | 5539 |
AuxZ | 1852858 |
AuxZ_Co | 790 |
AuxZ_Pa | 251 |
Coord | 4992966 |
Coord_Ap | 55677 |
Coord_Co | 364706 |
Coord_Pa | 41505 |
ExD | 1747132 |
ExD_Ap | 87377 |
ExD_Co | 911226 |
ExD_Pa | 229260 |
Obj | 10461705 |
ObjAtr | 29 |
ObjAtr_Co | 271 |
Obj_Ap | 94488 |
Obj_Co | 1192756 |
Obj_Pa | 379 |
Pnom | 1687985 |
Pnom_Ap | 2902 |
Pnom_Co | 111903 |
Pnom_Pa | 41 |
Pred | 4912302 |
Pred_Ap | 20806 |
Pred_Co | 4860424 |
Pred_Pa | 80484 |
Sb | 6981795 |
Sb_Ap | 146866 |
Sb_Co | 956857 |
Sb_Pa | 180 |