AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Změny v morfologických značkách v SYN2020
Změny v tagsetu jsou dány zčásti snahou o převzetí koncepčních změn v PDT (bohužel jen zčásti, proces změn tagsetu není dosud ukončen, my jsme potřebovali mít stabilní tagset výrazně dříve), zčásti snahou o odstranění některých (podle našeho názoru) nevhodných značek.

Tagy v SYN2020 budou mít nově 15 pozic.

POS: nové POS „F“, „S“, „B“:
F pro cizí slova
B pro zkratky (v naší verzi se u POS B určuje už jen SubPOS, převzetý od slova, k němuž zkratka patří, například „kol“ jako zkratka může mít značku BN————- (třeba kolega) nebo BR————- (kolem, např. „kol. r. 1650“))
S pro „prefixoidy“ a „sufixoidy“, v pojetí PDT součásti jakéhokoli slova původně psaného se spojovníky a pak rozděleného, v našem pojetí jsou
„prefixoidy“ součásti obvykle spojených slov buď ad hoc odpojená (troj(S) až pětipodlažní), nebo záměrně odtržená tokenizací makro(S) - úroveň;
„sufixoidy“ by měly být (zatím tam mohou být tu a tam chyby dané převzetím slovníku) jen případy typu „učitel / ka(S)“, „podepsal / a(S)“.
„prefixoidy“ mají SubPOS „2“ a jinak nic, „sufixoidy“ přebírají vše ostatní od slova, které zastupují.

SubPOS:
v oblasti SubPOS jsme převzali extenzivní změny ve slovníku provedené u zájmen, část změn provedených u číslovek. Podrobnější popis bude.

Další pozice víceméně beze změny.

Na 13. pozici je nově vid.

14. pozice je neobsazená (PDT tam má svůj způsob řešení agregátů).

15. pozice obsahuje nadále „variantu“, jen „8“ už neznamená zkratku, ale další možnou variantu po „6“ a „7“.