AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Změny v morfologických značkách v SYN2020

Změny v tagsetu jsou dány zčásti snahou o převzetí koncepčních změn v PDT (bohužel jen zčásti, proces změn tagsetu není dosud ukončen, my jsme potřebovali mít stabilní tagset výrazně dříve), zčásti snahou o odstranění některých (podle našeho názoru) nevhodných značek.

Tagy v SYN2020 budou mít nově 15 pozic.

POS

nové POS „F“, „S“, „B“:

F pro cizí slova

B pro zkratky
v naší verzi se u POS B určuje už jen SubPOS, převzatý od slova, k němuž zkratka patří,
například „kol“ jako zkratka může mít značku BN————- (třeba kolega) nebo BR————- (kolem, např. „kol. r. 1650“)

S pro „prefixoidy“ a „sufixoidy“
v pojetí PDT součásti jakéhokoli slova původně psaného se spojovníky a pak rozděleného, v našem pojetí jsou:

  • „prefixoidy“ součásti obvykle spojených slov buď ad hoc odpojené (troj(S) až pětipodlažní), nebo záměrně odtržené tokenizací makro(S) - úroveň;
  • „sufixoidy“ by měly být (zatím tam mohou být tu a tam chyby dané převzetím slovníku) jen případy typu učitel / ka(S), podepsal / a(S).

„prefixoidy“ mají SubPOS „2“ a jinak nic, „sufixoidy“ přebírají vše ostatní od slova, které zastupují.

SubPOS

v oblasti SubPOS jsme převzali extenzivní změny ve slovníku provedené u zájmen, část změn provedených u číslovek. Podrobnější popis bude.

Ostatní

Další pozice víceméně beze změny.

Na 13. pozici je nově vid.

14. pozice je neobsazená (PDT tam má svůj způsob řešení agregátů).

15. pozice obsahuje nadále „variantu“, jen „8“ už neznamená zkratku, ale další možnou variantu po „6“ a „7“.