AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Změny v morfologických značkách v SYN2020

Změny v tagsetu jsou dány zčásti snahou o převzetí koncepčních změn v PDT (bohužel jen zčásti, proces změn tagsetu není dosud ukončen, my jsme potřebovali mít stabilní tagset výrazně dříve), zčásti snahou o odstranění některých (podle našeho názoru) nevhodných značek.

Tagy v SYN2020 budou mít nově 15 pozic.

POS

nové POS „F“, „S“, „B“:

F pro cizí slova

B pro zkratky
v naší verzi se u POS B určuje už jen SubPOS, převzatý od slova, k němuž zkratka patří,
například „kol“ jako zkratka může mít značku BN————- (třeba kolega) nebo BR————- (kolem, např. „kol. r. 1650“)

S pro „prefixoidy“ a „sufixoidy“
v pojetí PDT součásti jakéhokoli slova původně psaného se spojovníky a pak rozděleného, v našem pojetí jsou:

  • „prefixoidy“ součásti obvykle spojených slov buď ad hoc odpojené (troj(S) až pětipodlažní), nebo záměrně odtržené tokenizací makro(S) - úroveň;
  • „sufixoidy“ by měly být (zatím tam mohou být tu a tam chyby dané převzetím slovníku) jen případy typu učitel / ka(S), podepsal / a(S).

„prefixoidy“ mají SubPOS „2“ a jinak nic, „sufixoidy“ přebírají vše ostatní od slova, které zastupují.

SubPOS

V oblasti SubPOS jsme upravili (v návaznosti na ÚFAL) klasifikaci číslovek.

Nový systém číslovek

a číslovka základní neurčitá a tázací „mnoho“, „tolik“, „několik“, „kdovíkolik“, „kolik“, změna! - v syn v8 kolik pod „?“
d číslovka druhová a souborová „dvojí“, „obojí“, „čtverý“, „desaterý“ včetně tvarů „dvoje“, „oboje“, „čtvery“, „desatery“; „obé“; „jedny“ změna! - jmenné tvary v synv 8 pod zvláštním lemmatem a typem Ck, tvar jedny byl pod zvláštní kategorií
h číslovka druhová a souborová neurčitá a tázací „několikerý“, „tolikerý“, „kolikerý“ včetně tvarů „několikery“, „tolikery“, „kolikery“; „nejedny“ změna! - neurčité/tázací v synv 8 nevyděleny zvlášť
j číslovka úhrnná „čtvero“, „patero“, „devatero“, „dvé“, „tré“ změna! - v syn v8 dvé, tré pod „n“
k číslovka úhrnná neurčitá a tázací „několikero“, „tolikero“, „kolikero“ změna! - neurčité/tázací v synv 8 nevyděleny zvlášť
l číslovka základní 1-4 + nejeden „jeden“, „dva“, „oba“, „tři“, „čtyři“, „nejeden“ změna! - v syn v8 nejeden pod „Cw“
n číslovky základní 5-99 + slitky „pět“, „šest“, „dvacet“, „pětaosmdesát“…; „dvacetpět“, „pětset“, „stotřicet“, „pětapůl“…
o číslovka násobná neurčitá a tázací (adverbiální typ, včetně spřežek) „mnohokrát“, „několikanásobně“, „xkrát“, „bůhvíkolikrát“, „nejednou“, „naněkolikrát“,„pokolikáté“, „naponěkolikáté“ změna! - v syn v8 kolikrát pod „u“, nově z adverbií typy -násobně, -násob, k typu „po-é“ přidány další spřežky
r číslovka řadová „první“, „druhý“, „třetí“, „pátý“
u číslovka násobná (adjektivní typ) „dvojitý“, „trojitý“; „dvojnásobný“, „osminásobný“; „desateronásobný“…změna! - nově z adjektiv
v číslovka násobná (adverbiální typ, včetně spřežek) „pětkrát“, „osminásobně“, „trojnásob“, „jednou“, „raz“, „dvojitě“, „čtvermo“, „nadvakrát“, „poprvé“, „začtvrté“, „napodesáté“ změna! - nově z adverbií typy -násobně, -násob, k typu „po-é“ přidány další spřežky
w číslovka řadová neurčitá a tázací „tolikátý“, „několikátý“, „kolikátý“ změna! - v syn v8 kolikátý pod „z“
y číslovka dílová „půl“ , „polovic“, „čtvrt“; „polovina“, „třetina“, „osmina“… změna! - přidány polovina, půl, polovic, čtvrt
z číslovka základní se subst. skloňováním „sto“, „tisíc“, „milion“, „triliarda“…; „nula“, „raz“ změna! - v syn v8 základní pod „POS=N“
= číslo psané arabskými číslicemi „12“, „42“, „1,5“
} číslo psané římskými číslicemi „VII“, „XXVI“
3 číslovka násobná neurčitá a tázací (adjektivní typ) „mnohonásobný“, „xnásobný“, „kolikanásobný“… změna! - nově z adjektiv

V původní podobě zůstává klasifikace zájmen (změny provedené na ÚFALu v létě 2020 nebylo technicky možné převzít).

V souvislosti se změnami v tokenizaci byl vytvořen nový SubPos 0 pro identifikaci nekoncové interpunkce, který se týká tečky, vykřičníku, spojovníku, dvojtečky (tj. SubPos 0 dostává např. tečka za zkratkou nebo pořadovou číslicí uprostřed věty; spojovník původně přilepený ke slovu; vykřičník v názvu firmy; dvojtečka v časovém údaji).

Ostatní

Další pozice víceméně beze změny.

Na 13. pozici je nově vid.

14. pozice je neobsazená (PDT tam má svůj způsob řešení agregátů).

15. pozice obsahuje nadále „variantu“, jen „8“ už neznamená zkratku, ale další možnou variantu po „6“ a „7“.