AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Změny v morfologických značkách v SYN2020

Změny v tagsetu jsou dány zčásti snahou o převzetí koncepčních změn v PDT (bohužel jen zčásti, proces změn tagsetu není dosud ukončen, my jsme potřebovali mít stabilní tagset výrazně dříve), zčásti snahou o odstranění některých (podle našeho názoru) nevhodných značek.

Tagy v SYN2020 budou mít nově 15 pozic.

POS

nové POS „F“, „S“, „B“:

F pro cizí slova

B pro zkratky
v naší verzi se u POS B určuje už jen SubPOS, převzatý od slova, k němuž zkratka patří,
například „kol“ jako zkratka může mít značku BN————- (třeba kolega) nebo BR————- (kolem, např. „kol. r. 1650“)

S pro „prefixoidy“ a „sufixoidy“
v pojetí PDT součásti jakéhokoli slova původně psaného se spojovníky a pak rozděleného, v našem pojetí jsou:

  • „prefixoidy“ součásti obvykle spojených slov buď ad hoc odpojené (troj(S) až pětipodlažní), nebo záměrně odtržené tokenizací makro(S) - úroveň;
  • „sufixoidy“ by měly být (zatím tam mohou být tu a tam chyby dané převzetím slovníku) jen případy typu učitel / ka(S), podepsal / a(S).

„prefixoidy“ mají SubPOS „2“ a jinak nic, „sufixoidy“ přebírají vše ostatní od slova, které zastupují.

Slovnědruhové přehodnocení některých skupin

V souvislosti se změnami u číslovek na ÚFALu jsme přehodnotili značení u následujících skupin číslovek (příklady viz oddíl SubPOS):

  • N > C: základní číslovky substantivně skloňované; několik číslovek dílových
  • A > C: násobné číslovky adjektivně skloňované
  • D > C: násobné číslovky adverbiální; některé adverbiální spřežky

Bylo rozšířeno značení predikativ jako D, a to na úkor dřívějšího značení těchto slov jako N (černo, čerstvo), nebo jako AC (ošklivo, vhodno, možno). Řadě predikativ byly také přidány stupňované tvary, aby bylo možno přiřadit k různým lemmatům doklady jako vypadá čistěji, je tu čistěji.

S predikativy souvisí nové značení zvláštního typu AC. Ustrnulé adjektivní tvary v rámci předložkové konstrukce, která funguje jako adverbiále (po anglicku, do růžova, do mrtva) dostávají značku AC a jejich tvar se rovná lemmatu. Tato slova byla dříve nejednotně značena buď jako tvar teoretického substantiva (anglicko), nebo jako adverbium (růžova), nebo jako tvar AC (mrtvý). Tvary, které mohou fungovat jako predikativum (je sladko žít) i jako AC (na sladko), se rozlišují. Naopak slova, která prakticky fungují jen po předložce jako součást adverbiale (na stojato, na kolmo), jsou vždy značena AC.

SubPOS

V oblasti SubPOS jsme upravili klasifikaci číslovek (v návaznosti na ÚFAL i s ohledem na NovaMorf).

Nový systém číslovek

a číslovka základní neurčitá a tázací „mnoho“, „tolik“, „několik“, „kdovíkolik“, „kolik“, změna! - v syn v8 kolik pod „?“
d číslovka druhová a souborová „dvojí“, „obojí“, „čtverý“, „desaterý“ včetně tvarů „dvoje“, „oboje“, „čtvery“, „desatery“; „obé“; „jedny“ změna! - jmenné tvary v synv 8 pod zvláštním lemmatem a typem Ck, tvar jedny byl pod zvláštní kategorií
h číslovka druhová a souborová neurčitá a tázací „několikerý“, „tolikerý“, „kolikerý“ včetně tvarů „několikery“, „tolikery“, „kolikery“; „nejedny“ změna! - neurčité/tázací v synv 8 nevyděleny zvlášť
j číslovka úhrnná „čtvero“, „patero“, „devatero“, „dvé“, „tré“ změna! - v syn v8 dvé, tré pod „n“
k číslovka úhrnná neurčitá a tázací „několikero“, „tolikero“, „kolikero“ změna! - neurčité/tázací v synv 8 nevyděleny zvlášť
l číslovka základní 1-4 + nejeden „jeden“, „dva“, „oba“, „tři“, „čtyři“, „nejeden“ změna! - v syn v8 nejeden pod „Cw“
n číslovky základní 5-99 + slitky „pět“, „šest“, „dvacet“, „pětaosmdesát“…; „dvacetpět“, „pětset“, „stotřicet“, „pětapůl“…
o číslovka násobná neurčitá a tázací (adverbiální typ, včetně spřežek) „mnohokrát“, „několikanásobně“, „xkrát“, „bůhvíkolikrát“, „nejednou“, „naněkolikrát“,„pokolikáté“, „naponěkolikáté“ změna! - v syn v8 kolikrát pod „u“, nově z adverbií typy -násobně, -násob, k typu „po-é“ přidány další spřežky
r číslovka řadová „první“, „druhý“, „třetí“, „pátý“
u číslovka násobná (adjektivní typ) „dvojitý“, „trojitý“; „dvojnásobný“, „osminásobný“; „desateronásobný“…změna! - nově z adjektiv
v číslovka násobná (adverbiální typ, včetně spřežek) „pětkrát“, „osminásobně“, „trojnásob“, „jednou“, „raz“, „dvojitě“, „čtvermo“, „nadvakrát“, „poprvé“, „začtvrté“, „napodesáté“ změna! - nově z adverbií typy -násobně, -násob, k typu „po-é“ přidány další spřežky
w číslovka řadová neurčitá a tázací „tolikátý“, „několikátý“, „kolikátý“ změna! - v syn v8 kolikátý pod „z“
y číslovka dílová „půl“ , „polovic“, „čtvrt“; „polovina“, „třetina“, „osmina“… změna! - přidány polovina, půl, polovic, čtvrt
z číslovka základní se subst. skloňováním „sto“, „tisíc“, „milion“, „triliarda“…; „nula“, „raz“ změna! - v syn v8 základní pod „POS=N“
= číslo psané arabskými číslicemi „12“, „42“, „1,5“
} číslo psané římskými číslicemi „VII“, „XXVI“
3 číslovka násobná neurčitá a tázací (adjektivní typ) „mnohonásobný“, „xnásobný“, „kolikanásobný“… změna! - nově z adjektiv

V původní podobě zůstává klasifikace zájmen (změny provedené na ÚFALu v létě 2020 nebylo technicky možné převzít).

V souvislosti se změnami v tokenizaci byl vytvořen nový SubPos 0 pro identifikaci nekoncové interpunkce, který se týká tečky, vykřičníku, spojovníku, dvojtečky (tj. SubPos 0 dostává např. tečka za zkratkou nebo pořadovou číslicí uprostřed věty; spojovník původně přilepený ke slovu; vykřičník v názvu firmy; dvojtečka v časovém údaji).

Ostatní

Další pozice víceméně beze změny.

Na 13. pozici je nově vid.

14. pozice je neobsazená (PDT tam má svůj způsob řešení agregátů).

15. pozice obsahuje nadále „variantu“, jen „8“ už neznamená zkratku, ale další možnou variantu po „6“ a „7“.