Následující verze | Předchozí verzePoslední revizeObě strany příští revize |
syn2020:tagy [2020/10/28 11:27] – vytvořeno tomasjelinek | syn2020:tagy [2020/10/31 14:54] – [Slovnědruhové přehodnocení některých skupin] jankrivan |
---|
Tato stránka popíše změny v tagsetu v SYN2020 oproti SYN2015 | ====== Změny v morfologických značkách v SYN2020 ====== |
| |
| Změny v tagsetu jsou dány zčásti snahou o převzetí koncepčních změn v PDT (bohužel jen zčásti, proces změn tagsetu není dosud ukončen, my jsme potřebovali mít stabilní tagset výrazně dříve), zčásti snahou o odstranění některých (podle našeho názoru) nevhodných značek.\\ |
| |
| Tagy v SYN2020 budou mít nově 15 pozic. |
| |
| ===== POS ===== |
| |
| nové POS "F", "S", "B":\\ |
| |
| **F** pro cizí slova\\ |
| \\ |
| **B** pro zkratky\\ v naší verzi se u POS **B** určuje už jen SubPOS, převzatý od slova, k němuž zkratka patří,\\ například "kol" jako zkratka může mít značku BN------------- (třeba kolega) nebo BR------------- (kolem, např. "kol. r. 1650")\\ |
| \\ |
| **S** pro "prefixoidy" a "sufixoidy"\\ |
| v pojetí PDT součásti jakéhokoli slova původně psaného se spojovníky a pak rozděleného, v našem pojetí jsou: |
| * "prefixoidy" součásti obvykle spojených slov buď ad hoc odpojené (//troj//(S) //až pětipodlažní//), nebo záměrně odtržené tokenizací //makro//(S) //- úroveň//;\\ |
| * "sufixoidy" by měly být (zatím tam mohou být tu a tam chyby dané převzetím slovníku) jen případy typu //učitel / ka//(S), //podepsal / a//(S).\\ |
| "prefixoidy" mají SubPOS "2" a jinak nic, "sufixoidy" přebírají vše ostatní od slova, které zastupují. |
| |
| ==== Slovnědruhové přehodnocení některých skupin ==== |
| |
| V souvislosti se změnami na ÚFALu jsme přehodnotili značení u následujících skupin **číslovek** (příklady viz oddíl SubPOS): |
| * N > C: základní číslovky substantivně skloňované; několik číslovek dílových; úhrnné číslovky mají nově už jen C (nedesambiguuje se dřívější C, N) |
| * A > C: násobné číslovky adjektivně skloňované |
| * D > C: násobné číslovky adverbiální; některé adverbiální spřežky |
| |
| Bylo rozšířeno značení **predikativ** jako D, a to na úkor dřívějšího značení těchto slov jako N (//černo//, //čerstvo//), nebo jako AC (//ošklivo//, //vhodno//, //možno//). Řadě predikativ byly také přidány stupňované tvary, aby bylo možno přiřadit k různým lemmatům doklady jako //vypadá čistěji//, //je tu čistěji//. |
| |
| S predikativy souvisí nové **značení zvláštního typu AC**. Ustrnulé adjektivní tvary v rámci předložkové konstrukce, která funguje jako adverbiále (//po anglicku//, //do růžova//, //do mrtva//), dostávají značku AC se značením pádu (např. //anglicku// ACNS6-----A----) a jejich lemma se rovná tvaru. Tato slova byla dříve nejednotně značena buď jako tvar teoretického substantiva (//anglicko//), nebo jako adverbium (//růžova//), nebo jako tvar AC (//mrtvý//). Tvary, které mohou fungovat jako predikativum (//je sladko žít//) i jako AC (//na sladko//), se desambiguují. Naopak slova, která prakticky fungují jen po předložce jako součást adverbiale (//na stojato//, //na kolmo//), jsou vždy značena AC. Oproti tomu tvary, které fungují primárně jako standardní adverbium (//dlouho//), jsou vzhledem k neproveditelné desambiguaci vždy D. |
| |
| ===== SubPOS ===== |
| V oblasti SubPOS jsme upravili klasifikaci číslovek (v návaznosti na ÚFAL i s ohledem na NovaMorf). |
| |
| ==== Nový systém číslovek ==== |
| |
| | **a** | číslovka základní neurčitá a tázací | "mnoho", "tolik", "několik", "kdovíkolik", "kolik", **změna! - v syn v8 kolik pod "?"** | |
| | **d** | číslovka druhová a souborová | "dvojí", "obojí", "čtverý", "desaterý" včetně tvarů "dvoje", "oboje", "čtvery", "desatery"; "obé"; "jedny" **změna! - jmenné tvary v synv 8 pod zvláštním lemmatem a typem Ck, tvar jedny byl pod zvláštní kategorií** | |
| | **h** | číslovka druhová a souborová neurčitá a tázací | "několikerý", "tolikerý", "kolikerý" včetně tvarů "několikery", "tolikery", "kolikery"; "nejedny" **změna! - neurčité/tázací v synv 8 nevyděleny zvlášť** | |
| | **j** | číslovka úhrnná | "čtvero", "patero", "devatero", "dvé", "tré" **změna! - v syn v8 dvé, tré pod "n"** | |
| | **k** | číslovka úhrnná neurčitá a tázací | "několikero", "tolikero", "kolikero" **změna! - neurčité/tázací v synv 8 nevyděleny zvlášť** | |
| | **l** | číslovka základní 1-4 + nejeden | "jeden", "dva", "oba", "tři", "čtyři", "nejeden" **změna! - v syn v8 nejeden pod "Cw"** | |
| | **n** | číslovky základní 5-99 + slitky | "pět", "šest", "dvacet", "pětaosmdesát"...; "dvacetpět", "pětset", "stotřicet", "pětapůl"… | |
| | **o** | číslovka násobná neurčitá a tázací (adverbiální typ, včetně spřežek) | "mnohokrát", "několikanásobně", "xkrát", "bůhvíkolikrát", "nejednou", "naněkolikrát","pokolikáté", "naponěkolikáté" **změna! - v syn v8 kolikrát pod "u", nově z adverbií typy -násobně, -násob, k typu "po-é" přidány další spřežky** | |
| | **r** | číslovka řadová | "první", "druhý", "třetí", "pátý" | |
| | **u** | číslovka násobná (adjektivní typ) | "dvojitý", "trojitý"; "dvojnásobný", "osminásobný"; "desateronásobný"...**změna! - nově z adjektiv** | |
| | **v** | číslovka násobná (adverbiální typ, včetně spřežek) | "pětkrát", "osminásobně", "trojnásob", "jednou", "raz", "dvojitě", "čtvermo", "nadvakrát", "poprvé", "začtvrté", "napodesáté" **změna! - nově z adverbií typy -násobně, -násob, k typu "po-é" přidány další spřežky** | |
| | **w** | číslovka řadová neurčitá a tázací | "tolikátý", "několikátý", "kolikátý" **změna! - v syn v8 kolikátý pod "z"** | |
| | **y** | číslovka dílová | "půl" , "polovic", "čtvrt"; "polovina", "třetina", "osmina"... **změna! - přidány polovina, půl, polovic, čtvrt ** | |
| | **z** | číslovka základní se subst. skloňováním | "sto", "tisíc", "milion", "triliarda"...; "nula", "raz" **změna! - v syn v8 základní pod "POS=N"** | |
| | **=** | číslo psané arabskými číslicemi | "12", "42", "1,5" | |
| | **}** | číslo psané římskými číslicemi | "VII", "XXVI" | |
| | **3** | číslovka násobná neurčitá a tázací (adjektivní typ) | "mnohonásobný", "xnásobný", "kolikanásobný"... **změna! - nově z adjektiv** | |
| |
| V původní podobě zůstává klasifikace **zájmen** (změny provedené na ÚFALu v létě 2020 nebylo technicky možné převzít). |
| |
| V souvislosti se změnami v tokenizaci byl vytvořen nový SubPos **0** pro identifikaci nekoncové interpunkce, který se týká tečky, vykřičníku, spojovníku, dvojtečky (tj. SubPos 0 dostává např. tečka za zkratkou nebo pořadovou číslicí uprostřed věty; spojovník původně přilepený ke slovu; vykřičník v názvu firmy; dvojtečka v časovém údaji). |
| |
| ===== Ostatní ===== |
| |
| Další pozice víceméně beze změny.\\ |
| |
| Na 13. pozici je nově **vid**.\\ |
| |
| 14. pozice je neobsazená (PDT tam má svůj způsob řešení agregátů). \\ |
| |
| 15. pozice obsahuje nadále "variantu", jen "8" už neznamená zkratku, ale další možnou variantu po "6" a "7". |
| |
| * [[syn2020:zmeny|zpět na úvod]] |