AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
syn2020:tagy [2020/10/30 19:11] jankrivansyn2020:tagy [2020/11/02 11:29] (aktuální) – odstraněno vaclavcvrcek
Řádek 1: Řádek 1:
-====== Změny v morfologických značkách v SYN2020 ====== 
- 
-Změny v tagsetu jsou dány zčásti snahou o převzetí koncepčních změn v PDT (bohužel jen zčásti, proces změn tagsetu není dosud ukončen, my jsme potřebovali mít stabilní tagset výrazně dříve), zčásti snahou o odstranění některých (podle našeho názoru) nevhodných značek.\\ 
- 
-Tagy v SYN2020 budou mít nově 15 pozic. 
- 
-===== POS ===== 
- 
-nové POS "F", "S", "B":\\ 
- 
-**F** pro cizí slova\\ 
-\\ 
-**B** pro zkratky\\ v naší verzi se u POS **B** určuje už jen SubPOS, převzatý od slova, k němuž zkratka patří,\\ například "kol" jako zkratka může mít značku BN------------- (třeba kolega) nebo BR------------- (kolem, např. "kol. r. 1650")\\ 
-\\ 
-**S** pro "prefixoidy" a "sufixoidy"\\ 
-v pojetí PDT součásti jakéhokoli slova původně psaného se spojovníky a pak rozděleného, v našem pojetí jsou: 
-   * "prefixoidy" součásti obvykle spojených slov buď ad hoc odpojené (//troj//(S) //až pětipodlažní//), nebo záměrně odtržené tokenizací //makro//(S) //- úroveň//;\\ 
-   * "sufixoidy" by měly být (zatím tam mohou být tu a tam chyby dané převzetím slovníku) jen případy typu //učitel / ka//(S), //podepsal / a//(S).\\ 
-"prefixoidy" mají SubPOS "2" a jinak nic, "sufixoidy" přebírají vše ostatní od slova, které zastupují. 
- 
-===== SubPOS ===== 
-V oblasti SubPOS jsme upravili klasifikaci číslovek (v návaznosti na ÚFAL, jejichž změny byly částečně zapracovány).  
- 
-==== Nový systém číslovek ==== 
- 
-| **a** | číslovka základní neurčitá a tázací | "mnoho", "tolik", "několik", "kdovíkolik", "kolik", **změna! - v syn v8 kolik pod "?"** |  
-| **d** | číslovka druhová a souborová | "dvojí", "obojí", "čtverý", "desaterý"  včetně tvarů "dvoje", "oboje", "čtvery", "desatery"; "obé"; "jedny" **změna! - jmenné tvary v synv 8 pod zvláštním lemmatem a typem Ck, tvar jedny byl pod zvláštní kategorií** |  
-| **h** | číslovka druhová a souborová neurčitá a tázací | "několikerý", "tolikerý", "kolikerý" včetně tvarů "několikery", "tolikery", "kolikery"; "nejedny" **změna! - neurčité/tázací v synv 8 nevyděleny zvlášť** |  
-| **j** | číslovka úhrnná | "čtvero", "patero", "devatero", "dvé", "tré" **změna! - v syn v8 dvé, tré pod "n"** |  
-| **k** | číslovka úhrnná neurčitá a tázací | "několikero", "tolikero", "kolikero" **změna! - neurčité/tázací v synv 8 nevyděleny zvlášť** |  
-| **l** | číslovka základní 1-4 + nejeden | "jeden", "dva", "oba", "tři", "čtyři", "nejeden" **změna! - v syn v8 nejeden pod "Cw"** |  
-| **n** | číslovky základní 5-99 + slitky | "pět", "šest", "dvacet", "pětaosmdesát"...; "dvacetpět", "pětset", "stotřicet", "pětapůl"… |  
-| **o** | číslovka násobná neurčitá a tázací (adverbiální typ, včetně spřežek) | "mnohokrát", "několikanásobně", "xkrát", "bůhvíkolikrát", "nejednou", "naněkolikrát","pokolikáté", "naponěkolikáté" **změna! - v syn v8 kolikrát pod "u", nově z adverbií typy -násobně, -násob, k typu "po-é" přidány další spřežky** |  
-| **r** | číslovka řadová | "první", "druhý", "třetí", "pátý" 
-| **u** | číslovka násobná (adjektivní typ) | "dvojitý", "trojitý"; "dvojnásobný", "osminásobný"; "desateronásobný"...**změna! - nově z adjektiv** |  
-| **v** | číslovka násobná (adverbiální typ, včetně spřežek) | "pětkrát", "osminásobně", "trojnásob", "jednou", "raz", "dvojitě", "čtvermo", "nadvakrát", "poprvé", "začtvrté", "napodesáté" **změna! - nově z adverbií typy -násobně, -násob, k typu "po-é" přidány další spřežky** |  
-| **w** | číslovka řadová neurčitá a tázací | "tolikátý", "několikátý", "kolikátý" **změna! - v syn v8 kolikátý pod "z"** |  
-| **y** | číslovka dílová | "půl" , "polovic", "čtvrt"; "polovina", "třetina", "osmina"... **změna! - přidány polovina, půl, polovic, čtvrt ** |  
-| **z** | číslovka základní se subst. skloňováním | "sto", "tisíc", "milion", "triliarda"...; "nula", "raz" **změna! - v syn v8 základní pod "POS=N"** |  
-| **=** | číslo psané arabskými číslicemi | "12", "42", "1,5" 
-| **}** | číslo psané římskými číslicemi | "VII", "XXVI" 
-| **3** | číslovka násobná neurčitá a tázací (adjektivní typ) | "mnohonásobný", "xnásobný", "kolikanásobný"... **změna! - nově z adjektiv** |  
- 
-V původní podobě zůstává klasifikace **zájmen** (změny provedené na ÚFALu v létě 2020 nebylo technicky možné převzít).  
- 
-V souvislosti se změnami v tokenizaci byl vytvořen nový SubPos **0** pro identifikaci nekoncové interpunkce, který se týká tečky, vykřičníku, spojovníku, dvojtečky (tj. SubPos 0 dostává např. tečka za zkratkou nebo pořadovou číslicí uprostřed věty; spojovník původně přilepený ke slovu; vykřičník v názvu firmy; dvojtečka v časovém údaji). 
- 
-===== Ostatní ===== 
- 
-Další pozice víceméně beze změny.\\ 
- 
-Na 13. pozici je nově **vid**.\\ 
- 
-14. pozice je neobsazená (PDT tam má svůj způsob řešení agregátů). \\ 
- 
-15. pozice obsahuje nadále "variantu", jen "8" už neznamená zkratku, ale další možnou variantu po "6" a "7". 
- 
-  * [[syn2020:zmeny|zpět na úvod]]