Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
syn2020:tagy [2020/10/30 19:11] – jankrivan | syn2020:tagy [2020/11/02 11:29] (aktuální) – odstraněno vaclavcvrcek | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
- | ====== Změny v morfologických značkách v SYN2020 ====== | ||
- | |||
- | Změny v tagsetu jsou dány zčásti snahou o převzetí koncepčních změn v PDT (bohužel jen zčásti, proces změn tagsetu není dosud ukončen, my jsme potřebovali mít stabilní tagset výrazně dříve), zčásti snahou o odstranění některých (podle našeho názoru) nevhodných značek.\\ | ||
- | |||
- | Tagy v SYN2020 budou mít nově 15 pozic. | ||
- | |||
- | ===== POS ===== | ||
- | |||
- | nové POS " | ||
- | |||
- | **F** pro cizí slova\\ | ||
- | \\ | ||
- | **B** pro zkratky\\ v naší verzi se u POS **B** určuje už jen SubPOS, převzatý od slova, k němuž zkratka patří,\\ například " | ||
- | \\ | ||
- | **S** pro " | ||
- | v pojetí PDT součásti jakéhokoli slova původně psaného se spojovníky a pak rozděleného, | ||
- | * " | ||
- | * " | ||
- | " | ||
- | |||
- | ===== SubPOS ===== | ||
- | V oblasti SubPOS jsme upravili klasifikaci číslovek (v návaznosti na ÚFAL, jejichž změny byly částečně zapracovány). | ||
- | |||
- | ==== Nový systém číslovek ==== | ||
- | |||
- | | **a** | číslovka základní neurčitá a tázací | " | ||
- | | **d** | číslovka druhová a souborová | " | ||
- | | **h** | číslovka druhová a souborová neurčitá a tázací | " | ||
- | | **j** | číslovka úhrnná | " | ||
- | | **k** | číslovka úhrnná neurčitá a tázací | " | ||
- | | **l** | číslovka základní 1-4 + nejeden | " | ||
- | | **n** | číslovky základní 5-99 + slitky | " | ||
- | | **o** | číslovka násobná neurčitá a tázací (adverbiální typ, včetně spřežek) | " | ||
- | | **r** | číslovka řadová | " | ||
- | | **u** | číslovka násobná (adjektivní typ) | " | ||
- | | **v** | číslovka násobná (adverbiální typ, včetně spřežek) | " | ||
- | | **w** | číslovka řadová neurčitá a tázací | " | ||
- | | **y** | číslovka dílová | " | ||
- | | **z** | číslovka základní se subst. skloňováním | " | ||
- | | **=** | číslo psané arabskými číslicemi | " | ||
- | | **}** | číslo psané římskými číslicemi | " | ||
- | | **3** | číslovka násobná neurčitá a tázací (adjektivní typ) | " | ||
- | |||
- | V původní podobě zůstává klasifikace **zájmen** (změny provedené na ÚFALu v létě 2020 nebylo technicky možné převzít). | ||
- | |||
- | V souvislosti se změnami v tokenizaci byl vytvořen nový SubPos **0** pro identifikaci nekoncové interpunkce, | ||
- | |||
- | ===== Ostatní ===== | ||
- | |||
- | Další pozice víceméně beze změny.\\ | ||
- | |||
- | Na 13. pozici je nově **vid**.\\ | ||
- | |||
- | 14. pozice je neobsazená (PDT tam má svůj způsob řešení agregátů). \\ | ||
- | |||
- | 15. pozice obsahuje nadále " | ||
- | |||
- | * [[syn2020: | ||