Obsah
Korpus SYN2020: Morfologické značkování
Morfologická značka (tag) má 15 pozic (místo dřívějších 16 pozic). Značení slovesného vidu se přesouvá ze zrušené 16. pozice na původně neobsazenou 13. pozici, jinak je struktura tagu totožná s dosavadními korpusy řady SYN. Následuje podrobný přehled změn značek na jednotlivých pozicích v tagu.
1. pozice Slovní druh
Cizí slovo (F)
Slovní druh F je přiřazen rozpoznaným cizím slovům a slovním tvarům, které se v češtině neskloňují/nečasují a které se obvykle vyskytují jen ve víceslovných cizojazyčných citacích nebo v rámci názvů.
U cizích slov se značkují pouze první dvě pozice. Na 1. pozici se uvádí hodnota F, na 2. pozici je vždy hodnota %.
Jako cizí slova se označují jen vybraná cizí slova a slovní spojení, jež se často vyskytují v českých textech; mnoho cizích slov zůstává nerozpoznaných (tag X@-------------), v některých případech nebyla dosud odhalena (či správně vyřešena) homonymie cizích slov a tvarů českých slov.
Pojmenování cizího původu běžně fungující v českých větách (zvl. slova, která se v češtině skloňují) považujeme za slova česká, nesklonná slova, která samostatně v českých textech fungovat nemohou, označujeme jako cizí; ve spojení přes New York, tak bude mít token New slovní druh F (cizí slovo) a token York slovní druh N (substantivum).
Zkratka (B)
Nový slovní druh B nahrazuje dosavadní značení zkratky na 15. pozici (pomocí hodnoty 8). Slovní druh je přiřazen jednoslovným zkratkám, akronymům a zkratkovým slovům, která nemění svůj tvar, např. prof, tzv, ODS, DAMU.
U zkratek se značkují pouze první dvě pozice. Na 1. pozici je hodnota B, na 2. pozici se uvádí detailní určení slovního druhu, který zkratka zastupuje, tedy např. N pro standardní substantiva, R pro předložky, g pro stupňovaná adverbia. Např. kol může mít značku BN------------- (když zastupuje substantivum, např. slovo kolega), nebo BR------------- (když zastupuje předložku kolem).
Poznámka: běžně skloňovaná zkratková slova (např. ČEDOK, mašíbl, smska) mají slovní druh podle své funkce ve větě.
Segment (S)
Nový slovní druh S zahrnuje dva typy slovních částí: prefixoidy a sufixoidy.
Jako prefixoidy se značkují první části složených slov, které se obvykle nevyskytují samostatně, ale v daném textu jsou odděleny (nejčastěji spojovníkem a mezerou) od následujícího slova, např. troj - až pětipodlažní, původně psáno jako troj- až pětipodlažní). Značku S dostávají také vymezené slovní části, které byly od kompozita odtrženy procesem tokenizace (např. makro - úroveň, původně psáno jako makro-úroveň; viz popis procesu tokenizace). U prefixoidů se značkují pouze první dvě pozice. Na 2. pozici se vždy uvádí hodnota 2.
Jako sufixoidy se značkují pouze striktně vymezené koncové části substantiv a adjektiv po lomítku (a případně po spojovníku), jimiž pisatel značí morfologickou alternativu: např. učitel / ka, pověřený / - á. U slovesných příčestí (např. viděl / a, unaven / -a) budou kvůli chybě ve zpracování sufixoidy anotovány až od korpusu SYNv10. V tagu sufixoidy přebírají na dalších pozicích všechny značky od morfologické třídy, kterou zastupují, např. ka z výše uvedeného příkladu bude mít tag SNFS1-----A----.
Slovnědruhové přehodnocení některých skupin
Číslovky
Značení číslovek (C) bylo rozšířeno na úkor jiných slovních druhů. Jako číslovky jsou oproti dřívějším korpusům řady SYN značena:
- původní substantiva: základní číslovky substantivně skloňované (sto, tisíc, milion, miliarda atd.); několik číslovek dílových (polovina, půl, polovic, čtvrt); všechny úhrnné číslovky (čtvero, patero, desatero atd.; dvé, tré)
- původní adjektiva: násobné číslovky adjektivně skloňované (např. dvojitý, čtyřnásobný, mnohonásobný)
- původní adverbia: násobné číslovky adverbiální (osminásobně, dvojnásob, několikanásobně), některé adverbiální spřežky (nadvakrát, zatřetí, naponěkolikáté)
Dochází tak k většímu souladu značkování číslovek v korpusu s tradičním dělením číslovek ve slovnících a gramatikách. K podrobnému dělení číslovek viz další oddíl.
Predikativa
Bylo rozšířeno značení tvarů predikativ jako adverbií (D), a to na úkor dřívějšího značení těchto tvarů jako substantiv (N) (černo, čerstvo), nebo jako jmenných tvarů adjektiv (A, detailní určení slovního druhu C) (ošklivo, vhodno, možno). Řadě predikativ byly také přidány stupňované tvary, aby je bylo možno přiřadit k různým lemmatům (tvar čistěji v kontextu pokoj vypadá čistěji patří k lemmatu čistě), v kontextu je tu čistěji k lemmatu čisto).
Zvláštní jmenné tvary adjektiv
Jako jmenné tvary adjektiv (A, detailní určení slovního druhu C) se nově značkují ustrnulé adjektivní tvary v rámci předložkové konstrukce, která celá funguje jako adverbiále (po anglicku, do růžova, do mrtva). Tyto tvary dostávají značku AC se značením pádu (např. anglicku ACNS6—–A—-) a jejich lemma se rovná tvaru (tj. např. lemma anglicku). Seznam ustrnulých jmenných tvarů je uveden ve zvláštní sekci. Dříve byly tyto tvary nejednotně značeny buď jako tvar teoretického substantiva (N) (lemma anglicko), nebo jako adverbium (D) (lemma růžova), nebo jako jmenný tvar adjektiva (A) (lemma mrtvý).
Poznámky ke značkování:
- tvary, které mohou fungovat jako predikativum (D) (je sladko žít) i jako jmenný tvar (A) (na sladko), se ve značkování rozlišují;
- tvary, které standardně fungují jen po předložce jako součást adverbiale (na stojato, na kolmo), jsou vždy značeny jako jmenné tvary (A);
- tvary, které fungují primárně jako standardní adverbium (dlouho), se naopak vždy označují jako D (tedy i ve spojení na dlouho).
2. pozice Detailní určení slovního druhu
Souhrnný přehled značek na 1. a 2. pozici najdete na zvláštní stránce.
Původní funkce některých značek byly kvůli změnám ve slovnědruhovém značení zrušeny:
- !, ., ;, ~, 3 (dříve různé typy zkratek)
- ? (dříve typ číslovky)
- 0, Y (dříve různé typy dnešních agregátů)
- 2 (dříve slova před pomlčkou)
Pro detailní určení nových slovních druhů byly zavedeny výše uvedené značky:
- % (cizí slova)
- 2 (prefixoidy)
V souvislosti se změnami v tokenizaci byla vytvořena nová značka 0 u slovního druhu Z pro identifikaci nekoncové interpunkce, která se týká tečky, dvojtečky, vykřičníku a spojovníku. Hodnotu 0 dostávají tečka za zkratkou (např .), iniciálou (T . G . M.) nebo pořadovou číslicí (22 .) uprostřed věty, dvojtečky mezi číslicemi (16 : 30), vykřičníky, které jsou součástí názvu (Aha !), a všechny spojovníky, které byly ve zdrojovém textu psány dohromady (Rakousko - Uhersko, bude - li), viz též stránka tokenizace.
Komplexně bylo upraveno členění číslovek, u nichž byla funkce většiny značek pro detailní určení slovního druhu změněna (k slovnědruhovému značení číslovek viz též předchozí oddíl):
Nové členění číslovek
Číslovky se nově člení podle tří os: a) základní sémantiky, b) určitosti/neurčitosti, c) typu flexe.
Tento systém drobně porušují pouze kategorie l (kde je kromě určitých číslovek zahrnuta i číslovka neurčitá nejeden), kategorie z (kde jsou zahrnuty i číslovky sto a tisíc s dvojím způsobem skloňování) a kategorie y (kde se číslovky půl, čtvrt a polovic ve skloňování částečně odlišují od ostatních číslovek dílových).
značka | nová funkce | příklady | původní funkce značky |
---|---|---|---|
l | číslovka základní 1–4 + nejeden | „jeden“, „dva“, „oba“, „tři“, „čtyři“, „nejeden“ | číslovky základní 1–4, „půl“ …; „sto“ a „tisíc“ v nesubstantivním skloňování |
n | číslovky základní 5–99 + jejich slitky i s dalšími číslovkami | „pět“, „šest“, „dvacet“, „pětaosmdesát“…; „dvacetpět“, „pětset“, „stotřicet“, „pětapůl“ … | číslovky základní >= 5 |
z | číslovka základní se substantivním skloňováním | „sto“, „tisíc“, „milion“, „triliarda“…; „nula“, „raz“ | číslovka tázací řadová „kolikátý“ |
a | číslovka základní neurčitá a tázací | „mnoho“, „tolik“, „několik“, „kdovíkolik“, „kolik“ | číslovka neurčitá („mnoho“, „málo“, „tolik“, „několik“, „kdovíkolik“ …) |
y | číslovka dílová | „půl“ , „polovic“, „čtvrt“; „polovina“, „třetina“, „osmina“ … | zlomky zakončené na „-ina“ (značkováno jako slovní druh: číslovka – 'C') |
r | číslovka řadová | „první“, „druhý“, „třetí“, „pátý“ | číslovky řadové |
w | číslovka řadová neurčitá a tázací | „tolikátý“, „několikátý“, „kolikátý“ | číslovky neurčité s adjektivním skloňováním („nejeden“, „tolikátý“, „několikátý“ …) |
d | číslovka druhová a souborová | „dvojí“, „obojí“, „čtverý“, „desaterý“ včetně tvarů „dvoje“, „oboje“, „čtvery“, „desatery“; „obé“; „jedny“ | číslovka druhová, adjektivní skloňování („jedny“, „dvojí“, „desaterý“ …) |
h | číslovka druhová a souborová neurčitá a tázací | „několikerý“, „tolikerý“, „kolikerý“ včetně tvarů „několikery“, „tolikery“, „kolikery“; „nejedny“ | číslovky druhové „jedny“ a „nejedny“ |
j | číslovka úhrnná | „čtvero“, „patero“, „devatero“, „dvé“, „tré“ | číslovka druhová >= 4, substantivní postavení („čtvero“, „desatero“ …) |
k | číslovka úhrnná neurčitá a tázací | „několikero“, „tolikero“, „kolikero“ | číslovka druhová >= 4, adjektivní postavení, krátký tvar („čtvery“ …) |
u | číslovka násobná (adjektivní typ) | „dvojitý“, „trojitý“; „dvojnásobný“, „osminásobný“; „desateronásobný“… | číslovka tázací násobná „kolikrát“ |
3 | číslovka násobná neurčitá a tázací (adjektivní typ) | „mnohonásobný“, „xnásobný“, „kolikanásobný“… | zkratka jako číslovka |
v | číslovka násobná (adverbiální typ, včetně spřežek) | „pětkrát“, „osminásobně“, „trojnásob“, „jednou“, „raz“, „dvojitě“, „čtvermo“, „nadvakrát“, „poprvé“, „začtvrté“, „napodesáté“ | číslovky násobné („-krát“: „pětkrát“, „poprvé“ …) |
o | číslovka násobná neurčitá a tázací (adverbiální typ, včetně spřežek) | „mnohokrát“, „několikanásobně“, „xkrát“, „bůhvíkolikrát“, „nejednou“, „naněkolikrát“,„pokolikáté“, „naponěkolikáté“ | číslovky násobné neurčité („-krát“: „mnohokrát“, „tolikrát“ …) |
= | číslo psané arabskými číslicemi | „12“, „42“, „1,5“ | číslo psané číslicemi (značkováno jako slovní druh: číslovka – 'C') |
} | číslo psané římskými číslicemi | „VII“, „XXVI“ | číslovka psaná římskými číslicemi |
Byla zrušena značka ?, která vymezovala jedinou číslovku kolik.
Poznámka: U druhových a souborových číslovek se nově nerozlišuje, zda jde o číslovku s adjektivním dlouhým skloňování (původní lemma čtverý), nebo o číslovku se jmenným adjektivním skloňováním (původní lemma čtvery). Nově jsou všechny tyto číslovky lemmatizovány jen dlouhým tvarem na -ý (čtverý).
13. pozice Vid
Dříve nevyužívaná 13. pozice se nyní používá pro slovesný vid, a proto již tag nemá 16. pozici. Možné hodnoty jsou I, P a B. Na rozdíl od předchozích korpusů je značka B vyhrazena pro skutečná obouvidá slovesa (např. soustředit se, analyzovat, apod.), zatímco slovesa vidově homonymní (např. zahýbat, nalétat apod.) jsou desambiguována.
15. pozice Varianta
Hodnota číslo 8 (dosud vyhrazená zkratkám) se nově využívá jako značka pro další hovorovou variantu následující po číslech 6 a 7.