====== UD anotace staročeského a středněčeského etalonu ====== Vychází se jednak z anotačních pravidel UD (a to jak obecných, tak těch specifických pro slovanské jazyky a češtinu), jednak ze zkušeností z pilotního projektu v roce 2022 (anotace Matoušova evangelia z Bible drážďanské a olomoucké). K tomu externí odkazy: * [[https://universaldependencies.org/cs/pos/|Obecné informace k anotaci slovních druhů (POS) v českých UD]] * [[https://universaldependencies.org/cs/feat/|Obecné informace k anotování morfologických rysů (features) v českých UD]] * [[https://drive.google.com/drive/folders/1ZyJIrzt9VrpCbUHwyrVTvfNHBqnyLvsQ|Google disk projektu Matouš]] ===== Odkazy na stránky s evidencí nejasností/problémů ===== * [[hickok:problemy_tokenizace|problémy s tokenizací]] * [[hickok:problemy_morfologie|problémy s morfologickou anotací]] * [[hickok:problemy_lemmatizace|problémy s lemmatizací]] ===== Anotační nástroje a formát souboru ===== [[hickok:anotace_v_tabulkovem_procesoru|Návod, jak anotovat v tabulkovém procesoru]] [[hickok:poskozene_texty|Pravidla pro anotaci poškozených textů]] ===== Slovní druhy ===== ==== Substantiva ==== Rozlišují se **obecná** (''NOUN'') a **vlastní** (''PROPN''). Slovo, které je hlavou nebo prvním slovem víceslovného jména, není automaticky ''PROPN'' (ale může jím být i ''PROPN''). Např. ve výrazu //Univerzita Karlova// má mít slovo //Univerzita// značku ''NOUN''. Zahrnují i slovesná podstatná jména; ta se od běžných odliší rysem ''VerbForm=Vnoun''. **Substantivizovaná adjektiva** (např. //kajúcí//) jsou anotována jako **adjektiva** (POS=ADJ). Výjimkou jsou taková substantiva s adjektivní formou, která už v současné češtině nemohou vůbec fungovat jako adjektiva, např. //průvodčí//, pouze ta se značkují jako substantiva (POS=NOUN). ==== Adjektiva ==== Zahrnují dlouhé i krátké tvary. U krátkých (jmenných) forem adjektiv anotovat stupeň i pád, jako lemma vždy uvádět dlouhou formu. Za adjektiva se pokládají také všechny (dlouhé i krátké) tvary **trpných** (tj. N-ových/T-ových) **příčestí**. (Naproti tomu L-ová příčestí zůstávají zahrnuta pod slovesy.) Příčestí se od běžných adjektiv odliší pomocí rysu ''VerbForm=Part'' a případně dalších slovesných rysů (''Aspect'', ''Voice'', ''Tense''). U příčestí anotovat pád, rod i životnost. Značku ''ADJ'' mají také **řadové číslovky** typu //první, druhý, třetí//, od běžných adjektiv se odliší pomocí rysu ''NumType=Ord''. ==== Zájmena ==== V UD se rozlišují pronouns ''PRON'' a determiners ''DET''. Ve slovanských jazycích se sice kategorie determinátoru tradičně nepoužívá, ale v UD slovanských jazyků se tato značka využívá (zneužívá?) k rozlišení zájmen, která se //mohou// chovat podobně jako adjektiva, od těch ostatních. Schopností chovat se jako adjektiva se myslí rozvití nějakého substantiva a morfologické vyjádření shody s ním. Ve výsledku jde přibližně o zájmena, která rozlišují rod, ale neplatí to beze zbytku – např. osobní zájmena //on, ona, ono// jsou ''PRON'', i když rozlišují rod. Značku ''DET'' dostanou bez ohledu na to, zda v dané větě opravdu rozvíjejí nějaké substantivum; může se proto stát, že ''DET'' se objeví v pozici podmětu nebo předmětu (např. u zájmen //to, který, každý//). U **nesklonných posesivních zájmen** //jeho//, //jejich// a //jich// se pád, číslo a rod+životnost anotují, a to podle shody/smyslu. Totéž už zájmena //jejie/její//, přičemž je lhostejné, jestli je nesklonné, nebo není. **Zájmena typu //kdo, co, který//** mohou být podle kontextu Int, Rel nebo Ind. Ind jsou tehdy, pokud je můžeme nahradit výrazy typu //někdo, něco, některý//. Mezi Int a Rel rozlišujeme tak, že za Int se to pokládá jen v přímých otázkách (v hlavní větě, s otazníkem), naopak v souvětích vždy Rel (např. i nevím/ptám se, kdo přišel. **Forma //ješto//** – pokud je to ve funkci vztažného zájmena (PRON), lemmatizujeme jako //jenžto//. Kromě toho se může jednat i o vztažné příslovce (ADV) nebo o podřadicí spojku (SCONJ), v obou těchto případech lemmatizujeme jako //ježto// (protože je to neohebné). U zájmen s lemmatem //jenž// a //jenžto// anotujeme pád, číslo i rod+životnost bez ohledu na sklonnost/nesklonnost, pouze v případě přítomnosti resumptivního zájmena se tyto rysy neanotují (viz též tabulku dole). * Důvod tohoto postupu je ten, že v případě přítomnosti resumptivního zájmena jsou pád, číslo a rod vyjádřeny právě tím resumptivním zájmenem, zatímco samotné //ješto// (stejně jako //co//, případně i //jenž//, které se tak taky někdy ve staré češtině chovalo) tyhle kategorie formálně nijak nevyjadřuje, tj. má ve všech případech stejnou formu. Diskutovala se v zásadě tři možná řešení, přičemž dvě z nich nám přišla nevyhovující. Jedno z nich bylo, že se pád bude anotovat podle syntaktického kontextu, což by znamenalo, že např. ve struktuře "setkal se s člověkem, co/jenž/ješto jsem mu to dal" bude u co/jenž/ješto anotován dativ, což se nám nelíbilo, protože to znamená tvrdit, že např. //co// je dativní forma, tj. tohle řešení není vyhovující formálně. Druhé řešení bylo, že se v těchto případech u toho co/jenž/ješto bude anotovat nominativ. To odpovídá formálně, ale zase ne syntakticky, protože v té příkladové struktuře žádný prostor pro nominativ není. Proto vyšlo jako nejlepší to třetí řešení, tedy tyto kategorie tam vůbec neanotovat. Nejenže tam nic s ničím pak nekoliduje, ale zároveň to odpovídá i té jazykové realitě, že prostě jsou tyto kategorie vyjadřovány jinde (tj. na tom resumptivním zájmenu). **Zájmeno //sám/samý//**: vždy PronType=Emp a vždy lemma //sám//; krátká forma //sám// je odlišena tagem "Short" ==== Číslovky ==== * základní (//jeden, dva, tři//) POS=NUM, NumType=Card * řadové * (//první, druhý, třetí//) POS=ADJ, NumType=Ord * (//poprvé, podruhé, potřetí//) POS=ADV, NumType=Ord (stejně i //prvé//, //druhé// v adverbiální funkci) * násobné * typu //-krát// POS=ADV, NumType=Mult * //dvojí, trojí, čtverý, obojí// POS=ADJ, NumType=Mult * druhové * //jedny, dvoje, troje, čtvery, oboje// POS=NUM, NumType=Sets * //čtvero, patero, desatero, dvé, tré, obé// POS=NUM, NumType=Card * NumType=Frac je definováno pro zlomky typu //-ina// (jmenovatel), ale v současných UD se používá nekonzistentně ([[https://github.com/UniversalDependencies/docs/issues/884#issuecomment-1193721487|viz diskusi zde]]) * Výrazy jako //jednička, dvojka, trojka; dvojice, trojice// se považují za substantiva (POS=NOUN, žádný NumType), totéž platí pro výrazy typu //pět// (s významem pětice) v substantivní funkci (typ //neb tu pět k němu provrhu//). * Zájmenné číslovky (např. neurčité //několik, mnoho, málo, hodně// (komparativ //víc//); //několikátý; několikery; několikerý// ukazovací //tolik; tolikátý; tolikerý// tázací/vztažné //kolik; kolikátý; kolikerý// jsou POS=DET, mají vyplněný PronType i NumType. * Zájmenné příslovečné číslovky //(několikrát, poněkolikáté, tolikrát, potolikáté, kolikrát, pokolikáté)// jsou POS=ADV, mají vyplněný PronType i NumType. * Výraz //nejeden// má lemma "nejeden", POS=DET a polarita se neanotuje. ==== Slovesa ==== Slovesa **//být, bývat, bývávat//**: POS=AUX (vždy!). Kondicionálové //by, bych, bys, bychom, byste// se považuje za tvar lemmatu //být//. Všechna ostatní slovesa (včetně modálních) jsou POS=VERB (s výjimkou některých druhů příčestí, které se anotují a lemmatizují jako ADJ). **Trpná participia** (N-ová a T-ová) (tj. trpná) příčestí jsou vždy POS=ADJ (ale VerbForm=Part) bez ohledu na to, zda jde o krátký nebo dlouhý tvar. Anotuje se u nich pád. **L-ová participia** jsou POS=VERB (a VerbForm=Part) **NT-ová participia** ("přítomné přechodníky"): POS=VERB, VerbForm=Conv, Tense=Pres; pád se neanotuje; číslo se anotuje podle významu (duál s přihlédnutím ke kontextu, tj. podle přítomnosti jasně duálového tvaru, viz níže); rod se anotuje pouze v singuláru, a to podle významu, nikoli podle formy **S-ová participia** ("minulé přechodníky"): POS=VERB, VerbForm=Conv, Tense=Past; pád se neanotuje; číslo se anotuje podle významu (duál s přihlédnutím ke kontextu, tj. podle přítomnosti jasně duálového tvaru, viz níže); rod se anotuje pouze v singuláru, a to podle významu, nikoli podle formy **Imperfektum**: VerbForm=Fin, Tense=Imp **Aorist**: VerbForm=Fin, Tense=Past, Variant=Long (sigmatický) / Short (asigmatický) (u sloves majících oba typy aoristu se tvary 2. a 3. sg. typu //nese// pokládají pouze za asigmatický) **Prézentní tvar dokonavých sloves**: Tense=Pres **Verbální substantiva** (zakočená //-nie/-tie//) jsou POS=NOUN a VerbForm=Vnoun ** Verbální adjektiva** (typu //dělající, udělavší//) jsou POS=ADJ a VerbForm=Part ==== Předložky ==== **Předložka //v// realizovaná jako //u//**: Lemma="u"; PrepType=Voc; pád buď Acc, nebo Loc dle kontextu ==== Částice ==== Cílem je používat je v UD spíše méně. Slova vyjadřující postoj autora ke sdělení věty (např. //bohužel//) jsou anotována jako příslovce (POS=ADV). Částice jsou tak trochu negativně definovaná kategorie: Co se nedá dát rozumně jinam, skončí tady. Současně ale pravidla UD předpokládají, že pro každý jazyk bude v dokumentaci vyjmenováno, která slova dostávají POS=PART a proč. * Morfém negace //ne//, pokud je psaný zvlášť (např. //ne dohromady//), je POS=PART. Ale! Ve funkci odpovědi na otázku mají být //ano// i //ne// označkované jako POS=INTJ! V současných českých UD je ovšem toto pravidlo porušeno, takže ani UDPipe se ho nemohl naučit dodržovat. * Výraz //koli// psaný zvlášť: POS=PART (částice). Ale pokud se píše dohromady //kdokoli, cokoli, kterýkoli,// pak to celé dostane značku PRON nebo DET. * Příklonka //ť// (utržená např. ze slov //žeť, jáť//) je POS=PART. * Výrazy //li//, //zdali// jsou částice, pokud jsou v přímé otázce (tj. hlavní větě). V závislé větě jde o spojku (SCONJ/CCONJ). ==== Cizí slova ==== Zde máme na mysli nikoli slova přejatá z cizího jazyka (s těmi se zachází jako s každým jiným českým slovem), ale střídání kódů, tedy slova nebo fráze v cizím jazyce (např. v latině), která se ocitla uvnitř českého textu. UD umožňují [[https://universaldependencies.org/foreign.html|několik přístupů]], jak s takovým materiálem naložit. Na jednom konci škály je možnost anotovat cizí text podle gramatiky a anotačních pravidel cizího jazyka, na druhém konci pak možnost říct, že daný segment do hlavního jazyka textu nepatří, a více se jím nezabývat. My se přidržíme této druhé možnosti: **Lemma je identické se slovním tvarem** (převedným na malá písmena, u vlastních jmen dáváme první velké)**, značka UPOS je ''X'', nejsou vyplněny žádné morfologické rysy s výjimkou ''Foreign=Yes''.** Ještě se musíme dohodnout, zda chceme ve sloupci MISC uchovávat kód jazyka (např. ''OrigLang=la'' pro latinu). Pravidla, jak rozhodnout, jestli je slovo ještě cizí, nebo už přejaté do češtiny, bude asi nutné v průběhu anotace dopracovat; zatím lze říct následující: * Má-li slovo tvar ovlivněný českou morfologií, jde o slovo přejaté. * Je-li dotyčné slovo rozvité českým slovem (např. sporné substantivum je rozvité českým adjektivem), můžeme to asi chápat jako signál, že i řídící slovo je přejaté do češtiny. * S osobními a místními vlastními jmény zpravidla zacházíme jako s přejatými do češtiny, i když mají původ v cizím jazyce. * Naopak název díla nebo organizace může být fráze v cizím jazyce, se kterou pak budeme zacházet jako s cizím segmentem. * Věty a delší fráze, které jsou citáty z cizojazyčných textů, jsou asi tím nejjasnějším příkladem materiálu, se kterým se má zacházet jako s cizím. Interpunkce zůstává interpunkcí, i pokud je obklopena cizojazyčným textem, tedy značka UPOS je ''PUNCT'' a rys ''Foreign=Yes'' se nedává. ===== Gramatické kategorie ===== ==== Rod ==== **Nejednoznačné tvary** se rozlišují podle kontextu, např. pro adjektivum //velikému// je třeba rozhodnout mezi maskulinem a neutrem (tedy nenechat tam ''Gender=Masc,Neut'', i kdyby to UDPipe navrhl). U **přechodníků** se rod anotuje pouze v singuláru, a to podle významu, ne formy. Pokud jméno **kolísá v rodě** a není rod jasný z kontextu, vycházet z hierarchie ''Masc'' > ''Fem'' > ''Neut''. ==== Životnost ==== Rozlišuje se ve všech případech, kdy je anotován mužský rod. U jiných rodů nebo bezrodých slov se nerozlišuje. U substantiv se životnost rozlišuje podle stavu v současné češtině. U jiných slovních druhů postupovat podle toho, jaké substantivum rovíjejí/zastupují, s výjimkou případů, kdy mají příznakově opačný tvar, než by tomu substantivu odpovídalo (pozor, v těchto případech může mít například přívlastek jinou hodnotu životnosti než jeho řídící substantivum!). Podrobnější [[hickok:zivotnost|rozbor zde]]. ==== Číslo ==== Používáme pouze Sing, Dual a Plur. Vůbec tedy nepracujeme s hodnotami Coll, Ptan. Nejednoznačné tvary se rozlišují podle kontextu, např. pro adjektivum //veliké// je třeba rozhodnout mezi singulárem (neutra) a plurálem (feminina, resp. neživotného maskulina). **Duál:** ''Number=Dual'', anotováno podle formy buď slova samotného nebo jeho okolí. Jde o to rozlišit případy, kdy se ještě duál používal a kdy už ne; čili nebudeme anotovat duál jen proto, že víme, že se mluví o dvou entitách; v novočeských datech to taky neděláme. V novočeských datech se duál anotuje pouze u instrumentálu párových orgánů //(očima, ušima, rukama, nohama)// a dále adjektiv (a determinátorů), která s nimi vyjadřují shodu a používají k tomu koncovku //-ýma//. * Pokud jde o tvar specifický pro duál, anotovat jako duál. * Pokud jde o tvar společný pro duál a plurál (u přechodníků, někdy též u substantiv stažených deklinačních typů, případně i jinde), ale z okolního kontextu je zřejmé, že autor by duál použil (např. jde o přechodník odkazující na entitu, na kterou někde jinde v okolí autor odkazuje tvarem jasně duálovým), anotovat jako duál. * V ostatních případech anotovat jako plurál. ==== Pád ==== U slov, u kterých se očekává neprázdná hodnota rysu ''Case'', se nejednoznačné tvary zjednoznačňují podle kontextu. Pokud kontext není jednoznačný, rozhodujeme se primárně podle situace ve zbytku textu, je-li to možné. ==== Gender[psor] ==== Zjednoznačňujeme podle významu (tj. u "jeho" rozlišováno mezi maskulinem a neutrem, což UDPipe nedělal). ==== Vid ==== U **obouvidových sloves** anotujeme vid tam, kde je z kontextu jasný. Pokud z kontextu jasný není, tak ho nevyplňujeme. (Na to, kdy je to jasné a kdy ne, ale můžou být různé názory.) Pokud nejde o obouvidové sloveso, ale o dvě homonymní slovesa lišící se videm (tj. při změně vidu se podstatně mění i význam, např. //hoditi//), vid se normálně anotuje. ==== Polarity ==== Řešíme takto (tvar-lemma-tag) takto: 1) substantiva: nepřítel-nepřítel-v tagu se nic neznačí; 2) slovesa: nekoupí-koupit-negace součástí tagu; 3) adjektiva a adverbia (odvozená od adjektiv): nevelký-velký-negace součástí tagu (stejně jako u sloves). U substantiv se tedy s touto kategorií nepracuje (a to ani u substantiv verbálních), u substantiv začínajících na //ne-// je tento prefix i v lemmatu. Naopak u sloves, adjektiv a deadjektivních adverbií mají záporné tvary Polarity=Neg a je lemma bez záporky. ===== Vyžadované a povolené rysy u jednotlivých druhů slov ===== Povinné rysy (sloupce v tabulce) musí mít pro daný slovní druh neprázdnou hodnotu (jednu z povolených). Když je uvedeno Gender+Animacy, znamená to, že životnost je povinná pro Gender=Masc a zakázaná pro ostatní rody. ^ Slovní druh ^ Povinné rysy ^ Volitelné rysy | | X Cizí slovo | Foreign=Yes | | | NOUN Podstatné jméno obecné | Gender+Animacy, Number, Case| | | NOUN Podstatné jméno slovesné (-ní, -nie, -tí, -tie) | VerbForm=Vnoun, Gender=Neut, Number, Case | | | PROPN Vlastní jméno | Gender+Animacy, Number, Case | NameType | | ADJ Přídavné jméno (dlouhý tvar) | Gender+Animacy, Number, Case, Degree, Polarity | | | ADJ Přídavné jméno (krátký tvar) | Variant=Short, Gender+Animacy, Number, Case, Degree, Polarity | | | ADJ Přídavné jméno přivlastňovací | Poss=Yes, Gender[psor], Gender+Animacy, Number, Case | NameType (pokud je odvozeno z vlastního jména) | | ADJ Řadová číslovka adjektivní ("druhý") | NumType=Ord, Gender+Animacy, Number, Case | | | ADJ Násobná číslovka adjektivní ("dvojí") | NumType=Mult, Gender+Animacy, Number, Case | | | ADJ Dlouhý tvar činného příčestí (-cí, -ší) (nikoli -lý, taky to neplatí pro složeniny typu //všemohúcí//) | VerbForm=Part, Voice=Act, Aspect, Tense, Gender+Animacy, Number, Case, Polarity | | | ADJ Dlouhý tvar trpného příčestí (-ný, -tý) | VerbForm=Part, Voice=Pass, Aspect, Gender+Animacy, Number, Case, Degree, Polarity | | | ADJ Krátký tvar trpného příčestí (-n, -t) | VerbForm=Part, Voice=Pass, Variant=Short, Aspect, Gender+Animacy, Number, Case, Degree (asi vždy =Pos), Polarity | | | PRON Zájmeno osobní v 1. nebo 2. osobě | PronType=Prs, Person, Number, Case | Variant=Short (klitika: pouze pro tvary //mě, mi, tě, ti//) | | PRON Zájmeno osobní ve 3. osobě | PronType=Prs, Person=3, Gender+Animacy, Number, Case | Variant=Short (klitika: pouze pro tvary //ho, mu//), PrepCase (povinné pro rozlišení "jeho/něho", nepoužívá se pro "on") | | PRON Zájmeno zvratné | PronType=Prs, Reflex=Yes, Case | Variant=Short (klitika: pouze pro tvary //se, si//) | | PRON Zájmeno typu "kdo, kdož, někdo, nikdo" | PronType, Gender=Masc, Animacy=Anim, Case | | | PRON Zájmeno typu "co, což, něco, nic" | PronType, Case | | | PRON Zájmeno typu "jenž, jenžto" | PronType=Rel, Gender+Animacy, Number, Case, PrepCase (jen v případě přítomnosti resumptivního zájmena se neanotují pád, číslo, rod+životnost) | | | PRON Zájmeno typu "an" | PronType=Rel, Gender+Animacy, Number, Case=Nom | | | DET Zájmeno přivlastňovací v 1. nebo 2. osobě ("můj, tvůj") | PronType=Prs, Poss=Yes, Person, Number[psor], Gender+Animacy, Number, Case | | | DET Zájmeno přivlastňovací ve 3. osobě ("jeho") | PronType=Prs, Poss=Yes, Person=3, Number[psor]=Sing, Gender[psor], Gender+Animacy, Number, Case | | | DET Zájmeno přivlastňovací ve 3. osobě ("její, jejie") | PronType=Prs, Poss=Yes, Person=3, Number[psor]=Sing, Gender[psor]=Fem, Gender+Animacy, Number, Case. | | | DET Zájmeno přivlastňovací ve 3. osobě ("jejich, jich") | PronType=Prs, Poss=Yes, Person=3, Number[psor]=Plur, Gender+Animacy, Number, Case | | | DET Zájmeno přivlastňovací zvratné ("svůj, svój") | PronType=Prs, Poss=Yes, Reflex=Yes, Gender+Animacy, Number, Case | | | DET Zájmeno vztažné přivlastňovací ("jehož, jehožto") | PronType=Rel, Poss=Yes, Number[psor]=Sing, Gender[psor], Gender+Animacy, Number, Case | | | DET Zájmeno vztažné přivlastňovací ("jejíž, jejížto") | PronType=Rel, Poss=Yes, Number[psor]=Sing, Gender[psor]=Fem, Gender+Animacy, Number, Case | | | DET Zájmeno vztažné přivlastňovací ("jejichž, jichžto") | PronType=Rel, Poss=Yes, Number[psor]=Plur, Gender+Animacy, Number, Case | | | DET Zájmeno "všechen", "veš", "vešken", ... | PronType=Tot, Gender+Animacy, Number, Case (lemma je vždy //všechen//) | | | DET Zájmeno "sám, samý" | PronType=Emp, Gender+Animacy, Number, Case | Variant=Short | | DET Zájmeno typu "jaký, který, nějaký, některý, ..." | PronType, Gender+Animacy, Number, Case | | | DET Zájmeno typu "čí, něčí, ničí" | PronType, Poss=Yes, Gender+Animacy, Number, Case | | | DET Číslovka základní zájmenná ("kolik, mnoho") | PronType, NumType=Card, Case | | | DET Číslovka řadová zájmenná adjektivní ("kolikátý") | PronType, NumType=Ord, Gender+Animacy, Number, Case | | | DET Číslovka násobná zájmenná adjektivní ("kolikerý") | PronType, NumType=Mult, Gender+Animacy, Number, Case | | | NUM Číslo arabskými číslicemi | NumType=Card, NumForm=Digit | | | NUM Číslo římskými číslicemi | NumType=Card, NumForm=Roman | | | NUM Číslovka základní "jeden, jedna, jedno" | NumType=Card, NumForm=Word, Gender+Animacy, Number=Sing, Case | | | NUM Číslovka základní "dva, dvě" | NumType=Card, NumForm=Word, Gender, Number=Dual/Plur???, Case | | | NUM Číslovka základní "oba, obě" | NumType=Card, NumForm=Word, PronType=Tot, Gender, Number=Dual/Plur???, Case | | | NUM Číslovka základní "tři, čtyři, pět, ..." | NumType=Card, NumForm=Word, Number=Plur, Case | | | NUM Číslovka základní "půl" | NumType=Card, NumForm=Word | | | NUM Číslovka pro množiny "jedny, dvoje, troje, čtvery, ..." | NumType=Sets, NumForm=Word, Gender+Animacy, Number=Plur, Case **JP:** jak to lemmatizovat? **DZ:** Lemmatizoval bych to na nominativ toho duálu/plurálu, tj. na tvary uvedené zde jako příklady. Problém ale je, že celá tahle kategorie pochází z nějaké dávné konverzní tabulky a když jsem teď hledal příklady v datech, tak jich tam jednak je málo, jednak ta jejich anotace neodpovídá. Vypadá to, že //dvoje// je teď analyzováno jako variantní tvar číslovky //dvojí//. | | | VERB/AUX Sloveso v infinitivu nebo supinu | VerbForm=Inf resp. Sup, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. | | VERB/AUX Sloveso v přítomném tvaru (včetně dokonavých) | VerbForm=Fin, Mood=Ind, Tense=Pres, Voice=Act, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. | | AUX/VERB Sloveso v budoucím tvaru ("budu, půjdu") | VerbForm=Fin, Mood=Ind, Tense=Fut, Voice=Act, Person, Number, Polarity, Aspect=Imp | Vynechat Aspect u obouvidých sloves. | | VERB/AUX Sloveso v imperfektu | VerbForm=Fin, Mood=Ind, Tense=Imp, Voice=Act, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. | | VERB/AUX Sloveso v aoristu | VerbForm=Fin, Mood=Ind, Tense=Past, Voice=Act, Person, Number, Polarity, Aspect, Variant | Vynechat Aspect u obouvidých sloves. | | VERB/AUX L-ové příčestí | VerbForm=Part, Tense=Past, Voice=Act, Gender+Animacy, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. | | VERB/AUX Sloveso v imperativu | VerbForm=Fin, Mood=Imp, Person, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. | | AUX Kondicionál ("bych, bys, bychom, byste") | VerbForm=Fin, Mood=Cnd, Person, Number, Aspect=Imp | | | AUX Kondicionál ("by") | VerbForm=Fin, Mood=Cnd, Aspect=Imp (**nedávají** se Person ani Number! viz rozbor zde: [[hickok:kondicional|kondicionál]]) | | | VERB/AUX Přechodník v singuláru | VerbForm=Conv, Tense, Voice=Act, Gender+Animacy, Number=Sing, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. | | VERB/AUX Přechodník v duálu/plurálu | VerbForm=Conv, Tense, Voice=Act, Number, Polarity, Aspect | Vynechat Aspect u obouvidých sloves. | | ADV Příslovce stupňovatelné ("snadno, snadněji, nejsnadněji") | Degree, Polarity | | | ADV Příslovce zájmenné kromě Tot ("kde, kdy, někde, ...") | PronType | | | ADV Příslovce zájmenné totální ("vždy, nevždy, ...") | PronType=Tot, Degree=Pos, Polarity | | | ADV Číslovka násobná adverbiální ("kolikrát") | NumType=Mult | PronType | | ADV Číslovka řadová adverbiální ("pokolikáté") | NumType=Ord | PronType | | ADV Příslovce ostatní ("snad, lzě, nelzě, velmi, ...") | Degree=Pos, Polarity | | | ADP Předložka | AdpType, Case | | | CCONJ Spojka souřadicí | | | | SCONJ Spojka podřadicí | | | | PART Částice | | | | INTJ Citoslovce | | | | SYM Symbol jiný než interpunkce ("$, €, ...") | | | | PUNCT Interpunkce | | | ===== Problematická slova ===== **vstříc**: vyskytuje-li se v kontextu jméno v dativu, pak je to vždy předložka (bez ohledu na slovosled/projektivitu) **jich, jeho, jie**: pokud modifikuje jméno, je to posesivum bez ohledu na slovosled, pokud ne, je to genitiv osobního zájmena **toť**: následuje-li předpokládaná pauza/intonační předěl, je to částice, jinak jde o spojení zájmena a částice **proto(ž)**: příslovce nebo spojka, dle kontextu