Životnost
DZ: Toto je zatím (27.2.2024) otevřený problém a níže je pouze nástin možného řešení.
Rozlišování životnosti u mužských jmen dává smysl a běžně se děje v novočeských korpusech, ale u staročeských není jasné, jak by se s ní mělo zacházet, protože neživotná jména běžně mívají i životné tvary a platí to i opačně. Pokud bychom se rozhodli anotovat staročeská data bez životnosti, tak zase máme jiné problémy: 1) UDPipe, který se natrénuje na novočeských nebo smíšených datech, v tom bude mít chaos; 2) Museli bychom stanovit nějaké umělé datum, od kterého čeština rozlišuje (a my anotujeme) životnost.
Současný stav v novočeských treebancích
- Substantiva, která mají mužský rod (
Gender=Masc
), mají vždy uvedenou i životnost (Animacy=Anim
neboAnimacy=Inan
), a to bez ohledu na pád (tedy i v pádech, kde je životný a neživotný tvar stejný). - Dlouhé mužské tvary adjektiv mají vždy uvedenu životnost podle substantiva, které rozvíjejí (navzdory časté nejednoznačnosti tvarů).
U dalších slovních druhů se korpusy liší podle toho, zda původní anotace pochází z PDT (týká se i treebanků CAC, CLTT a PUD), nebo z ČNK (treebank FicTree). V PDT bylo zvykem u některých systematicky nejednoznačných tvarů používat sdružené hodnoty pro několik rodů. Pokud sdružená hodnota obsahovala mužský životný i mužský neživotný rod, projevilo se to po převodu do UD ztrátou rysu životnosti. Naproti tomu ČNK a FicTree konzistentně zjednoznačňuje rod podle kontextu (tedy to, co PDT dělá jen u dlouhých tvarů adjektiv), díky čemuž je mužský rod vždy rozdělen na životný a neživotný. Navrhuju přiklonit se ke zjednoznačňování jako v ČNK, nicméně zde uvádím shrnutí situací, kde v PDT životnost chybí (projeví se to mj., pokud použijeme UDPipe s modelem natrénovaným na PDT):
- krátké tvary N-ových/T-ových (trpných) příčestí (adoptován, adresován, akceptován)
- krátké tvary obyčejných adjektiv (bohat, dalek, dlužen)
- zájmena on, jenž, veškerý
- determinátory (jaký, který, čí)
- číslovky jeden, nejeden, dva, oba
- slovesa (
AUX
iVERB
):- L-ová příčestí (byl, nebyl, býval)
- přechodníky (jsa)
Pokud se v novočeských datech výjimečně stane, že mužské neživotné substantivum má životný tvar (např. trabanta, opla, žigulíka), tak
- substantivum samo má nadále anotovanou svou lexikálně danou životnost (tj.
Animacy=Inan
) - případná adjektiva, která ho rozvíjejí, už jsou anotována jako životná (tj.
Animacy=Anim
) (např. policejního žigulíka)
Návrh řešení
Nabízí se postupovat obdobně i u staročeských dat, byť tam podobné situace budou častější a nebudou se týkat jen genitivu/akuzativu singuláru, ale např. i nominativu plurálu (národové místo národy). JP: Tj. jak přesně postupovat? Chápu-li to dobře, tak by to znamenalo: Vycházet v zásadě ze stavu v současné češtině a podle toho rozhodovat životnost u substantiv. U jiných slovních druhů postupovat podle toho, jaké substantivum rovíjejí/zastupují, s výjimkou případů, kdy mají příznakově opačný tvar, než by tomu substantivu odpovídalo. Což by znamenalo, že např. ve větě Zabili veliký zajiec (= AKUZ) by zajiec bylo životné, ale veliký neživotné. DZ: Souhlas.