====== Životnost ====== DZ: Toto je zatím (27.2.2024) otevřený problém a níže je pouze nástin možného řešení. Rozlišování životnosti u mužských jmen dává smysl a běžně se děje v novočeských korpusech, ale u staročeských není jasné, jak by se s ní mělo zacházet, protože neživotná jména běžně mívají i životné tvary a platí to i opačně. Pokud bychom se rozhodli anotovat staročeská data bez životnosti, tak zase máme jiné problémy: 1) UDPipe, který se natrénuje na novočeských nebo smíšených datech, v tom bude mít chaos; 2) Museli bychom stanovit nějaké umělé datum, od kterého čeština rozlišuje (a my anotujeme) životnost. ===== Současný stav v novočeských treebancích ===== * Substantiva, která mají mužský rod (''Gender=Masc''), mají vždy uvedenou i životnost (''Animacy=Anim'' nebo ''Animacy=Inan''), a to bez ohledu na pád (tedy i v pádech, kde je životný a neživotný tvar stejný). * Dlouhé mužské tvary adjektiv mají vždy uvedenu životnost podle substantiva, které rozvíjejí (navzdory časté nejednoznačnosti tvarů). U dalších slovních druhů se korpusy liší podle toho, zda původní anotace pochází z PDT (týká se i treebanků CAC, CLTT a PUD), nebo z ČNK (treebank FicTree). V PDT bylo zvykem u některých systematicky nejednoznačných tvarů používat sdružené hodnoty pro několik rodů. Pokud sdružená hodnota obsahovala mužský životný i mužský neživotný rod, projevilo se to po převodu do UD ztrátou rysu životnosti. Naproti tomu ČNK a FicTree konzistentně zjednoznačňuje rod podle kontextu (tedy to, co PDT dělá jen u dlouhých tvarů adjektiv), díky čemuž je mužský rod vždy rozdělen na životný a neživotný. Navrhuju přiklonit se ke zjednoznačňování jako v ČNK, nicméně zde uvádím shrnutí situací, kde v PDT životnost chybí (projeví se to mj., pokud použijeme UDPipe s modelem natrénovaným na PDT): * krátké tvary N-ových/T-ových (trpných) příčestí //(adoptován, adresován, akceptován)// * krátké tvary obyčejných adjektiv //(bohat, dalek, dlužen)// * zájmena //on, jenž, veškerý// * determinátory //(jaký, který, čí)// * číslovky //jeden, nejeden, dva, oba// * slovesa (''AUX'' i ''VERB''): * L-ová příčestí //(byl, nebyl, býval)// * přechodníky //(jsa)// Pokud se v novočeských datech výjimečně stane, že mužské neživotné substantivum má životný tvar (např. //trabanta, opla, žigulíka//), tak * substantivum samo má nadále anotovanou svou lexikálně danou životnost (tj. ''Animacy=Inan'') * případná adjektiva, která ho rozvíjejí, už jsou anotována jako životná (tj. ''Animacy=Anim'') (např. //policejního žigulíka//) ===== Návrh řešení ===== Nabízí se postupovat obdobně i u staročeských dat, byť tam podobné situace budou častější a nebudou se týkat jen genitivu/akuzativu singuláru, ale např. i nominativu plurálu (//národové// místo //národy//). JP: Tj. jak přesně postupovat? Chápu-li to dobře, tak by to znamenalo: Vycházet v zásadě ze stavu v současné češtině a podle toho rozhodovat životnost u substantiv. U jiných slovních druhů postupovat podle toho, jaké substantivum rovíjejí/zastupují, s výjimkou případů, kdy mají příznakově opačný tvar, než by tomu substantivu odpovídalo. Což by znamenalo, že např. ve větě //Zabili veliký zajiec// (= AKUZ) by //zajiec// bylo životné, ale //veliký// neživotné. DZ: Souhlas.