AplikaceAplikace
Nastavení

Životnost

DZ: Toto je zatím (27.2.2024) otevřený problém a níže je pouze nástin možného řešení.

Rozlišování životnosti u mužských jmen dává smysl a běžně se děje v novočeských korpusech, ale u staročeských není jasné, jak by se s ní mělo zacházet, protože neživotná jména běžně mívají i životné tvary a platí to i opačně. Pokud bychom se rozhodli anotovat staročeská data bez životnosti, tak zase máme jiné problémy: 1) UDPipe, který se natrénuje na novočeských nebo smíšených datech, v tom bude mít chaos; 2) Museli bychom stanovit nějaké umělé datum, od kterého čeština rozlišuje (a my anotujeme) životnost.

Současný stav v novočeských treebancích

  • Substantiva, která mají mužský rod (Gender=Masc), mají vždy uvedenou i životnost (Animacy=Anim nebo Animacy=Inan), a to bez ohledu na pád (tedy i v pádech, kde je životný a neživotný tvar stejný).
  • Dlouhé mužské tvary adjektiv mají vždy uvedenu životnost podle substantiva, které rozvíjejí (navzdory časté nejednoznačnosti tvarů).

U dalších slovních druhů se korpusy liší podle toho, zda původní anotace pochází z PDT (týká se i treebanků CAC, CLTT a PUD), nebo z ČNK (treebank FicTree). V PDT bylo zvykem u některých systematicky nejednoznačných tvarů používat sdružené hodnoty pro několik rodů. Pokud sdružená hodnota obsahovala mužský životný i mužský neživotný rod, projevilo se to po převodu do UD ztrátou rysu životnosti. Naproti tomu ČNK a FicTree konzistentně zjednoznačňuje rod podle kontextu (tedy to, co PDT dělá jen u dlouhých tvarů adjektiv), díky čemuž je mužský rod vždy rozdělen na životný a neživotný. Navrhuju přiklonit se ke zjednoznačňování jako v ČNK, nicméně zde uvádím shrnutí situací, kde v PDT životnost chybí (projeví se to mj., pokud použijeme UDPipe s modelem natrénovaným na PDT):

  • krátké tvary N-ových/T-ových (trpných) příčestí (adoptován, adresován, akceptován)
  • krátké tvary obyčejných adjektiv (bohat, dalek, dlužen)
  • zájmena on, jenž, veškerý
  • determinátory (jaký, který, čí)
  • číslovky jeden, nejeden, dva, oba
  • slovesa (AUX i VERB):
    • L-ová příčestí (byl, nebyl, býval)
    • přechodníky (jsa)

Pokud se v novočeských datech výjimečně stane, že mužské neživotné substantivum má životný tvar (např. trabanta, opla, žigulíka), tak

  • substantivum samo má nadále anotovanou svou lexikálně danou životnost (tj. Animacy=Inan)
  • případná adjektiva, která ho rozvíjejí, už jsou anotována jako životná (tj. Animacy=Anim) (např. policejního žigulíka)

Nabízí se postupovat obdobně i u staročeských dat, byť tam podobné situace budou častější a nebudou se týkat jen genitivu/akuzativu singuláru, ale např. i nominativu plurálu (národové místo národy). JP: Tj. jak přesně postupovat? Chápu-li to dobře, tak by to znamenalo: Vycházet v zásadě ze stavu v současné češtině a podle toho rozhodovat životnost u substantiv. U jiných slovních druhů postupovat podle toho, jaké substantivum rovíjejí/zastupují, s výjimkou případů, kdy mají příznakově opačný tvar, než by tomu substantivu odpovídalo. Což by znamenalo, že např. ve větě Zabili veliký zajiec (= AKUZ) by zajiec bylo životné, ale veliký neživotné. DZ: Souhlas.