Obsah

Životnost

DZ: Toto je zatím (27.2.2024) otevřený problém a níže je pouze nástin možného řešení.

Rozlišování životnosti u mužských jmen dává smysl a běžně se děje v novočeských korpusech, ale u staročeských není jasné, jak by se s ní mělo zacházet, protože neživotná jména běžně mívají i životné tvary a platí to i opačně. Pokud bychom se rozhodli anotovat staročeská data bez životnosti, tak zase máme jiné problémy: 1) UDPipe, který se natrénuje na novočeských nebo smíšených datech, v tom bude mít chaos; 2) Museli bychom stanovit nějaké umělé datum, od kterého čeština rozlišuje (a my anotujeme) životnost.

Současný stav v novočeských treebancích

U dalších slovních druhů se korpusy liší podle toho, zda původní anotace pochází z PDT (týká se i treebanků CAC, CLTT a PUD), nebo z ČNK (treebank FicTree). V PDT bylo zvykem u některých systematicky nejednoznačných tvarů používat sdružené hodnoty pro několik rodů. Pokud sdružená hodnota obsahovala mužský životný i mužský neživotný rod, projevilo se to po převodu do UD ztrátou rysu životnosti. Naproti tomu ČNK a FicTree konzistentně zjednoznačňuje rod podle kontextu (tedy to, co PDT dělá jen u dlouhých tvarů adjektiv), díky čemuž je mužský rod vždy rozdělen na životný a neživotný. Navrhuju přiklonit se ke zjednoznačňování jako v ČNK, nicméně zde uvádím shrnutí situací, kde v PDT životnost chybí (projeví se to mj., pokud použijeme UDPipe s modelem natrénovaným na PDT):

Pokud se v novočeských datech výjimečně stane, že mužské neživotné substantivum má životný tvar (např. trabanta, opla, žigulíka), tak

Nabízí se postupovat obdobně i u staročeských dat, byť tam podobné situace budou častější a nebudou se týkat jen genitivu/akuzativu singuláru, ale např. i nominativu plurálu (národové místo národy). JP: Tj. jak přesně postupovat? Chápu-li to dobře, tak by to znamenalo: Vycházet v zásadě ze stavu v současné češtině a podle toho rozhodovat životnost u substantiv. U jiných slovních druhů postupovat podle toho, jaké substantivum rovíjejí/zastupují, s výjimkou případů, kdy mají příznakově opačný tvar, než by tomu substantivu odpovídalo. Což by znamenalo, že např. ve větě Zabili veliký zajiec (= AKUZ) by zajiec bylo životné, ale veliký neživotné. DZ: Souhlas.