AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze
Předchozí verze
hickok:zivotnost [2024/02/27 21:47] – vytvořeno danzemanhickok:zivotnost [2024/05/15 21:43] (aktuální) – [Životnost] danzeman
Řádek 3: Řádek 3:
 DZ: Toto je zatím (27.2.2024) otevřený problém a níže je pouze nástin možného řešení. DZ: Toto je zatím (27.2.2024) otevřený problém a níže je pouze nástin možného řešení.
  
-Rozlišování životnosti u mužských jmen dává smysl a běžně se děje v novočeských korpusech, ale u staročeských není jasné, jak by se s ní mělo zacházet, protože neživotná jména běžně mívají i životné tvary. Pokud bychom se rozhodli anotovat staročeská data bez životnosti, tak zase máme jiné problémy: 1) UDPipe, který se natrénuje na novočeských nebo smíšených datech, v tom bude mít chaos; 2) Museli bychom stanovit nějaké umělé datum, od kterého čeština rozlišuje (a my anotujeme) životnost.+Rozlišování životnosti u mužských jmen dává smysl a běžně se děje v novočeských korpusech, ale u staročeských není jasné, jak by se s ní mělo zacházet, protože neživotná jména běžně mívají i životné tvary a platí to i opačně. Pokud bychom se rozhodli anotovat staročeská data bez životnosti, tak zase máme jiné problémy: 1) UDPipe, který se natrénuje na novočeských nebo smíšených datech, v tom bude mít chaos; 2) Museli bychom stanovit nějaké umělé datum, od kterého čeština rozlišuje (a my anotujeme) životnost.
  
 ===== Současný stav v novočeských treebancích ===== ===== Současný stav v novočeských treebancích =====
Řádek 12: Řádek 12:
 U dalších slovních druhů se korpusy liší podle toho, zda původní anotace pochází z PDT (týká se i treebanků CAC, CLTT a PUD), nebo z ČNK (treebank FicTree). V PDT bylo zvykem u některých systematicky nejednoznačných tvarů používat sdružené hodnoty pro několik rodů. Pokud sdružená hodnota obsahovala mužský životný i mužský neživotný rod, projevilo se to po převodu do UD ztrátou rysu životnosti. Naproti tomu ČNK a FicTree konzistentně zjednoznačňuje rod podle kontextu (tedy to, co PDT dělá jen u dlouhých tvarů adjektiv), díky čemuž je mužský rod vždy rozdělen na životný a neživotný. Navrhuju přiklonit se ke zjednoznačňování jako v ČNK, nicméně zde uvádím shrnutí situací, kde v PDT životnost chybí (projeví se to mj., pokud použijeme UDPipe s modelem natrénovaným na PDT): U dalších slovních druhů se korpusy liší podle toho, zda původní anotace pochází z PDT (týká se i treebanků CAC, CLTT a PUD), nebo z ČNK (treebank FicTree). V PDT bylo zvykem u některých systematicky nejednoznačných tvarů používat sdružené hodnoty pro několik rodů. Pokud sdružená hodnota obsahovala mužský životný i mužský neživotný rod, projevilo se to po převodu do UD ztrátou rysu životnosti. Naproti tomu ČNK a FicTree konzistentně zjednoznačňuje rod podle kontextu (tedy to, co PDT dělá jen u dlouhých tvarů adjektiv), díky čemuž je mužský rod vždy rozdělen na životný a neživotný. Navrhuju přiklonit se ke zjednoznačňování jako v ČNK, nicméně zde uvádím shrnutí situací, kde v PDT životnost chybí (projeví se to mj., pokud použijeme UDPipe s modelem natrénovaným na PDT):
  
-  * krátké tvary NT-ových příčestí //(adoptován, adresován, akceptován)//+  * krátké tvary N-ových/T-ových (trpných) příčestí //(adoptován, adresován, akceptován)//
   * krátké tvary obyčejných adjektiv //(bohat, dalek, dlužen)//   * krátké tvary obyčejných adjektiv //(bohat, dalek, dlužen)//
   * zájmena //on, jenž, veškerý//   * zájmena //on, jenž, veškerý//
Řádek 26: Řádek 26:
   * případná adjektiva, která ho rozvíjejí, už jsou anotována jako životná (tj. ''Animacy=Anim'') (např. //policejního žigulíka//)   * případná adjektiva, která ho rozvíjejí, už jsou anotována jako životná (tj. ''Animacy=Anim'') (např. //policejního žigulíka//)
  
-Nabízí se postupovat obdobně i u staročeských dat, byť tam podobné situace budou častější a nebudou se týkat jen genitivu/akuzativu singuláru, ale např. i nominativu plurálu (//národové// místo //národy//).+===== Návrh řešení ===== 
 + 
 +Nabízí se postupovat obdobně i u staročeských dat, byť tam podobné situace budou častější a nebudou se týkat jen genitivu/akuzativu singuláru, ale např. i nominativu plurálu (//národové// místo //národy//). <fc #ff0000>JP: Tj. jak přesně postupovat? Chápu-li to dobře, tak by to znamenalo: Vycházet v zásadě ze stavu v současné češtině a podle toho rozhodovat životnost u substantiv. U jiných slovních druhů postupovat podle toho, jaké substantivum rovíjejí/zastupují, s výjimkou případů, kdy mají příznakově opačný tvar, než by tomu substantivu odpovídalo. Což by znamenalo, že např. ve větě //Zabili veliký zajiec// (= AKUZ) by //zajiec// bylo životné, ale //veliký// neživotné. DZ: Souhlas.</fc>