Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
hickok:zivotnost [2024/02/27 21:48] – danzeman | hickok:zivotnost [2024/05/15 21:43] (aktuální) – [Životnost] danzeman | ||
---|---|---|---|
Řádek 3: | Řádek 3: | ||
DZ: Toto je zatím (27.2.2024) otevřený problém a níže je pouze nástin možného řešení. | DZ: Toto je zatím (27.2.2024) otevřený problém a níže je pouze nástin možného řešení. | ||
- | Rozlišování životnosti u mužských jmen dává smysl a běžně se děje v novočeských korpusech, ale u staročeských není jasné, jak by se s ní mělo zacházet, protože neživotná jména běžně mívají i životné tvary. Pokud bychom se rozhodli anotovat staročeská data bez životnosti, | + | Rozlišování životnosti u mužských jmen dává smysl a běžně se děje v novočeských korpusech, ale u staročeských není jasné, jak by se s ní mělo zacházet, protože neživotná jména běžně mívají i životné tvary a platí to i opačně. Pokud bychom se rozhodli anotovat staročeská data bez životnosti, |
===== Současný stav v novočeských treebancích ===== | ===== Současný stav v novočeských treebancích ===== | ||
Řádek 12: | Řádek 12: | ||
U dalších slovních druhů se korpusy liší podle toho, zda původní anotace pochází z PDT (týká se i treebanků CAC, CLTT a PUD), nebo z ČNK (treebank FicTree). V PDT bylo zvykem u některých systematicky nejednoznačných tvarů používat sdružené hodnoty pro několik rodů. Pokud sdružená hodnota obsahovala mužský životný i mužský neživotný rod, projevilo se to po převodu do UD ztrátou rysu životnosti. Naproti tomu ČNK a FicTree konzistentně zjednoznačňuje rod podle kontextu (tedy to, co PDT dělá jen u dlouhých tvarů adjektiv), díky čemuž je mužský rod vždy rozdělen na životný a neživotný. Navrhuju přiklonit se ke zjednoznačňování jako v ČNK, nicméně zde uvádím shrnutí situací, kde v PDT životnost chybí (projeví se to mj., pokud použijeme UDPipe s modelem natrénovaným na PDT): | U dalších slovních druhů se korpusy liší podle toho, zda původní anotace pochází z PDT (týká se i treebanků CAC, CLTT a PUD), nebo z ČNK (treebank FicTree). V PDT bylo zvykem u některých systematicky nejednoznačných tvarů používat sdružené hodnoty pro několik rodů. Pokud sdružená hodnota obsahovala mužský životný i mužský neživotný rod, projevilo se to po převodu do UD ztrátou rysu životnosti. Naproti tomu ČNK a FicTree konzistentně zjednoznačňuje rod podle kontextu (tedy to, co PDT dělá jen u dlouhých tvarů adjektiv), díky čemuž je mužský rod vždy rozdělen na životný a neživotný. Navrhuju přiklonit se ke zjednoznačňování jako v ČNK, nicméně zde uvádím shrnutí situací, kde v PDT životnost chybí (projeví se to mj., pokud použijeme UDPipe s modelem natrénovaným na PDT): | ||
- | * krátké tvary NT-ových příčestí // | + | * krátké tvary N-ových/T-ových (trpných) |
* krátké tvary obyčejných adjektiv //(bohat, dalek, dlužen)// | * krátké tvary obyčejných adjektiv //(bohat, dalek, dlužen)// | ||
* zájmena //on, jenž, veškerý// | * zájmena //on, jenž, veškerý// | ||
Řádek 28: | Řádek 28: | ||
===== Návrh řešení ===== | ===== Návrh řešení ===== | ||
- | Nabízí se postupovat obdobně i u staročeských dat, byť tam podobné situace budou častější a nebudou se týkat jen genitivu/ | + | Nabízí se postupovat obdobně i u staročeských dat, byť tam podobné situace budou častější a nebudou se týkat jen genitivu/ |