AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
hickok:stc_strdc_ud [2025/02/12 09:39] – [Zájmena] doplnění u ješto jiriperglerhickok:stc_strdc_ud [2025/02/15 09:39] (aktuální) – [Cizí slova] jiripergler
Řádek 105: Řádek 105:
 ==== Cizí slova ==== ==== Cizí slova ====
  
-Zde máme na mysli nikoli slova přejatá z cizího jazyka (s těmi se zachází jako s každým jiným českým slovem), ale střídání kódů, tedy slova nebo fráze v cizím jazyce (např. v latině), která se ocitla uvnitř českého textu. UD umožňují [[https://universaldependencies.org/foreign.html|několik přístupů]], jak s takovým materiálem naložit. Na jednom konci škály je možnost anotovat cizí text podle gramatiky a anotačních pravidel cizího jazyka, na druhém konci pak možnost říct, že daný segment do hlavního jazyka textu nepatří, a více se jím nezabývat. My se přidržíme této druhé možnosti: **Lemma je identické se slovním tvarem** (<fc #ff0000>možná akorát evedené na malá písmena?</fc>)**, značka UPOS je ''X'', nejsou vyplněny žádné morfologické rysy s výjimkou ''Foreign=Yes''.** <fc #ff0000>Ještě se musíme dohodnout, zda chceme ve sloupci MISC uchovávat kód jazyka (např. ''OrigLang=la'' pro latinu).</fc> Pravidla, jak rozhodnout, jestli je slovo ještě cizí, nebo už přejaté do češtiny, bude asi nutné v průběhu anotace dopracovat; zatím lze říct následující:+Zde máme na mysli nikoli slova přejatá z cizího jazyka (s těmi se zachází jako s každým jiným českým slovem), ale střídání kódů, tedy slova nebo fráze v cizím jazyce (např. v latině), která se ocitla uvnitř českého textu. UD umožňují [[https://universaldependencies.org/foreign.html|několik přístupů]], jak s takovým materiálem naložit. Na jednom konci škály je možnost anotovat cizí text podle gramatiky a anotačních pravidel cizího jazyka, na druhém konci pak možnost říct, že daný segment do hlavního jazyka textu nepatří, a více se jím nezabývat. My se přidržíme této druhé možnosti: **Lemma je identické se slovním tvarem** (převedným na malá písmena, u vlastních jmen dáváme první velké)**, značka UPOS je ''X'', nejsou vyplněny žádné morfologické rysy s výjimkou ''Foreign=Yes''.** <fc #ff0000>Ještě se musíme dohodnout, zda chceme ve sloupci MISC uchovávat kód jazyka (např. ''OrigLang=la'' pro latinu).</fc> Pravidla, jak rozhodnout, jestli je slovo ještě cizí, nebo už přejaté do češtiny, bude asi nutné v průběhu anotace dopracovat; zatím lze říct následující:
  
   * Má-li slovo tvar ovlivněný českou morfologií, jde o slovo přejaté.   * Má-li slovo tvar ovlivněný českou morfologií, jde o slovo přejaté.