Obě strany předchozí revizePředchozí verze | |
Zde máme na mysli nikoli slova přejatá z cizího jazyka (s těmi se zachází jako s každým jiným českým slovem), ale střídání kódů, tedy slova nebo fráze v cizím jazyce (např. v latině), která se ocitla uvnitř českého textu. UD umožňují [[https://universaldependencies.org/foreign.html|několik přístupů]], jak s takovým materiálem naložit. Na jednom konci škály je možnost anotovat cizí text podle gramatiky a anotačních pravidel cizího jazyka, na druhém konci pak možnost říct, že daný segment do hlavního jazyka textu nepatří, a více se jím nezabývat. My se přidržíme této druhé možnosti: **Lemma je identické se slovním tvarem** (<fc #ff0000>možná akorát převedené na malá písmena?</fc>)**, značka UPOS je ''X'', nejsou vyplněny žádné morfologické rysy s výjimkou ''Foreign=Yes''.** <fc #ff0000>Ještě se musíme dohodnout, zda chceme ve sloupci MISC uchovávat kód jazyka (např. ''OrigLang=la'' pro latinu).</fc> Pravidla, jak rozhodnout, jestli je slovo ještě cizí, nebo už přejaté do češtiny, bude asi nutné v průběhu anotace dopracovat; zatím lze říct následující: | Zde máme na mysli nikoli slova přejatá z cizího jazyka (s těmi se zachází jako s každým jiným českým slovem), ale střídání kódů, tedy slova nebo fráze v cizím jazyce (např. v latině), která se ocitla uvnitř českého textu. UD umožňují [[https://universaldependencies.org/foreign.html|několik přístupů]], jak s takovým materiálem naložit. Na jednom konci škály je možnost anotovat cizí text podle gramatiky a anotačních pravidel cizího jazyka, na druhém konci pak možnost říct, že daný segment do hlavního jazyka textu nepatří, a více se jím nezabývat. My se přidržíme této druhé možnosti: **Lemma je identické se slovním tvarem** (převedným na malá písmena, u vlastních jmen dáváme první velké)**, značka UPOS je ''X'', nejsou vyplněny žádné morfologické rysy s výjimkou ''Foreign=Yes''.** <fc #ff0000>Ještě se musíme dohodnout, zda chceme ve sloupci MISC uchovávat kód jazyka (např. ''OrigLang=la'' pro latinu).</fc> Pravidla, jak rozhodnout, jestli je slovo ještě cizí, nebo už přejaté do češtiny, bude asi nutné v průběhu anotace dopracovat; zatím lze říct následující: |