====== Pravidla pro anotaci poškozených textů ====== Pokud je zdrojový rukopis poškozený, projevuje se to dvěma pro nás relevantními typy jevů (pro ilustraci viz např. edici RadaOtcR, verše 49 a dál). Zaprvé se nám tam objevují **torzovitá slova**, v nichž je jen dochovaná část znaků, zatímco zbytek je reprezentován trojtečkou (např. //svat...// nebo //...ědí//). A zadruhé je tam někdy signalizováno **chybějící celé slovo** nebo dokonce **více slov** v řadě, a to pomocí trojtečky (zastupující případně celou chybějící sekvenci slov). Důsledkem je, že trojtečka v našich datech může označovat dvě různé věci: buď část torzovitého slova, nebo chybějící slovo/slova; v edici je to rozlišeno různým stylem, ale v tom excelu se to od sebe tak snadno nepozná. V buňce, kde je uvedena celá věta, je nicméně ta "torzovitá" trojtečka psána dohromady (tj. bez mezery) s tím torzem, ovšem i přesto je to tam bráno jako samostatný token, takže má vlastní řádek. ===== Chybějící celá slova / sekvence slov ===== Chybějící celé slovo nebo sekvence slov je v textu signalizovaná trojtečkou. Trojtečky tohoto typu necháváme anotované, jak jsou, tj. měly by mít jako lemma trojtečku a UPOS=PUNCT. Jediné, co s nimi můžeme dělat, je upravovat segmentaci na věty, pokud to bude dávat smysl. To může být např. v případě, že je trojtečka (reprezentující chybějící text) UDPipem chápána jako začátek nové věty, přestože ten chybějící text evidentně patří k větě přechozí (což se asi docela často děje), apod. Tyto úpravy segmentace na věty provádíme [[hickok:anotace_v_tabulkovem_procesoru|podle obvyklých pravidel]]. ===== Torzovitá slova ===== Torzovitá slova představují poněkud komplikovanější případ. Všechna torzovitá slova řešíme stejným způsobem bez ohledu na to, jak velká část slova je dochovaná a jestli bychom je případně byli schopní rekonstruovat na základě kontextu nebo třeba jiného rukopisu téže památky. Rekontruovat je nijak nebudeme. __První věc__, kterou musíme udělat, je **spojit torzo s jeho trojtečkou** (např. //svat...// jsou dva tokeny, tj. //svat// a //...//, a my je musíme spojit do jednoho). To uděláme podle [[hickok:anotace_v_tabulkovem_procesoru|obvyklých pravidel pro změnu tokenizace]], tj. ke druhému z tokenů (v tomto případě k trojtečce, zatímco u //...ědí// by to bylo k tomu //ědí//) napíšeme do příslušného sloupce hodnotu "spojit". __Druhá věc__, kterou musíme udělat, je samotná **anotace těchto torzovitých slov**. Zde pozor na to, že podle těch pravidel pro změnu tokenizace uvádíme tuto anotaci k **prvnímu** ze spojovaných tokenů (tj. u //svat...// k tomu //svat//, zatímco u //...ědí// k té trojtečce), naproti tomu u druhého ze spojovaných tokenů se neuvádí nic. Anotujeme přitom **pouze dva rysy: UPOS a LEMMA**. Jako UPOS uvádíme hodnotu X. Jako LEMMA uvádíme formu shodnou s tvarem torzovitého slova, a to **včetně** té trojtečky, lemma tedy může být např. //svat...// nebo //...ědí//. V případě potřeby můžeme samozřejmě i u torzovitých slov měnit větnou segmentaci.