Pravidla pro anotaci poškozených textů

Pokud je zdrojový rukopis poškozený, projevuje se to dvěma pro nás relevantními typy jevů (pro ilustraci viz např. edici RadaOtcR, verše 49 a dál). Zaprvé se nám tam objevují torzovitá slova, v nichž je jen dochovaná část znaků, zatímco zbytek je reprezentován trojtečkou (např. svat… nebo …ědí). A zadruhé je tam někdy signalizováno chybějící celé slovo nebo dokonce více slov v řadě, a to pomocí trojtečky (zastupující případně celou chybějící sekvenci slov). Důsledkem je, že trojtečka v našich datech může označovat dvě různé věci: buď část torzovitého slova, nebo chybějící slovo/slova; v edici je to rozlišeno různým stylem, ale v tom excelu se to od sebe tak snadno nepozná. V buňce, kde je uvedena celá věta, je nicméně ta „torzovitá“ trojtečka psána dohromady (tj. bez mezery) s tím torzem, ovšem i přesto je to tam bráno jako samostatný token, takže má vlastní řádek.

Chybějící celá slova / sekvence slov

Chybějící celé slovo nebo sekvence slov je v textu signalizovaná trojtečkou. Trojtečky tohoto typu necháváme anotované, jak jsou, tj. měly by mít jako lemma trojtečku a UPOS=PUNCT. Jediné, co s nimi můžeme dělat, je upravovat segmentaci na věty, pokud to bude dávat smysl. To může být např. v případě, že je trojtečka (reprezentující chybějící text) UDPipem chápána jako začátek nové věty, přestože ten chybějící text evidentně patří k větě přechozí (což se asi docela často děje), apod. Tyto úpravy segmentace na věty provádíme podle obvyklých pravidel.

Torzovitá slova

Torzovitá slova představují poněkud komplikovanější případ.

Všechna torzovitá slova řešíme stejným způsobem bez ohledu na to, jak velká část slova je dochovaná a jestli bychom je případně byli schopní rekonstruovat na základě kontextu nebo třeba jiného rukopisu téže památky. Rekontruovat je nijak nebudeme.

První věc, kterou musíme udělat, je spojit torzo s jeho trojtečkou (např. svat… jsou dva tokeny, tj. svat a …, a my je musíme spojit do jednoho). To uděláme podle obvyklých pravidel pro změnu tokenizace, tj. ke druhému z tokenů (v tomto případě k trojtečce, zatímco u …ědí by to bylo k tomu ědí) napíšeme do příslušného sloupce hodnotu „spojit“.

Druhá věc, kterou musíme udělat, je samotná anotace těchto torzovitých slov. Zde pozor na to, že podle těch pravidel pro změnu tokenizace uvádíme tuto anotaci k prvnímu ze spojovaných tokenů (tj. u svat… k tomu svat, zatímco u …ědí k té trojtečce), naproti tomu u druhého ze spojovaných tokenů se neuvádí nic. Anotujeme přitom pouze dva rysy: UPOS a LEMMA. Jako UPOS uvádíme hodnotu X. Jako LEMMA uvádíme formu shodnou s tvarem torzovitého slova, a to včetně té trojtečky, lemma tedy může být např. svat… nebo …ědí.

V případě potřeby můžeme samozřejmě i u torzovitých slov měnit větnou segmentaci.

Historie: • poskozene_texty