Toto je starší verze dokumentu!

Pravidla pro anotaci poškozených textů

Na úvod krátký popis toho, jak daný jev vypadá v edicích a našich datech. Pokud je zdrojový rukopis poškozený, projevuje se to dvěma pro nás relevantními typy jevů (pro ilustraci se případně můžete podívat např. na edici RadaOtcR, verše 49 a dál). Zaprvé se nám tam objevují torzovitá slova, v nichž je jen dochovaná část znaků, zatímco zbytek je reprezentován trojtečkou (např. svat… nebo …ědí). A zadruhé je tam někdy signalizováno chybějící celé slovo nebo dokonce více slov v řadě, a to pomocí trojtečky (zastupující případně celou chybějící sekvenci slov). Důsledkem je, že trojtečka v našich datech může označovat dvě různé věci: buď část torzovitého slova, nebo chybějící slovo/slova; v edici je to rozlišeno různým stylem, ale v tom excelu se to od sebe tak snadno nepozná. V buňce, kde je uvedena celá věta, je nicméně ta „torzovitá“ trojtečka psána dohromady (tj. bez mezery) s tím torzem, ovšem i přesto je to tam bráno jako samostatný token, takže má vlastní řádek.

A teď co s tím:

Začněme tím jednodušším, což jsou trojtečky reprezentující celá chybějící slova nebo sekvence slov. Tyto trojtečky necháváme anotované, jak jsou, tj. měly by mít jako lemma trojtečku a UPOS=PUNCT. Jediné, co s nimi můžeme dělat, je upravovat segmentaci na věty, pokud to bude dávat smysl. To může být např. v případě, že je trojtečka (reprezentující chybějící text) UDPipem chápána jako začátek nové věty, přestože ten chybějící text evidentně patří k větě přechozí (což se asi docela často děje), apod. Tyto úpravy segmentace na věty provádíme podle obvyklých pravidel, která jsou popsána zde: https://wiki.korpus.cz/doku.php/hickok:anotace_v_tabulkovem_procesoru

O něco komplikovanější jsou ta torzovitá slova. Ta budeme řešit všechna stejným způsobem bez ohledu na to, jak velká část slova je dochovaná a jestli bychom je případně byli schopní rekonstruovat na základě kontextu nebo třeba jiného rukopisu téže památky. Rekontruovat je nijak nebudeme. První věc, kterou musíme udělat, je spojit to torzo s jeho trojtečkou (např. to svat… jsou dva tokeny, tj. „svat“ a „…“, a my je musíme spojit do jednoho. To uděláme podle obvyklých pravidel pro změnu tokenizace, vizte odkaz výše, tj. ke druhému z tokenů (v tomto případě k trojtečce, zatímco u …ědí by to bylo k tomu „ědí“) napíšeme do příslušného sloupce hodnotu „spojit“. Druhou věc, kterou musíme udělat, je samotná anotace těchto torzovitých slov. Zde pozor na to, že podle těch pravidel pro změnu tokenizace uvádíme tuto anotaci k prvnímu ze spojovaných tokenů (tj. u svat… k tomu „svat“, zatímco u …ědí k té trojtečce), naproti tomu u druhého ze spojovaných tokenů se neuvádí nic. Anotujeme přitom pouze dva rysy: UPOS a LEMMA. Jako UPOS uvádíme hodnotu X. Jako LEMMA uvádíme formu shodnou s tvarem torzovitého slova, a to včetně té trojtečky, lemma tedy může být např. svat… nebo …ědí.

Historie: • poskozene_texty

Pravidla pro anotaci poškozených textů

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence