Základním formátem pro anotovaná data v UD je formát CoNLL-U, což je v podstatě textový formát, ve kterém každý token má svůj řádek a na tomto řádku je deset tabulátorem oddělených sloupců s předepsanými hodnotami. Nebýt toho, že na začátku a konci věty jsou řádky, které neodpovídají žádnému tokenu a vypadají jinak, šlo by vlastně o velkou tabulku. Pro účely ruční anotace morfologie si tento formát ještě dále upravujeme, aby opravdu fungoval jako tabulka (ale s mnohem větším počtem sloupců) a bylo možné ho otevřít v tabulkových programech (např. LibreOffice Calc nebo Microsoft Excel). Po skončení anotace použijeme skript, kterým anotovaná data převedeme zpět do formátu CoNLL-U.
Momentálně platí, že upravené tabulkové soubory, připravené k anotaci, mají příponu .tsv
(„tab-separated values“); v budoucnosti možná budeme připravovat rovnou soubory ve formátu .xlsx
, ale zatím to neumíme. Anotátor si každopádně může po načtení souboru do Excelu uložit tento soubor jako .xlsx
, aby se mu uchovala další nastavení, třeba jím zvolená šířka sloupců. Až bude anotace hotová, Dan nebo Ondra z toho zase udělají soubor .tsv
, který půjde zpracovat skriptem a převést do požadovaného .conllu
.
Při načítání souboru .tsv
Excel zobrazí několik oken, ve kterých se zeptá na podrobnosti vstupního formátu. Snímky obrazovky níže ukazují, co v těchto oknech nastavit. Např. v prvním okně je třeba Excelu říct, že text používá kódování UTF-8, jinak budou české znaky zobrazeny špatně. Poslední okno naznačuje, že u všech sloupců chceme spíše formát Text než Obecný – tohle není úplně nezbytné a vzhledem k počtu sloupců, které máme, by bylo nepříjemné to pokaždé všude nastavovat; nicméně se to může občas hodit, kdyby v některé buňce tabulky bylo něco, co bude chtít Excel interpretovat třeba jako datum a obsah buňky nám pokazit.
Ani Excel, ani LibreOffice nebo jiný podobný program není ušitý na míru jako anotační nástroj. Proto je třeba vyvarovat se některých úkonů, které by nám znemožnily na konci data převzít a zpracovat skriptem. Co se tedy smí a co se nesmí?
Vstupní soubory obsahují několik prázdných sloupců, ve kterých lze předem stanoveným způsobem říct, že je potřeba opravit hranice vět nebo tokenů.
SpaceAfter=No
(Dan zařídí později skriptem).