Korpusová metadata

Korpusová metadata jsou standardizované, strukturované informace doplňující vlastní text korpusu údaji o jeho obsahu, původu nebo lingvistické interpretaci. Metadata, která jsou běžnou součástí struktury korpusu, jsou obohacením textu a zvyšují možnosti využití korpusových dat.

Metadata mohou mít různou povahu podle úrovně, k níž se vztahují: k celému korpusu, ke konkrétnímu textu, k jeho části nebo k jednotlivému slovnímu tvaru. Na úrovni celých textů jde např. o bibliografické údaje, označení žánru a původu textu, údaje o nahrávce, licenci nebo záznam toho, jakými verzemi kterých nástrojů byl text zpracován.

Veškeré zásahy (změny nebo vypuštění částí textu), k nimž v průběhu zpracování došlo, lze také zaznamenávat na konkrétní místa v textu tak, aby byla rekonstruovatelná jeho původní podoba. Pomocí metadat lze text členit na menší celky (segmentace), strukturovat ho (parsing), přidávat anotaci konkrétních jednotek (výsledky lemmatizace a tagování), tyto jednotky sdružovat (označení víceslovných jednotek) aj.

Metadata lze ukládat různým způsobem, nejběžnější je vkládání přímo do textů, zpravidla ve formě XML. Další možností je ukládat metadata odděleně od vlastního textu ve zvláštním souboru, z něhož pak na konkrétní místa v textu vedou odkazy (stand-off markup). Tento druhý způsob umožňuje anotovat týž text několika různými, navzájem nezávislými způsoby, práce s ním je však náročnější.

Související odkazy

Anotace • Segmentace • Strukturní atributy • Struktura korpusu • Parsing