AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revisionBoth sides next revision
en:cnk:syn2015 [2016/12/11 10:13] – [Concept of synchronicity] veronikapojarovaen:cnk:syn2015 [2016/12/11 10:35] – [Poziční anotace a značkování] veronikapojarova
Line 86: Line 86:
  [{{:en:cnk:roky-en.png?direct&600|Proportion of fiction, non-fiction, newspapers and magazines in each year}}]  [{{:en:cnk:roky-en.png?direct&600|Proportion of fiction, non-fiction, newspapers and magazines in each year}}]
  
-==== Poziční anotace a značkování ====+==== Positional annotation and tagging ====
  
-Oproti předchozím korpusům byla vylepšena [[pojmy:lemma|lemmatizace]] [[pojmy:morfologicka_analyza|morfologické značkování]]; obojí je v zásadě shodné se zpracováním korpusu [[cnk:syn2013pub|SYN2013PUB]] (viz popis [[seznamy:tagy|tagsetu]])pro SYN2015 byly nicméně použity novější verze všech nástrojů (vylepšení se týkají jak morfologického slovníku, tak pravidlové [[pojmy:desambiguace|disambiguace]]). Kromě toho se změnil způsob lemmatizace interpunkčních znamének: zatímco v předchozích korpusech byly sjednoceny různé způsoby zápisu uvozovek, apostrofů a byl také setřen rozdíl mezi spojovníkem a pomlčkou, v SYN2015 je již původní podoba těchto znaků v maximální možné míře zachována, a to v atributu [[pojmy:word|word]]; v atributu [[pojmy:lemma|lemma]] je pak uvedena sjednocená podoba, kterou je výhodné použít pro vyhledávání. +Compared to previous versions there have been improvements in [[en:pojmy:lemma|lemmatization]] and [[en:pojmy:morfologicka_analyza|morphological tagging]]; both are almost identical to the processes used for the corpus [[en:cnk:syn2013pub|SYN2013PUB]], nonetheless SYN2015 was processed using the newest versions of all the tools (the improvements relate both to the morphological dictionary and to the rule-based [[en:pojmy:desambiguace|disambiguation]]). Furthermorethe lemmatization of punctuation marks has changedpreserving the form of the characters as much as possible
- +
-Vedle [[pojmy:morfologicka_analyza|morfologické anotace]] se v SYN2015 poprvé v korpusech řady SYN objevuje automatická [[pojmy:syntakticka_analyza|anotace syntaktická]]. Anotace vychází z koncepce Pražského závislostního korpusu ([[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]) a byla provedena stochastickým [[pojmy:parser|parserem]] TurboParserVzhledem k její experimentální povaze lze syntaktickou anotaci využívat jako rámcové vodítko k dalšímu jazykovému výzkumuje však nutné počítat s tímže není spolehlivá jako anotace morfologickáChybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. Anotace je zachycena pomocí několika pozičních atributů (viz [[seznamy:syntakticke_znacky|shrnutí]]): +
-  * [[seznamy:afun|afun]] – syntaktická funkce podle analytické roviny PDT +
-  * [[seznamy:parent|parent]], [[seznamy:eparent|eparent]] – relativní pozice tokenu, na němž je daný token závislý +
-  * [[seznamy:prep|prep]] – u jmen řízených předložkou uvádí lemma předložky +
-  * [[seznamy:p_tag|p_lemma, p_tag, ep_lemma, ep_tag]] – tag a lemma řídícího tokenu +
-  * [[seznamy:afun|p_afun, ep_afun]] – syntaktická funkce řídícího tokenu +
- +
-Kromě těchto značek má korpus SYN2015 nově několik dalších [[pojmy:atributy_pozicni|pozičních atributů]]: +
-  * [[seznamy:proc|proc]] - informace o typu nástroje, který je zodpovědný za konečnou [[pojmy:desambiguace|disambiguaci]] tvaru +
-  * lemma_lc - hodnota atributu ''[[pojmy:lemma|lemma]]'' převedená na malá písmena (analogicky ke vztahu atributů [[pojmy:lc|lc]] a [[pojmy:word|word]])+
  
 ==== Struktura korpusu a strukturní značky ==== ==== Struktura korpusu a strukturní značky ====