Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:syn2015 [2015/12/18 18:52] – michalkren | cnk:syn2015 [2016/03/24 13:41] – [Poziční anotace a značkování] michalkren |
---|
==== Poziční anotace a značkování ==== | ==== Poziční anotace a značkování ==== |
| |
Oproti předchozím korpusům byla vylepšena [[pojmy:lemma|lemmatizace]] a [[pojmy:morfologicka_analyza|morfologické značkování]]; obojí je v zásadě shodné se zpracováním korpusu [[cnk:syn2013pub|SYN2013PUB]] (viz popis [[seznamy:tagy|tagsetu]]), pro SYN2015 byly nicméně použity novější verze všech nástrojů (vylepšení se týkají jak morfologického slovníku, tak pravidlové [[pojmy:desambiguace|disambiguace]]). | Oproti předchozím korpusům byla vylepšena [[pojmy:lemma|lemmatizace]] a [[pojmy:morfologicka_analyza|morfologické značkování]]; obojí je v zásadě shodné se zpracováním korpusu [[cnk:syn2013pub|SYN2013PUB]] (viz popis [[seznamy:tagy|tagsetu]]), pro SYN2015 byly nicméně použity novější verze všech nástrojů (vylepšení se týkají jak morfologického slovníku, tak pravidlové [[pojmy:desambiguace|disambiguace]]). Kromě toho se změnil způsob lemmatizace interpunkčních znamének: zatímco v předchozích korpusech byly sjednoceny různé způsoby zápisu uvozovek, apostrofů a byl také setřen rozdíl mezi spojovníkem a pomlčkou, v SYN2015 je již původní podoba těchto znaků v maximální možné míře zachována, a to v atributu [[pojmy:word|word]]; v atributu [[pojmy:lemma|lemma]] je pak uvedena sjednocená podoba, kterou je výhodné použít pro vyhledávání. |
| |
Vedle [[pojmy:morfologicka_analyza|morfologické anotace]] se v SYN2015 poprvé v korpusech řady SYN objevuje automatická [[pojmy:syntakticka_analyza|anotace syntaktická]]. Anotace vychází z koncepce Pražského závislostního korpusu ([[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]) a byla provedena stochastickým [[pojmy:parser|parserem]] TurboParser. Vzhledem k její experimentální povaze lze syntaktickou anotaci využívat jako rámcové vodítko k dalšímu jazykovému výzkumu, je však nutné počítat s tím, že není spolehlivá jako anotace morfologická. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. Anotace je zachycena pomocí několika pozičních atributů (viz [[seznamy:syntakticke_znacky|shrnutí]]): | Vedle [[pojmy:morfologicka_analyza|morfologické anotace]] se v SYN2015 poprvé v korpusech řady SYN objevuje automatická [[pojmy:syntakticka_analyza|anotace syntaktická]]. Anotace vychází z koncepce Pražského závislostního korpusu ([[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]) a byla provedena stochastickým [[pojmy:parser|parserem]] TurboParser. Vzhledem k její experimentální povaze lze syntaktickou anotaci využívat jako rámcové vodítko k dalšímu jazykovému výzkumu, je však nutné počítat s tím, že není spolehlivá jako anotace morfologická. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. Anotace je zachycena pomocí několika pozičních atributů (viz [[seznamy:syntakticke_znacky|shrnutí]]): |
| [[seznamy:txtype_group|txtype_group]] | skupina textových typů | | | | | | | | | [[seznamy:txtype_group|txtype_group]] | skupina textových typů | | | | | | | |
| [[seznamy:txtype|txtype]] | textový typ | | | | | | | | | [[seznamy:txtype|txtype]] | textový typ | | | | | | | |
| [[seznamy:genre_group|genre_group]] | skupina oborů/témat | | | | | | | | | [[seznamy:genre_group|genre_group]] | skupina oborů | | | | | | | |
| [[seznamy:genre|genre]] | žánr/oblast | | | | | | | | | [[seznamy:genre|genre]] | tematická oblast | | | | | | | |
| [[seznamy:med|medium]] | médium dokumentu | | | | | | | | | [[seznamy:med|medium]] | médium | | | | | | | |
| [[seznamy:periodicity|periodicity]] | periodicita | | | | | | | | | [[seznamy:periodicity|periodicity]] | periodicita | | | | | | | |
| [[seznamy:audience|audience]] | cílový adresát (obecný/dětský čtenář) | | | | | | | | | [[seznamy:audience|audience]] | adresát | | | | | | | |
| isbnissn | ISBN nebo ISSN | | | | | | | | | isbnissn | ISBN/ISSN | | | | | | | |
| biblio | generovaný bibliografický údaj | | | | | | | | | biblio | generovaný bibliografický údaj | | | | | | | |
| id | jednoznačný identifikátor | | | | | | | | | id | jednoznačný identifikátor | | | | | | | |