AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
cnk:syn2015 [2015/12/18 18:52] michalkrencnk:syn2015 [2016/03/24 13:38] – [Poziční anotace a značkování] michalkren
Řádek 62: Řádek 62:
 ==== Poziční anotace a značkování ==== ==== Poziční anotace a značkování ====
  
-Oproti předchozím korpusům byla vylepšena [[pojmy:lemma|lemmatizace]] a [[pojmy:morfologicka_analyza|morfologické značkování]]; obojí je v zásadě shodné se zpracováním korpusu [[cnk:syn2013pub|SYN2013PUB]] (viz popis [[seznamy:tagy|tagsetu]]), pro SYN2015 byly nicméně použity novější verze všech nástrojů (vylepšení se týkají jak morfologického slovníku, tak pravidlové [[pojmy:desambiguace|disambiguace]]).+Oproti předchozím korpusům byla vylepšena [[pojmy:lemma|lemmatizace]] a [[pojmy:morfologicka_analyza|morfologické značkování]]; obojí je v zásadě shodné se zpracováním korpusu [[cnk:syn2013pub|SYN2013PUB]] (viz popis [[seznamy:tagy|tagsetu]]), pro SYN2015 byly nicméně použity novější verze všech nástrojů (vylepšení se týkají jak morfologického slovníku, tak pravidlové [[pojmy:desambiguace|disambiguace]]). Kromě toho se změnil způsob lemmatizace interpunkčních znamének: zatímco v předchozích korpusech byly sjednoceny různé způsoby zápisu uvozovek, apostrofů a byl také setřen rozdíl mezi spojovníkem a pomlčkou, v SYN2015 je již původní podoba těchto znaků zachována, a to v atributu [[pojmy:word|word]]; v atributu [[pojmy:lemma|lemma]] je pak uvedena sjednocená podoba, kterou je výhodné použít pro vyhledávání.
  
 Vedle [[pojmy:morfologicka_analyza|morfologické anotace]] se v SYN2015 poprvé v korpusech řady SYN objevuje automatická [[pojmy:syntakticka_analyza|anotace syntaktická]]. Anotace vychází z koncepce Pražského závislostního korpusu ([[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]) a byla provedena stochastickým [[pojmy:parser|parserem]] TurboParser. Vzhledem k její experimentální povaze lze syntaktickou anotaci využívat jako rámcové vodítko k dalšímu jazykovému výzkumu, je však nutné počítat s tím, že není spolehlivá jako anotace morfologická. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. Anotace je zachycena pomocí několika pozičních atributů (viz [[seznamy:syntakticke_znacky|shrnutí]]): Vedle [[pojmy:morfologicka_analyza|morfologické anotace]] se v SYN2015 poprvé v korpusech řady SYN objevuje automatická [[pojmy:syntakticka_analyza|anotace syntaktická]]. Anotace vychází z koncepce Pražského závislostního korpusu ([[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]) a byla provedena stochastickým [[pojmy:parser|parserem]] TurboParser. Vzhledem k její experimentální povaze lze syntaktickou anotaci využívat jako rámcové vodítko k dalšímu jazykovému výzkumu, je však nutné počítat s tím, že není spolehlivá jako anotace morfologická. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. Anotace je zachycena pomocí několika pozičních atributů (viz [[seznamy:syntakticke_znacky|shrnutí]]):
Řádek 94: Řádek 94:
 | [[seznamy:txtype_group|txtype_group]] | skupina textových typů |  |  |  |  |  |  | | [[seznamy:txtype_group|txtype_group]] | skupina textových typů |  |  |  |  |  |  |
 | [[seznamy:txtype|txtype]] | textový typ |  |  |  |  |  |  | | [[seznamy:txtype|txtype]] | textový typ |  |  |  |  |  |  |
-| [[seznamy:genre_group|genre_group]] | skupina oborů/témat |  |  |  |  |  |  | +| [[seznamy:genre_group|genre_group]] | skupina oborů |  |  |  |  |  |  | 
-| [[seznamy:genre|genre]] | žánr/oblast |  |  |  |  |  |  | +| [[seznamy:genre|genre]] | tematická oblast |  |  |  |  |  |  | 
-| [[seznamy:med|medium]] | médium dokumentu |  |  |  |  |  |  |+| [[seznamy:med|medium]] | médium |  |  |  |  |  |  |
 | [[seznamy:periodicity|periodicity]] | periodicita |  |  |  |  |  |  | | [[seznamy:periodicity|periodicity]] | periodicita |  |  |  |  |  |  |
-| [[seznamy:audience|audience]] | cílový adresát (obecný/dětský čtenář) |  |  |  |  |  |  | +| [[seznamy:audience|audience]] | adresát |  |  |  |  |  |  | 
-| isbnissn | ISBN nebo ISSN |  |  |  |  |  |  |+| isbnissn | ISBN/ISSN |  |  |  |  |  |  |
 | biblio | generovaný bibliografický údaj |  |  |  |  |  |  | | biblio | generovaný bibliografický údaj |  |  |  |  |  |  |
 | id | jednoznačný identifikátor |  |  |  |  |  |  | | id | jednoznačný identifikátor |  |  |  |  |  |  |