AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revisionBoth sides next revision
en:cnk:syn2015 [2016/12/11 10:35] – [Poziční anotace a značkování] veronikapojarovaen:cnk:syn2015 [2016/12/11 10:36] – [Struktura korpusu a strukturní značky] veronikapojarova
Line 90: Line 90:
 Compared to previous versions there have been improvements in [[en:pojmy:lemma|lemmatization]] and [[en:pojmy:morfologicka_analyza|morphological tagging]]; both are almost identical to the processes used for the corpus [[en:cnk:syn2013pub|SYN2013PUB]], nonetheless SYN2015 was processed using the newest versions of all the tools (the improvements relate both to the morphological dictionary and to the rule-based [[en:pojmy:desambiguace|disambiguation]]). Furthermore, the lemmatization of punctuation marks has changed, preserving the form of the characters as much as possible.  Compared to previous versions there have been improvements in [[en:pojmy:lemma|lemmatization]] and [[en:pojmy:morfologicka_analyza|morphological tagging]]; both are almost identical to the processes used for the corpus [[en:cnk:syn2013pub|SYN2013PUB]], nonetheless SYN2015 was processed using the newest versions of all the tools (the improvements relate both to the morphological dictionary and to the rule-based [[en:pojmy:desambiguace|disambiguation]]). Furthermore, the lemmatization of punctuation marks has changed, preserving the form of the characters as much as possible. 
  
-==== Struktura korpusu a strukturní značky ==== 
- 
-Struktura předchozích korpusů řady SYN se většinou řídila hierarchií ''<opus>'' – ''<doc>'' – ''<s>'' (tj. ucelený text nebo soubor textů – oddíl nebo kapitola – věta). V korpusu SYN2015 je tato hierarchie změněna a doplněna. Nejvyšší [[pojmy:atributy_strukturni|strukturní jednotkou]] je ve shodě s mezinárodní konvencí dokument ''<doc>'', který se skládá z jednoho nebo několika textů ''<text>'' (články v periodiku, kapitoly v knize nebo jiné smysluplné úseky). Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce. Kromě těchto hierarchických struktur jsou v korpusu zaznamenány také struktury ''<hi>'' (zvýraznění a řezy písma) a ''<lb>'' (označení hranice verše v poezii). 
- 
-^ ''<doc>'' ^ Poznámka ^ ''<text>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^ 
-| title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky (u vybraných periodik) | type | běžný odstavec/nadpis | id | unique identifier | 
-| subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky (u vybraných periodik) | id | jednoznačný identifikátor |  |  | 
-| author | autor dokumentu | author | autor článku (u vybraných periodik) |  |  |  |  | 
-| issue | vydání (u periodik) | id | unique identifier |  |  |  |  | 
-| publisher | vydavatel |  |  |  |  |  |  | 
-| pubplace | place of publishing |  |  |  |  |  |  | 
-| pubyear | year published |  |  |  |  |  |  | 
-| first_published | year of 1st publication |  |  |  |  |  |  | 
-| translator | překladatel |  |  |  |  |  |  | 
-| [[seznamy:srclang|srclang]] | zdrojový jazyk |  |  |  |  |  |  | 
-| [[seznamy:authsex-transsex|authsex]] | pohlaví autora |  |  |  |  |  |  | 
-| [[seznamy:authsex-transsex|transsex]] | pohlaví překladatele |  |  |  |  |  |  | 
-| [[seznamy:txtype_group|txtype_group]] | skupina textových typů |  |  |  |  |  |  | 
-| [[seznamy:txtype|txtype]] | textový typ |  |  |  |  |  |  | 
-| [[seznamy:genre_group|genre_group]] | skupina oborů |  |  |  |  |  |  | 
-| [[seznamy:genre|genre]] | tematická oblast |  |  |  |  |  |  | 
-| [[seznamy:med|medium]] | médium |  |  |  |  |  |  | 
-| [[seznamy:periodicity|periodicity]] | periodicita |  |  |  |  |  |  | 
-| [[seznamy:audience|audience]] | adresát |  |  |  |  |  |  | 
-| isbnissn | ISBN/ISSN |  |  |  |  |  |  | 
-| biblio | generovaný bibliografický údaj |  |  |  |  |  |  | 
-| id | jednoznačný identifikátor |  |  |  |  |  |  | 
  
 ====== How to cite SYN2015 ====== ====== How to cite SYN2015 ======