| 2 776 291 |
^ ::: ^ Počet vět | 7 725 939 |
^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO |
^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | ANO (viz [[cnk:klasifikace_textu_syn2015|klasifikace textů]]) |
^ ::: ^ Rok zveřejnění | 2025 |
'' a vět '' '' ^ Poznámka ^'' ''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.
^ '''' ^ Poznámka ^
| title | název dokumentu nebo periodika | [[seznamy:section|section]] | generovaný typ rubriky (u vybraných periodik) | id | jednoznačný identifikátor | id | jednoznačný identifikátor |
| subtitle | podtitul | [[seznamy:section|section_orig]] | původní název rubriky (u vybraných periodik) |
| author | autor dokumentu | author | autor článku (u vybraných periodik) | | | | |
| issue | vydání (u periodik) | id | jednoznačný identifikátor | | | | |
| publisher | vydavatel | | | | | | |
| pubplace | místo vydání | | | | | | |
| pubyear | rok vydání | | | | | | |
| first_published | rok 1. vydání | | | | | | |
| translator | překladatel | | | | | | |
| [[seznamy:srclang|srclang]] | zdrojový jazyk | | | | | | |
| [[seznamy:authsex-transsex|authsex]] | pohlaví autora | | | | | | |
| [[seznamy:authsex-transsex|transsex]] | pohlaví překladatele | | | | | | |
| [[seznamy:txtype_group|txtype_group]] | skupina textových typů | | | | | | |
| [[seznamy:txtype|txtype]] | textový typ | | | | | | |
| [[seznamy:genre_group|genre_group]] | skupina oborů | | | | | | |
| [[seznamy:genre|genre]] | tematická oblast | | | | | | |
| [[seznamy:med|medium]] | médium | | | | | | |
| [[seznamy:periodicity|periodicity]] | periodicita | | | | | | |
| [[seznamy:audience|audience]] | adresát | | | | | | |
| isbnissn | ISBN/ISSN | | | | | | |
| biblio | generovaný bibliografický údaj | | | | | | |
| id | jednoznačný identifikátor | | | | | | |
Kromě výše uvedených hierarchických struktur jsou v korpusu zaznamenány také následující struktury:
* '''': zvýraznění a řezy písma (pouze tam, kde byly zachyceny ve vstupním formátu);
* '' '': označení hranice verše v poezii;
* ''
''; ten odlišuje nadpis (''
'') od běžného textu (''
'').
===== Anotace SYN2025 =====
Morfologické značkování, lemmatizace a tokenizace korpusu SYN2025 probíhá plně automaticky podle [[cnk:anotacni_standard_cnk|anotačního standardu ČNK]], který byl aplikován již na korpus SYN2020. Tokenům jsou přiřazeny [[pojmy:atributy_pozicni|poziční atributy]]: [[pojmy:lemma|lemma]] a sublemma, [[pojmy:tag|tag]], [[pojmy:verbtag|verbtag]], pos a case.\\
Kromě toho je korpus SYN2025 (stejně jako korpus SYN2020) opatřen [[pojmy:syntakticka_analyza|syntaktickým značkováním]] s řadou [[pojmy:atributy_pozicni|pozičních atributů]] přiřazených tokenům, např. [[seznamy:parent|parent]], [[seznamy:afun|afun]], [[seznamy:p_tag|p_tag]] (viz [[seznamy:syntakticke_znacky]]).
====== Jak citovat SYN2025 ======