| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
| cnk:syn:verze14 [2026/01/23 09:04] – [Publicistika v SYN verze 14] michalkren | cnk:syn:verze14 [2026/01/23 12:14] (aktuální) – [Struktura a anotace korpusu SYN verze 14] krivan |
|---|
| <WRAP right 35%> | <WRAP right 35%> |
| ^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 14</fs> ^ | ^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 14</fs> ^ |
| ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 6 400 899 055 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 6 616 455 821 | |
| ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 5 310 635 949 | | ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 5 488 909 099 | |
| ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 11 522 926 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 11 855 023 | |
| ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 7 655 932 | | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 7 869 983 | |
| ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] | 151 076 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] | 158 764 | |
| ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] | 19 363 730 | | ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] | 19 682 164 | |
| ^ ::: ^ Počet vět | 408 749 819 | | ^ ::: ^ Počet vět | 422 269 782 | |
| ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | | ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | |
| ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE (převažuje [[seznamy:txtype|publicistika]]) | | ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE (převažuje [[seznamy:txtype|publicistika]]) | |
| ^ ::: ^ Rok zveřejnění | 2024 | | ^ ::: ^ Rok zveřejnění | 2025 | |
| </WRAP> | </WRAP> |
| |
| ====== Struktura a anotace korpusu SYN verze 14 ====== | ====== Struktura a anotace korpusu SYN verze 14 ====== |
| |
| [[pojmy:atributy_strukturni|Strukturace]] a [[pojmy:anotace|anotace]] textů vycházejí ze SYN2025. [[cnk:syn2025#struktura_korpusu_syn2025_a_strukturni_znacky|Hierarchie strukturních značek]] korpusu SYN verze 14 je tedy shodná se SYN2025, stejně tak odpovídají korpusu SYN2025 také [[cnk:syn2025#anotace_syn2025zmeny_oproti_ostatnim_korpusum_rady_syn|lemmatizace a morfologické značkování]]. SYN verze 14 je tedy v tomto ohledu stejný jako jeho předchůdce, korpus [[cnk:syn:verze13|SYN verze 13]]. | [[pojmy:atributy_strukturni|Strukturace]] a [[pojmy:anotace|anotace]] textů vycházejí ze SYN2025. [[cnk:syn2025#struktura_korpusu_syn2025_a_strukturni_znacky|Hierarchie strukturních značek]] korpusu SYN verze 14 je shodná se SYN2025. Morfologické značkování, lemmatizace a tokenizace korpusu probíhá plně automaticky podle [[cnk:anotacni_standard_cnk|anotačního standardu ČNK]]. SYN verze 14 je v tomto ohledu stejný jako jeho předchůdce, korpus [[cnk:syn:verze13|SYN verze 13]]. |
| |
| Shoda struktury a anotace SYN verze 14 se [[cnk:syn2025|SYN2025]] má pouze tyto výjimky: | Shoda struktury a anotace SYN verze 14 se [[cnk:syn2025|SYN2025]] má pouze tyto výjimky: |
| |
| * podobně jako v jiných korpusech řady SYN přibyl i v korpusu SYN verze 14 atribut ''<doc syn>'' pro [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|vytváření subkorpusů odpovídajících původním referenčním korpusům]]; | * podobně jako v jiných korpusech řady SYN přibyl i v korpusu SYN verze 14 atribut ''<doc syn>'' pro [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|vytváření subkorpusů odpovídajících původním referenčním korpusům]]; |
| * [[pojmy:syntakticka_analyza|syntaktická anotace]] korpusu SYN2025 byla pro SYN verze 14 nahrazena zcela novou **[[seznamy:frazemy|anotací víceslovných jednotek]]**. | * [[pojmy:syntakticka_analyza|syntaktická anotace]] korpusu SYN2025 byla pro SYN verze 14 nahrazena (ve srovnání se SYN v13) **zcela novou [[seznamy:mwe|anotací víceslovných jednotek]]**. |
| |
| ====== Jak citovat SYN verze 14 ====== | ====== Jak citovat SYN verze 14 ====== |