Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:syn:verze7 [2018/12/20 13:02] – michalskrabal | cnk:syn:verze7 [2022/08/29 17:23] (aktuální) – BatchEdit: pojmy>seznamy texty cvrcek |
---|
^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 8 360 795 | | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 8 360 795 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] | 106 350 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] | 106 350 | |
^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] | 16 377 839 | | ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] | 16 377 839 | |
^ ::: ^ Počet vět | 325 540 933 | | ^ ::: ^ Počet vět | 325 540 933 | |
^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | | ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | |
</WRAP> | </WRAP> |
| |
Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 7 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a [[cnk:syn2015|SYN2015]]; kromě nich je však jeho součástí také publicistika z let 2010–2016, která je již součástí korpusů [[cnk:syn:verze4|SYN verze 4]], [[cnk:syn:verze5|verze 5]] a [[cnk:syn:verze6|verze 6]], a také **dosud nezveřejněná publicistika z roku 2017** v objemu více než 265 mil. slov. | Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 7 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a [[cnk:syn2015|SYN2015]]; kromě nich je však jeho součástí také publicistika z let 2010–2016, která je již součástí korpusů [[cnk:syn:verze4|SYN verze 4]], [[cnk:syn:verze5|verze 5]] a [[cnk:syn:verze6|verze 6]], a také **dosud nezveřejněná publicistika z roku 2017** v objemu téměř 200 mil. slov. |
| |
Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 7 dána součtem jejich velikostí, který činí 4,255 miliardy textových slov ([[[[pojmy:token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2017. | Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 7 dána součtem jejich velikostí, který činí 4,255 miliardy textových slov ([[[[pojmy:token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2017. |