Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
cnk:syn:verze7 [2018/12/20 13:02]
Michal Škrabal
cnk:syn:verze7 [2018/12/20 13:44] (aktuální)
Michal Křen [Korpus SYN verze 7]
Řádek 16: Řádek 16:
 </​WRAP>​ </​WRAP>​
  
-Každý **korpus SYN** obsahuje vždy všechny [[pojmy:​synchronni|synchronní]] [[pojmy:​psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:​syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 7 tedy zahrnuje korpusy [[cnk:​syn2000|SYN2000]],​ [[cnk:​syn2005|SYN2005]],​ [[cnk:​syn2006pub|SYN2006PUB]],​ [[cnk:​syn2009pub|SYN2009PUB]],​ [[cnk:​syn2010|SYN2010]],​ [[cnk:​syn2013pub|SYN2013PUB]] a [[cnk:​syn2015|SYN2015]];​ kromě nich je však jeho součástí také publicistika z let 2010–2016,​ která je již součástí korpusů [[cnk:​syn:​verze4|SYN verze 4]], [[cnk:​syn:​verze5|verze 5]] a [[cnk:​syn:​verze6|verze 6]], a také **dosud nezveřejněná publicistika z roku 2017** v objemu ​více než 265 mil. slov.+Každý **korpus SYN** obsahuje vždy všechny [[pojmy:​synchronni|synchronní]] [[pojmy:​psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:​syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 7 tedy zahrnuje korpusy [[cnk:​syn2000|SYN2000]],​ [[cnk:​syn2005|SYN2005]],​ [[cnk:​syn2006pub|SYN2006PUB]],​ [[cnk:​syn2009pub|SYN2009PUB]],​ [[cnk:​syn2010|SYN2010]],​ [[cnk:​syn2013pub|SYN2013PUB]] a [[cnk:​syn2015|SYN2015]];​ kromě nich je však jeho součástí také publicistika z let 2010–2016,​ která je již součástí korpusů [[cnk:​syn:​verze4|SYN verze 4]], [[cnk:​syn:​verze5|verze 5]] a [[cnk:​syn:​verze6|verze 6]], a také **dosud nezveřejněná publicistika z roku 2017** v objemu ​téměř 200 mil. slov.
  
 Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 7 dána součtem jejich velikostí, který činí 4,255 miliardy textových slov ([[[[pojmy:​token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:​reprezentativnost|reprezentativní]];​ v jeho složení dominuje publicistika,​ což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:​syn2006pub|SYN2006PUB]],​ [[cnk:​syn2009pub|SYN2009PUB]],​ [[cnk:​syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2017. Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 7 dána součtem jejich velikostí, který činí 4,255 miliardy textových slov ([[[[pojmy:​token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:​reprezentativnost|reprezentativní]];​ v jeho složení dominuje publicistika,​ což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:​syn2006pub|SYN2006PUB]],​ [[cnk:​syn2009pub|SYN2009PUB]],​ [[cnk:​syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2017.