AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn:verze7 [2018/12/20 13:02] Michal Škrabalcnk:syn:verze7 [2022/08/29 17:23] (aktuální) – BatchEdit: pojmy>seznamy texty Václav Cvrček (admin)
Řádek 9: Řádek 9:
 ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  8 360 795 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  8 360 795 |
 ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] |  106 350 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] |  106 350 |
-^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] |  16 377 839 |+^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] |  16 377 839 |
 ^ ::: ^ Počet vět |  325 540 933 | ^ ::: ^ Počet vět |  325 540 933 |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |   ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |  
Řádek 16: Řádek 16:
 </WRAP> </WRAP>
  
-Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 7 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a [[cnk:syn2015|SYN2015]]; kromě nich je však jeho součástí také publicistika z let 2010–2016, která je již součástí korpusů [[cnk:syn:verze4|SYN verze 4]], [[cnk:syn:verze5|verze 5]] a [[cnk:syn:verze6|verze 6]], a také **dosud nezveřejněná publicistika z roku 2017** v objemu více než 265 mil. slov.+Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 7 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a [[cnk:syn2015|SYN2015]]; kromě nich je však jeho součástí také publicistika z let 2010–2016, která je již součástí korpusů [[cnk:syn:verze4|SYN verze 4]], [[cnk:syn:verze5|verze 5]] a [[cnk:syn:verze6|verze 6]], a také **dosud nezveřejněná publicistika z roku 2017** v objemu téměř 200 mil. slov.
  
 Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 7 dána součtem jejich velikostí, který činí 4,255 miliardy textových slov ([[[[pojmy:token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2017. Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 7 dána součtem jejich velikostí, který činí 4,255 miliardy textových slov ([[[[pojmy:token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2017.