Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Poslední revize Obě strany příští revize
cnk:syn:verze7 [2018/12/20 12:40]
Michal Škrabal [Jak citovat SYN verze 7]
cnk:syn:verze7 [2018/12/20 13:02]
Michal Škrabal
Řádek 5: Řádek 5:
 ^ <fs medium>​Název</​fs>​ ^^ <fs medium>​SYN verze 7</​fs>​ ^ ^ <fs medium>​Název</​fs>​ ^^ <fs medium>​SYN verze 7</​fs>​ ^
 ^ [[pojmy:​atributy_pozicni|Pozice]] ^ Počet [[pojmy:​token|pozic (tokenů)]] |  5 100 437 261 |  ​ ^ [[pojmy:​atributy_pozicni|Pozice]] ^ Počet [[pojmy:​token|pozic (tokenů)]] |  5 100 437 261 |  ​
-^ ::: ^ Počet [[pojmy:​token|pozic (tokenů) bez interpunkce ]] |  4 033 268 842 |  ​+^ ::: ^ Počet [[pojmy:​token|pozic (tokenů) bez interpunkce ]] |  4 255 216 412 |  ​
 ^ ::: ^ Počet [[pojmy:​word|slovních tvarů (wordů)]] |  11 632 632 |  ​ ^ ::: ^ Počet [[pojmy:​word|slovních tvarů (wordů)]] |  11 632 632 |  ​
 ^ ::: ^ Počet [[pojmy:​lemma|lemmat]] |  8 360 795 | ^ ::: ^ Počet [[pojmy:​lemma|lemmat]] |  8 360 795 |
Řádek 18: Řádek 18:
 Každý **korpus SYN** obsahuje vždy všechny [[pojmy:​synchronni|synchronní]] [[pojmy:​psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:​syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 7 tedy zahrnuje korpusy [[cnk:​syn2000|SYN2000]],​ [[cnk:​syn2005|SYN2005]],​ [[cnk:​syn2006pub|SYN2006PUB]],​ [[cnk:​syn2009pub|SYN2009PUB]],​ [[cnk:​syn2010|SYN2010]],​ [[cnk:​syn2013pub|SYN2013PUB]] a [[cnk:​syn2015|SYN2015]];​ kromě nich je však jeho součástí také publicistika z let 2010–2016,​ která je již součástí korpusů [[cnk:​syn:​verze4|SYN verze 4]], [[cnk:​syn:​verze5|verze 5]] a [[cnk:​syn:​verze6|verze 6]], a také **dosud nezveřejněná publicistika z roku 2017** v objemu více než 265 mil. slov. Každý **korpus SYN** obsahuje vždy všechny [[pojmy:​synchronni|synchronní]] [[pojmy:​psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:​syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 7 tedy zahrnuje korpusy [[cnk:​syn2000|SYN2000]],​ [[cnk:​syn2005|SYN2005]],​ [[cnk:​syn2006pub|SYN2006PUB]],​ [[cnk:​syn2009pub|SYN2009PUB]],​ [[cnk:​syn2010|SYN2010]],​ [[cnk:​syn2013pub|SYN2013PUB]] a [[cnk:​syn2015|SYN2015]];​ kromě nich je však jeho součástí také publicistika z let 2010–2016,​ která je již součástí korpusů [[cnk:​syn:​verze4|SYN verze 4]], [[cnk:​syn:​verze5|verze 5]] a [[cnk:​syn:​verze6|verze 6]], a také **dosud nezveřejněná publicistika z roku 2017** v objemu více než 265 mil. slov.
  
-Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 7 dána součtem jejich velikostí, který činí 4,033 miliardy textových slov ([[[[pojmy:​token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:​reprezentativnost|reprezentativní]];​ v jeho složení dominuje publicistika,​ což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:​syn2006pub|SYN2006PUB]],​ [[cnk:​syn2009pub|SYN2009PUB]],​ [[cnk:​syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2017.+Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 7 dána součtem jejich velikostí, který činí 4,255 miliardy textových slov ([[[[pojmy:​token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:​reprezentativnost|reprezentativní]];​ v jeho složení dominuje publicistika,​ což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:​syn2006pub|SYN2006PUB]],​ [[cnk:​syn2009pub|SYN2009PUB]],​ [[cnk:​syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2017.
  
 Korpus SYN verze 7 je [[pojmy:​referencni|referenční]],​ a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:​atributy_strukturni|strukturní]] a [[pojmy:​atributy_pozicni|poziční]] anotace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<​doc syn>''​ rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:​subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 7 [[manualy:​kontext:​subkorpus#​vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''​syn=<​nowiki>"</​nowiki>​v7<​nowiki>"</​nowiki>''​. Korpus SYN verze 7 je [[pojmy:​referencni|referenční]],​ a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:​atributy_strukturni|strukturní]] a [[pojmy:​atributy_pozicni|poziční]] anotace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<​doc syn>''​ rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:​subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 7 [[manualy:​kontext:​subkorpus#​vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''​syn=<​nowiki>"</​nowiki>​v7<​nowiki>"</​nowiki>''​.