AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn:verze4 [2016/09/15 13:44] – [Jak citovat SYN verze 4] michalkrencnk:syn:verze4 [2022/08/29 17:23] (aktuální) – BatchEdit: pojmy>seznamy texty cvrcek
Řádek 9: Řádek 9:
 ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  7 427 573 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  7 427 573 |
 ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] |  87 653 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] |  87 653 |
-^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] |  14 097 711 |+^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] |  14 097 711 |
 ^ ::: ^ Počet vět |  275 182 453 | ^ ::: ^ Počet vět |  275 182 453 |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |   ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |  
Řádek 16: Řádek 16:
 </WRAP> </WRAP>
  
-Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady [[cnk:syn|SYN]] zveřejněné do doby vzniku dané verze. Korpus SYN verze 4 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a [[cnk:syn2015|SYN2015]]; kromě nich je však jeho součástí také **dosud nezveřejněná publicistika převážně z let 2010–2014** v ročních objemech přesahujících 200 mil. slov.+Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:syn|SYN]]zveřejněné do doby vzniku dané verze. Korpus SYN verze 4 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a [[cnk:syn2015|SYN2015]]; kromě nich je však jeho součástí také **dosud nezveřejněná publicistika převážně z let 2010–2014** v ročních objemech přesahujících 200 mil. slov.
  
 Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 4 dána součtem jejich velikostí, který činí 3,626 miliardy textových slov ([[[[pojmy:token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2014. Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 4 dána součtem jejich velikostí, který činí 3,626 miliardy textových slov ([[[[pojmy:token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2014.
  
-Korpus SYN verze 4 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané lingvistické informace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<doc syn>'' rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 4 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v4<nowiki>"</nowiki>''.+Korpus SYN verze 4 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:atributy_strukturni|strukturní]] a [[pojmy:atributy_pozicni|poziční]] anotace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<doc syn>'' rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 4 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v4<nowiki>"</nowiki>''.
  
 ===== Složení korpusu SYN verze 4 ===== ===== Složení korpusu SYN verze 4 =====
Řádek 26: Řádek 26:
 ^ <fs medium>Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku</fs> ^^^^^^ ^ <fs medium>Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku</fs> ^^^^^^
 ^ korpus ^ velikost (počet slov) ^ [[pojmy:lemma|lemmatizace]] ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ [[pojmy:lemma|lemmatizace]] ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
-^ [[cnk:syn2015|SYN2015]] | 100 mil. |  ANO  |  ANO   2015  | reprezentativní korpus, převažují texty z let 2010–2014| +^ [[cnk:syn2015|SYN2015]] | 100 mil. |  ✓  |  ✓   2015  | reprezentativní korpus, převažují texty z let 2010–2014| 
-^ [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. |  ANO  |  ANO   2013  | korpus publicistických textů z let 2005-2009 | +^ [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. |  ✓  |  ✓   2013  | korpus publicistických textů z let 2005-2009 | 
-^ [[cnk:syn2010|SYN2010]] | 100 mil. |  ANO  |  ANO   2010  | reprezentativní korpus, převažují texty z let 2005–2009| +^ [[cnk:syn2010|SYN2010]] | 100 mil. |  ✓  |  ✓   2010  | reprezentativní korpus, převažují texty z let 2005–2009| 
-^ [[cnk:syn2009PUB|SYN2009PUB]] | 700 mil. |  ANO  |  ANO   2010  | korpus publicistických textů z let 1995–2007 | +^ [[cnk:syn2009PUB|SYN2009PUB]] | 700 mil. |  ✓  |  ✓   2010  | korpus publicistických textů z let 1995–2007 | 
-^ [[cnk:syn2006PUB|SYN2006PUB]] | 300 mil. |  ANO  |  ANO   2006  | korpus publicistických textů z let 1989–2004| +^ [[cnk:syn2006PUB|SYN2006PUB]] | 300 mil. |  ✓  |  ✓   2006  | korpus publicistických textů z let 1989–2004| 
-^ [[cnk:syn2005|SYN2005]] | 100 mil. |  ANO  |  ANO   2005  | reprezentativní korpus, převažují texty z let 2000–2004| +^ [[cnk:syn2005|SYN2005]] | 100 mil. |  ✓  |  ✓   2005  | reprezentativní korpus, převažují texty z let 2000–2004| 
-^ [[cnk:syn2000|SYN2000]] | 100 mil. |  ANO  |  ANO   2000  | reprezentativní korpus, převažují texty z let 1990–1999|+^ [[cnk:syn2000|SYN2000]] | 100 mil. |  ✓  |  ✓   2000  | reprezentativní korpus, převažují texty z let 1990–1999|
  
 ==== Publicistika v SYN verze 4 ==== ==== Publicistika v SYN verze 4 ====
Řádek 54: Řádek 54:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: Korpus SYN, verze 4 z 16. 9. 2016. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupný z WWW: http://www.korpus.cz+Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: //Korpus SYN, verze 4 z 16. 9. 2016//. Ústav Českého národního korpusu FF UK, Praha 2016. Dostupný z WWW: http://www.korpus.cz