Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:syn:verze6 [2017/12/08 16:33] – [Související odkazy] michalskrabal | cnk:syn:verze6 [2017/12/18 18:46] – [Jak citovat SYN verze 6] michalkren |
---|
^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 6</fs> ^ | ^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 6</fs> ^ |
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 4 834 739 998 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 4 834 739 998 | |
<wrap hi>^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 3 836 208 873 |</wrap> | ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 4 033 268 842 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 11 266 270 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 11 266 270 | |
^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 8 056 403 | | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 8 056 403 | |
</WRAP> | </WRAP> |
| |
Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 6 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a [[cnk:syn2015|SYN2015]]; kromě nich je však jeho součástí také publicistika z let 2010–2015, která je již součástí korpusů [[cnk:syn:verze4|SYN verze 4]] a [[cnk:syn:verze5|verze 5]], a také **dosud nezveřejněná publicistika z roku 2016** v objemu<wrap hi> přesahujícím 200 mil. slov</wrap>. | Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 6 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a [[cnk:syn2015|SYN2015]]; kromě nich je však jeho součástí také publicistika z let 2010–2015, která je již součástí korpusů [[cnk:syn:verze4|SYN verze 4]] a [[cnk:syn:verze5|verze 5]], a také **dosud nezveřejněná publicistika z roku 2016** v objemu téměř 200 mil. slov. |
| |
Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 6 dána součtem jejich velikostí, který činí <wrap hi>3,836 miliardy</wrap> textových slov ([[[[pojmy:token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2016. | Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 6 dána součtem jejich velikostí, který činí 4,033 miliardy textových slov ([[[[pojmy:token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2016. |
| |
Korpus SYN verze 6 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:atributy_strukturni|strukturní]] a [[pojmy:atributy_pozicni|poziční]] anotace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<doc syn>'' rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 6 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v6<nowiki>"</nowiki>''. | Korpus SYN verze 6 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:atributy_strukturni|strukturní]] a [[pojmy:atributy_pozicni|poziční]] anotace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<doc syn>'' rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 6 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v6<nowiki>"</nowiki>''. |
Složení publicistické části korpusu SYN verze 6 pokrývá produkci hlavních celostátních deníků (//Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport//), regionálních deníků (především //Deníky Bohemia// a //Moravia// z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (//Reflex, Respekt, Týden//) v letech 1998--2016; celkový počet publicistických titulů je 176. Následující grafy ukazují složení korpusu SYN podle [[pojmy:txtype_group|hlavních textových typů]] v jednotlivých letech a nabízejí bližší pohled na složení publicistické části. | Složení publicistické části korpusu SYN verze 6 pokrývá produkci hlavních celostátních deníků (//Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport//), regionálních deníků (především //Deníky Bohemia// a //Moravia// z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (//Reflex, Respekt, Týden//) v letech 1998--2016; celkový počet publicistických titulů je 176. Následující grafy ukazují složení korpusu SYN podle [[pojmy:txtype_group|hlavních textových typů]] v jednotlivých letech a nabízejí bližší pohled na složení publicistické části. |
| |
[{{:cnk:slozeni_syn_v5.png?400|Složení korpusu SYN verze 5}}] | [{{:cnk:slozeni_syn_v6.png?400|Složení korpusu SYN verze 6}}] |
| |
[{{:cnk:slozeni_syn_v5_pub.png?400|Složení publicistické části korpusu SYN verze 5}}] | [{{:cnk:slozeni_syn_v6_pub.png?400|Složení publicistické části korpusu SYN verze 6}}] |
| |
====== Struktura a anotace korpusu SYN verze 6 ====== | ====== Struktura a anotace korpusu SYN verze 6 ====== |
| |
<WRAP round tip 70%> | <WRAP round tip 70%> |
Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: //Korpus SYN, verze 5 z 24. 4. 2017//FIXME. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz. | Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: //Korpus SYN, verze 6 z 18. 12. 2017//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz. |
| |
Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. | Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. |