AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze
Předchozí verze
cnk:syn:verze7 [2018/12/20 12:00] – vytvořeno michalskrabalcnk:syn:verze7 [2022/08/29 17:23] (aktuální) – BatchEdit: pojmy>seznamy texty cvrcek
Řádek 5: Řádek 5:
 ^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 7</fs> ^ ^ <fs medium>Název</fs> ^^ <fs medium>SYN verze 7</fs> ^
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  5 100 437 261 |   ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  5 100 437 261 |  
-^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] |  4 033 268 842 |  +^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] |  4 255 216 412 |  
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  11 632 632 |   ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  11 632 632 |  
 ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  8 360 795 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  8 360 795 |
 ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] |  106 350 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] |  106 350 |
-^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] |  16 377 839 |+^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|textů]] |  16 377 839 |
 ^ ::: ^ Počet vět |  325 540 933 | ^ ::: ^ Počet vět |  325 540 933 |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |   ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |  
Řádek 16: Řádek 16:
 </WRAP> </WRAP>
  
-Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 7 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a [[cnk:syn2015|SYN2015]]; kromě nich je však jeho součástí také publicistika z let 2010–2016, která je již součástí korpusů [[cnk:syn:verze4|SYN verze 4]], [[cnk:syn:verze5|verze 5]] a [[cnk:syn:verze6|verze 6]], a také **dosud nezveřejněná publicistika z roku 2017** v objemu více než 265 mil. slov.+Každý **korpus SYN** obsahuje vždy všechny [[pojmy:synchronni|synchronní]] [[pojmy:psany|psané]] korpusy řady SYN (viz popis celé řady [[cnk:syn|SYN]]) zveřejněné do doby vzniku dané verze. Korpus SYN verze 7 tedy zahrnuje korpusy [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a [[cnk:syn2015|SYN2015]]; kromě nich je však jeho součástí také publicistika z let 2010–2016, která je již součástí korpusů [[cnk:syn:verze4|SYN verze 4]], [[cnk:syn:verze5|verze 5]] a [[cnk:syn:verze6|verze 6]], a také **dosud nezveřejněná publicistika z roku 2017** v objemu téměř 200 mil. slov.
  
-Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 7 dána součtem jejich velikostí, který činí 4,033 miliardy textových slov ([[[[pojmy:token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2017.+Protože jsou všechny tyto složky navzájem **disjunktní** (tj. neobsahují stejné texty), je celková velikost korpusu SYN verze 7 dána součtem jejich velikostí, který činí 4,255 miliardy textových slov ([[[[pojmy:token|tokenů]] bez interpunkce). Korpus SYN není [[pojmy:reprezentativnost|reprezentativní]]; v jeho složení dominuje publicistika, což je důsledkem převahy rozsáhlých publicistických korpusů [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]], [[cnk:syn2013pub|SYN2013PUB]] a publicistické složky z let 2010–2017.
  
 Korpus SYN verze 7 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:atributy_strukturni|strukturní]] a [[pojmy:atributy_pozicni|poziční]] anotace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<doc syn>'' rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 7 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v7<nowiki>"</nowiki>''. Korpus SYN verze 7 je [[pojmy:referencni|referenční]], a zůstane tedy uživatelům neustále dostupný i po zveřejnění novějších verzí (je ovšem třeba upozornit na postupné zastarávání dodané [[pojmy:atributy_strukturni|strukturní]] a [[pojmy:atributy_pozicni|poziční]] anotace, které z referenčnosti zákonitě vyplývá). Jednotlivé verze korpusu SYN budou nadále zveřejňovány pravidelně každý rok s přírůstkem v podobě aktuálních publicistických dat, přičemž tento přírůstek bude označen hodnotou atributu ''<doc syn>'' rovnou verzi korpusu SYN, v níž se daný text objevil poprvé; například [[pojmy:subkorpus|subkorpus]] odpovídající výše zmíněné dosud nezveřejněné publicistice tak lze ze SYN verze 7 [[manualy:kontext:subkorpus#vytvoreni_noveho_subkorpusu|vytvořit]] zadáním podmínky ''syn=<nowiki>"</nowiki>v7<nowiki>"</nowiki>''.
Řádek 38: Řádek 38:
 Složení publicistické části korpusu SYN verze 7 pokrývá produkci hlavních celostátních deníků (//Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport//), regionálních deníků (především //Deníky Bohemia// a //Moravia// z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (//Reflex, Respekt, Týden//) v letech 1998--2017; celkový počet publicistických titulů je 176. Následující grafy ukazují složení korpusu SYN podle [[pojmy:txtype_group|hlavních textových typů]] v jednotlivých letech a nabízejí bližší pohled na složení publicistické části.  Složení publicistické části korpusu SYN verze 7 pokrývá produkci hlavních celostátních deníků (//Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk, Sport//), regionálních deníků (především //Deníky Bohemia// a //Moravia// z produkce nakladatelství Vltava Labe Media) a nespecializovaných časopisů (//Reflex, Respekt, Týden//) v letech 1998--2017; celkový počet publicistických titulů je 176. Následující grafy ukazují složení korpusu SYN podle [[pojmy:txtype_group|hlavních textových typů]] v jednotlivých letech a nabízejí bližší pohled na složení publicistické části. 
  
-[{{:cnk:slozeni_syn_v6.png?400|Složení korpusu SYN verze 7}}]+[{{:cnk:syn:slozeni_syn_v7.png?400|Složení korpusu SYN verze 7}}]
  
-[{{:cnk:slozeni_syn_v6_pub.png?400|Složení publicistické části korpusu SYN verze 7}}]+[{{:cnk:syn:slozeni_syn_v7_pub.png?400|Složení publicistické části korpusu SYN verze 7}}]
  
 ====== Struktura a anotace korpusu SYN verze 7 ====== ====== Struktura a anotace korpusu SYN verze 7 ======
  
-Korpus SYN verze 7 je co do [[pojmy:atributy_strukturni|strukturace]] a [[pojmy:anotace|anotace]] textů shodný se svými předchůdci: [[cnk:syn:verze6|verzí 6]] [[cnk:syn:verze5|verzí 5]] a [[cnk:syn:verze4|verzí 4]]. Opírá se tudíž o [[cnk:syn2015#struktura_korpusu_a_strukturni_znacky|hierarchii strukturních značek]] a jejich atributů a o [[cnk:klasifikace_textu_syn2015|klasifikaci textů]] podle [[cnk:syn2015|korpusu SYN2015]], až na dvě výjimky: +Korpus SYN verze 7 je co do [[pojmy:atributy_strukturni|strukturace]] a [[pojmy:anotace|anotace]] textů shodný se svými předchůdci: [[cnk:syn:verze6|verzí 6]][[cnk:syn:verze5|verzí 5]] a [[cnk:syn:verze4|verzí 4]]. Opírá se tudíž o [[cnk:syn2015#struktura_korpusu_a_strukturni_znacky|hierarchii strukturních značek]] a jejich atributů a o [[cnk:klasifikace_textu_syn2015|klasifikaci textů]] podle [[cnk:syn2015|korpusu SYN2015]], až na dvě výjimky: 
  
   * přidání atributu ''<doc syn>'' pro [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|vytváření subkorpusů odpovídajících původním referenčním korpusům]];   * přidání atributu ''<doc syn>'' pro [[cnk:syn#referencni_korpusy_jako_subkorpusy_v_syn|vytváření subkorpusů odpovídajících původním referenčním korpusům]];
Řádek 52: Řádek 52:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: //Korpus SYN, verze 7 z 29. 11. 2018//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz.+Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: //Korpus SYN, verze 7 z 29. 11. 2018//. Ústav Českého národního korpusu FF UK, Praha 2018. Dostupný z WWW: http://www.korpus.cz.
  
 Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4.